Claude Sonnet 4.6 только что ускорил большую гонку ИИ: Anthropic загоняет в угол Gemini 3 Pro и GPT-5.2 больше, чем когда-либо

Подумайте на мгновение о моделях искусственного интеллекта, которые вы использовали в последние дни. Возможно, это было сделано с помощью ChatGPT, Gemini или Claude, или, возможно, с помощью таких инструментов, как Codex, Claude Code или Cursor AI. На практике выбор, как правило, прост: в конечном итоге мы используем то, что лучше всего соответствует тому, что нам нужно в любой момент, почти не задумываясь о технологии, стоящей за ней.
Однако этот баланс часто меняется. Каждая появляющаяся новая модель обещает улучшения, новые возможности или другие способы работы, и вместе с этим возникает довольно прямой вопрос: стоит ли его попробовать, действительно ли он может предложить нам что-то лучшее или того, что мы уже используем, все еще достаточно. Claude Sonnet 4.6 только что вышел на первый план, и именно так он позиционируется по сравнению с конкурентами.
Отправная точка для Claude Sonnet 4.6. Здесь мы находим то, что Anthropic описывает как всестороннее улучшение возможностей, включая достижения в области кодирования, использования компьютеров, пространного контекстного мышления, планирования агентов и задач, характерных для интеллектуальной и творческой работы. К этому набору добавляется контекстное окно с количеством токенов до миллиона в бета-версии, предназначенное для обработки целых кодовых баз, обширных контрактов или больших коллекций информации без фрагментации.
Три уровня на одной карте. Чтобы понять, где подходит Sonnet 4.6, стоит взглянуть на то, как Anthropic обычно сортирует свое семейство моделей на разных уровнях с разными целями. Haiku ставит во главу угла скорость и эффективность, Opus зарезервирован для задач, требующих самых глубоких рассуждений, а Sonnet занимает промежуточное положение, задуманное как баланс между производительностью и эксплуатационными расходами. В этих рамках компания утверждает, что новый Sonnet приближается в некоторых реальных работах к производительности, которая ранее была связана с Opus, что является амбициозным требованием.
Когда ИИ начинает использовать компьютер. Одним из улучшений, которые Anthropic подчеркивает с большим акцентом в Sonnet 4.6, является его прогресс в том, что он называет компьютерным использованием, то есть способность модели взаимодействовать с программным обеспечением аналогично человеку, не полагаясь на API, разработанные специально для автоматизация. Этот прорыв поддерживается такими ссылками, как OSWorld-Verified, среда тестирования с реальными приложениями, в которой семейство Sonnet постоянно совершенствовалось в течение нескольких месяцев. Компания также признает ограничения и риски, о которых мы говорили ранее, такие как попытки манипулирования с помощью prompt injection.

В поисках ‘лучшей’ модели. На этом этапе актуальный вопрос перестает заключаться в том, насколько Sonnet 4.6 улучшился в абсолютном выражении, и вместо этого сосредотачивается на том, как он позиционируется по сравнению с другими крупными моделями, которые сегодня конкурируют за то же пространство использования. Сравнение непростое и не допускает единого победителя, потому что каждая система выделяется в разных областях и отвечает разным техническим приоритетам. Вот почему полезно прочитать тесты с практической точки зрения, определив, в каких конкретных задачах проявляются реальные различия.
Где каждая модель выделяется. Прямое сравнение с GPT-5.2 дает больше преимуществ, чем явная победа. Согласно таблице, опубликованной Anthropic, Sonnet 4.6 особенно широко выделяется в автономном использовании компьютера, измеряемом в OSWorld-Verified, помимо демонстрации преимущества в офисных задачах (GDPval-AA Elo) и в некоторых сценариях анализа или решения проблем (Finance Agent v1.1, ARC-AGI-2). GPT-5.2, со своей стороны, поддерживает лучшие результаты в рассуждениях на уровне Graduate (GPQA Diamond), визуальном понимании (MMMU-Pro) и программировании в терминале (Terminal-Bench 2.0), с такими нюансами, как результаты, отмеченные как Pro в некоторых тестах.
Сравнение с Gemini 3 Pro вносит особый нюанс, потому что здесь преимущества сосредоточены, прежде всего, в области рассуждений и общих знаний. Модель Google показывает лучшие результаты в тестах на логическое мышление на уровне выпускников (GPQA Diamond) и в многоязычных тестах широкого спектра (MMMLU), а также опережает в области визуального мышления без инструментов (MMMU-Pro). Sonnet 4.6, с другой стороны, сохраняет определенное преимущество, когда в игру вступают внешние инструменты или сценарии, более близкие к прикладной работе. Отсутствие каких-либо сопоставимых данных в самой таблице в любом случае вынуждает интерпретировать этот поединок с осторожностью.
Где можно использовать Sonnet 4.6. Новая модель доступна во всех планах Claude, включая уровень бесплатного пользования, где она также становится опцией по умолчанию в claude.ai и Клода Коврика. Его также можно использовать через Claude Code, API и основные облачные платформы, сохраняя при этом ту же цену, что и версия Sonnet 4.5.
После изучения возможностей, ограничений и сравнений реальное решение возвращается к повседневной жизни пользователя. Sonnet 4.6 стремится оказаться особенно полезным при выполнении продуктивных задач, прямом взаимодействии с программным обеспечением и длительных рабочих процессах, в то время как GPT-5.2 и Gemini 3 Pro сохраняют преимущества в академическом мышлении, визуальном понимании или общих знаниях в зависимости от рассматриваемого теста. Ни один из них не доминирует на всех фронтах, и эта фрагментарность во многом говорит о текущем моменте ИИ.
Редактор: AndreyEx