Anthropic выпустила Claude Opus 4.6 с контекстом в 1М токенов

Anthropic представила обновление Claude Opus 4.6

Anthropic выпустила Claude Opus 4.6 — обновление флагманской модели, которое впервые для линейки Opus получило контекстное окно в 1 млн токенов (в бета-версии) и выход до 128 тысяч токенов.

Рекорды в бенчмарках

На бенчмарке рабочих задач GDPval-AA модель обходит GPT-5.2 от OpenAI на 144 очка Elo, а собственный предыдущий Opus 4.5 — на 190. Opus 4.6 также занял первое место на Terminal-Bench 2.0 (агентное программирование), Humanity’s Last Exam (мультидисциплинарное рассуждение) и BrowseComp (поиск труднодоступной информации в сети).

Улучшения в работе с длинным контекстом

По словам разработчиков, модель тщательнее планирует задачи, дольше удерживает фокус в агентных сценариях, увереннее работает с большими кодовыми базами и лучше находит собственные ошибки при ревью. Особенно заметен прогресс в работе с длинным контекстом — проблема, которую в индустрии называют context rot: качество ответов падает по мере роста объема переданного текста.

Новые инструменты для разработчиков

Для разработчиков появилось несколько новых инструментов:

Adaptive thinking позволяет модели самой решать, когда ей нужно «думать глубже»;
Параметр effort даёт четыре уровня (low, medium, high, max) для баланса между качеством, скоростью и стоимостью;
Context compaction автоматически сжимает старый контекст при приближении к лимиту окна, что позволяет агентам работать дольше без потери нити.

Обновления на продуктовом уровне

На продуктовом уровне главное нововведение — agent teams в Claude Code: несколько агентов работают параллельно, координируются между собой и при необходимости передают управление разработчику. Anthropic позиционирует это для задач, которые разбиваются на независимые части, — например, ревью кодовой базы.

Результаты партнеров Anthropic

Партнеры Anthropic, получившие ранний доступ, делятся первыми результатами. Rakuten рассказал, что Opus 4.6 за один день автономно закрыл 13 задач и распределил ещё 12 среди нужных команд в организации из ~50 человек и 6 репозиториев — модель сама определяла, когда эскалировать вопрос к человеку.

Безопасность и цена

Anthropic утверждает, что рост возможностей не повредил безопасности: Opus 4.6 показал самый низкий уровень ложных отказов (когда модель отказывается отвечать на безобидные запросы) среди последних моделей Claude и в целом сохранил профиль безопасности предшественника. Цена осталась прежней — $5/$25 за миллион токенов на входе и выходе соответственно, с премиум-тарифом при превышении 200 тысяч входных токенов.

Conclusion

В заключении, обновление Claude Opus 4.6 представляет собой значительный шаг вперед в области искусственного интеллекта, демонстрируя впечатляющие результаты в бенчмарках и предоставляя новые инструменты для разработчиков.