Anthropic выпустила Claude Opus 4.6 с контекстом в 1М токенов

Anthropic выпустила Claude Opus 4.6 с контекстом в 1М токенов
Anthropic выпустила Claude Opus 4.6 с контекстом в 1М токенов (image source)

Anthropic представила обновление Claude Opus 4.6

Anthropic выпустила Claude Opus 4.6 — обновление флагманской модели, которое впервые для линейки Opus получило контекстное окно в 1 млн токенов (в бета-версии) и выход до 128 тысяч токенов.

Рекорды в бенчмарках

На бенчмарке рабочих задач GDPval-AA модель обходит GPT-5.2 от OpenAI на 144 очка Elo, а собственный предыдущий Opus 4.5 — на 190. Opus 4.6 также занял первое место на Terminal-Bench 2.0 (агентное программирование), Humanity’s Last Exam (мультидисциплинарное рассуждение) и BrowseComp (поиск труднодоступной информации в сети).

Улучшения в работе с длинным контекстом

По словам разработчиков, модель тщательнее планирует задачи, дольше удерживает фокус в агентных сценариях, увереннее работает с большими кодовыми базами и лучше находит собственные ошибки при ревью. Особенно заметен прогресс в работе с длинным контекстом — проблема, которую в индустрии называют context rot: качество ответов падает по мере роста объема переданного текста.

Новые инструменты для разработчиков

Для разработчиков появилось несколько новых инструментов:

  • Adaptive thinking позволяет модели самой решать, когда ей нужно «думать глубже»;
  • Параметр effort даёт четыре уровня (low, medium, high, max) для баланса между качеством, скоростью и стоимостью;
  • Context compaction автоматически сжимает старый контекст при приближении к лимиту окна, что позволяет агентам работать дольше без потери нити.

Обновления на продуктовом уровне

На продуктовом уровне главное нововведение — agent teams в Claude Code: несколько агентов работают параллельно, координируются между собой и при необходимости передают управление разработчику. Anthropic позиционирует это для задач, которые разбиваются на независимые части, — например, ревью кодовой базы.

Результаты партнеров Anthropic

Партнеры Anthropic, получившие ранний доступ, делятся первыми результатами. Rakuten рассказал, что Opus 4.6 за один день автономно закрыл 13 задач и распределил ещё 12 среди нужных команд в организации из ~50 человек и 6 репозиториев — модель сама определяла, когда эскалировать вопрос к человеку.

Безопасность и цена

Anthropic утверждает, что рост возможностей не повредил безопасности: Opus 4.6 показал самый низкий уровень ложных отказов (когда модель отказывается отвечать на безобидные запросы) среди последних моделей Claude и в целом сохранил профиль безопасности предшественника. Цена осталась прежней — $5/$25 за миллион токенов на входе и выходе соответственно, с премиум-тарифом при превышении 200 тысяч входных токенов.

Conclusion

В заключении, обновление Claude Opus 4.6 представляет собой значительный шаг вперед в области искусственного интеллекта, демонстрируя впечатляющие результаты в бенчмарках и предоставляя новые инструменты для разработчиков.

News Express Team
News Express Team

News Express' team of experienced editors and journalists delivers timely and reliable reporting on Russian politics, economics, technology and world affairs from a unique regional perspective. Stay informed with our dedicated journalists.

en_USEN