Claude Opus 4.5 установил рекорд автономности среди ИИ-моделей

Claude Opus 4.5 — новый лидер в автономности ИИ-моделей

Организация METR, специализирующаяся на оценке способностей ИИ-моделей, опубликовала результаты тестирования Claude Opus 4.5. Согласно данным, модель от Anthropic продемонстрировала рекордный 50%-ный горизонт автономности в 4 часа 49 минут.

Что такое горизонт автономности?

Горизонт автономности — это показатель, характеризующий способность ИИ-модели выполнять задачи без вмешательства человека. Он измеряется в человеко-часах работы и показывает, с какой вероятностью модель способна справиться с задачей определенной длительности.

Достижения и ограничения

Claude Opus 4.5 показал лучший результат среди всех протестированных систем, обогнав предыдущего лидера, GPT-5.1-Codex-Max от OpenAI, с его 2 часами 53 минутами. Однако исследователи METR предупреждают, что интерпретировать результаты следует с осторожностью.

Доверительный интервал результата очень широк: от 1 часа 49 минут до 20 часов 25 минут.
В текущем тестовом наборе недостаточно длинных задач, чтобы точно оценить верхнюю границу способностей модели.

Нюансы рекорда

При более строгом пороге в 80% успеха горизонт Opus 4.5 значительно снижается до 27 минут, сопоставимо с GPT-5.1-Codex-Max и другими недавними моделями. Рекордные 5 часов достигаются только при 50%-ной надежности.

Перспективы развития

Если тренд удвоения сохранится, к концу десятилетия ИИ-агенты смогут автономно выполнять проекты длительностью в месяц. Однако критики указывают на ограничения методологии METR и обещают обновить тестовый набор для более точных измерений прогресса в будущем.

Заключение

Claude Opus 4.5 демонстрирует значительные прорывы в автономности, но стабильность его работы остается на уровне предшественников. Развитие ИИ-моделей продолжает стремительно прогрессировать, и будущие обновления методологии METR позволят более точно оценить достижения в этой области.