
Claude Opus 4.5 — новый лидер в автономности ИИ-моделей
Организация METR, специализирующаяся на оценке способностей ИИ-моделей, опубликовала результаты тестирования Claude Opus 4.5. Согласно данным, модель от Anthropic продемонстрировала рекордный 50%-ный горизонт автономности в 4 часа 49 минут.
Что такое горизонт автономности?
Горизонт автономности — это показатель, характеризующий способность ИИ-модели выполнять задачи без вмешательства человека. Он измеряется в человеко-часах работы и показывает, с какой вероятностью модель способна справиться с задачей определенной длительности.
Достижения и ограничения
Claude Opus 4.5 показал лучший результат среди всех протестированных систем, обогнав предыдущего лидера, GPT-5.1-Codex-Max от OpenAI, с его 2 часами 53 минутами. Однако исследователи METR предупреждают, что интерпретировать результаты следует с осторожностью.
- Доверительный интервал результата очень широк: от 1 часа 49 минут до 20 часов 25 минут.
- В текущем тестовом наборе недостаточно длинных задач, чтобы точно оценить верхнюю границу способностей модели.
Нюансы рекорда
При более строгом пороге в 80% успеха горизонт Opus 4.5 значительно снижается до 27 минут, сопоставимо с GPT-5.1-Codex-Max и другими недавними моделями. Рекордные 5 часов достигаются только при 50%-ной надежности.
Перспективы развития
Если тренд удвоения сохранится, к концу десятилетия ИИ-агенты смогут автономно выполнять проекты длительностью в месяц. Однако критики указывают на ограничения методологии METR и обещают обновить тестовый набор для более точных измерений прогресса в будущем.
Заключение
Claude Opus 4.5 демонстрирует значительные прорывы в автономности, но стабильность его работы остается на уровне предшественников. Развитие ИИ-моделей продолжает стремительно прогрессировать, и будущие обновления методологии METR позволят более точно оценить достижения в этой области.






