Claude Opus 4.6 лидирует в рейтинге ИИ-дизайна, Anthropic занимает три места в топ-5

Claude Opus 4.6 — лидер Design Arena

Модель Claude Opus 4.6 от Anthropic заняла первое место в бенчмарке Design Arena, где пользователи оценивают фронтенд, сгенерированный разными ИИ-моделями. Интересно, что версия без режима рассуждений набрала 1385 баллов Elo и оказалась более успешной, чем версия с режимом思考 (Thinking), которая набрала 1377 баллов.

Результаты Design Arena

Design Arena работает по принципу «нравится или нет»: пользователям показываются два анонимных варианта сайта, UI-компонента или визуализации данных, созданных по одному и тому же промпту, и они голосуют за лучший. На момент публикации результатов было набрано более 806 тысяч голосов.

Claude Opus 4.6 — устойчивый лидер

Анализ результатов Claude Opus 4.6 по 145 турнирам показывает устойчивое доминирование: модель финишировала первой в 72 случаях, второй — в 38, третьей — в 19 и четвертой — в 16.

Сравнение с другими моделями

GPT-5.2 от OpenAI в общем рейтинге оказалась только на 11-м месте (1277 баллов в варианте XHigh), а GPT-5 (High) — на 19-м с 1263 баллами.

Прогресс в дизайне

Результат особенно показателен на фоне того, что ещё год назад именно слабый дизайн считался ахиллесовой пятой языковых моделей. Основатели Design Arena признавались, что именно это наблюдение подтолкнуло их создать бенчмарк — модели застряли в «зловещей долине» дизайна.

Conclusion

Судя по текущему лидерборду, как минимум Claude из этой долины выбрался. Результат Claude Opus 4.6 и других моделей Anthropic в Design Arena говорит о значительном прогрессе в области ИИ-дизайна.