DeepSeek-V3.2: Открытая модель на уровне GPT-5 и победитель олимпиад

DeepSeek-V3.2: Открытая модель на уровне GPT-5 и победитель олимпиад
DeepSeek-V3.2: Открытая модель на уровне GPT-5 и победитель олимпиад (источник изображения)

DeepSeek-V3.2: прорыв в области ИИ

Компания DeepSeek представила новые открытые модели V3.2 и V3.2-Speciale, которые демонстрируют впечатляющие результаты. Обычная модель V3.2 показывает уровень GPT-5 Thinking и доступна бесплатно в веб-версии и приложениях. Speciale стала первой широкодоступной моделью, которая показала уровень золотой медали в олимпиадах по математике, информатике, а также финала чемпионата мира по программированию.

Секрет успеха

В техническом отчете DeepSeek описаны три основные составляющие успеха:

  • DeepSeek Sparse Attention: модель выбирает только 2048 самых релевантных токенов из 128 тысяч, что снижает сложность с квадратичной до почти линейной.
  • Агрессивное пост-обучение: используется хитрая схема обучения отдельных «специалистов» для математики, кода, логики и агентных задач, с последующим дистилляцией ответов в одну модель.
  • Данные для агентов: используется конвейер из реальных сред и автоматически сгенерированных «игрушечных миров» со сложным планированием.

Ограничения и перспективы

Авторы признают, что из-за меньшего претрейна, модель знает меньше фактов и тратит больше токенов на рассуждения. Однако, разработчики уже пообещали в будущем уделить предварительному обучению больше внимания — ждем DeepSeek V4?

Поддержать развитие ИИ можно подпиской на канал «сбежавшая нейросеть», где автор рассказывает про ИИ с творческой стороны.

News Express Team
News Express Team

Команда News Express, состоящая из опытных редакторов и журналистов, предоставляет своевременные и надежные репортажи о российской политике, экономике, технологиях и мировых событиях с уникальной региональной точки зрения. Будьте в курсе событий с нашими преданными журналистами.

ru_RURU