
DeepSeek-V3.2: прорыв в области ИИ
Компания DeepSeek представила новые открытые модели V3.2 и V3.2-Speciale, которые демонстрируют впечатляющие результаты. Обычная модель V3.2 показывает уровень GPT-5 Thinking и доступна бесплатно в веб-версии и приложениях. Speciale стала первой широкодоступной моделью, которая показала уровень золотой медали в олимпиадах по математике, информатике, а также финала чемпионата мира по программированию.
Секрет успеха
В техническом отчете DeepSeek описаны три основные составляющие успеха:
- DeepSeek Sparse Attention: модель выбирает только 2048 самых релевантных токенов из 128 тысяч, что снижает сложность с квадратичной до почти линейной.
- Агрессивное пост-обучение: используется хитрая схема обучения отдельных «специалистов» для математики, кода, логики и агентных задач, с последующим дистилляцией ответов в одну модель.
- Данные для агентов: используется конвейер из реальных сред и автоматически сгенерированных «игрушечных миров» со сложным планированием.
Ограничения и перспективы
Авторы признают, что из-за меньшего претрейна, модель знает меньше фактов и тратит больше токенов на рассуждения. Однако, разработчики уже пообещали в будущем уделить предварительному обучению больше внимания — ждем DeepSeek V4?
Поддержать развитие ИИ можно подпиской на канал «сбежавшая нейросеть», где автор рассказывает про ИИ с творческой стороны.






