Эволюция архитектур нейросетей: от перцептрона до трансформера

Нейросети прошли долгий путь развития от простых моделей до сложных архитектур, способных решать широкий спектр задач. В этой статье мы рассмотрим историю эволюции нейросетей от перцептрона до трансформера.

Перцептрон Розенблатта

В 1957 году американский нейрофизиолог Фрэнк Розенблатт представил миру простейшую математическую модель и схему устройства, способного воспроизводить процесс восприятия информации человеческим мозгом. Устройство получило название перцептрон.

Перцептрон принимал на вход числа, умножал их на веса, суммировал и пропускал через функцию активации, выдавая линейно разделимый ответ: да/нет, черное/белое, +/– и тому подобное.

Многослойный перцептрон (MLP)

Только к 1986 году американский ученый Дэвид Румельхарт разработал (воссоздал) первую полноценную ИИ-архитектуру — многослойный перцептрон.

MLP состоял из входных, скрытых и выходных слоев перцептронов, где информация двигалась строго вперед, от входа к выходу.

Рекуррентные нейронные сети

Для работы с объемами данных были придуманы рекуррентные нейронные сети (RNN), способные сохранять информацию о своих предыдущих состояниях.

Первую модель, которую можно отнести к этой архитектуре, представил в 1982 году Джон Хопфилд.

CNN

CNN, или сверточная нейронная сеть, решила проблему работы с изображениями. CNN была представлена в 1988 году Яном Лекуном и предназначена для эффективного распознавания образов.

Ключевая идея сверточных сетей — использование локальной связности и разделяемых весов.

Длинная краткосрочная память

Для решения проблемы RNN была предложена разновидность этой архитектуры. В 1997 году Зепп Хохрайтер и Юрген Шмидхубер предложили длинную краткосрочную память (LSTM).

Сеть решает, что запомнить, а что забыть на каждом временном шаге.

Трансформеры

Архитектуры на основе рекуррентных и сверточных нейронных сетей доминировали в задачах обработки естественного языка вплоть до 2017 года, когда команда исследователей из Google представила архитектуру Transformer.

Трансформеры решили фундаментальную проблему рекуррентных сетей — невозможность параллельной обработки последовательностей из-за их природы.