
Эволюция архитектур нейросетей: от перцептрона до трансформера
Нейросети прошли долгий путь развития от простых моделей до сложных архитектур, способных решать широкий спектр задач. В этой статье мы рассмотрим историю эволюции нейросетей от перцептрона до трансформера.
Перцептрон Розенблатта
В 1957 году американский нейрофизиолог Фрэнк Розенблатт представил миру простейшую математическую модель и схему устройства, способного воспроизводить процесс восприятия информации человеческим мозгом. Устройство получило название перцептрон.
Перцептрон принимал на вход числа, умножал их на веса, суммировал и пропускал через функцию активации, выдавая линейно разделимый ответ: да/нет, черное/белое, +/– и тому подобное.
Многослойный перцептрон (MLP)
Только к 1986 году американский ученый Дэвид Румельхарт разработал (воссоздал) первую полноценную ИИ-архитектуру — многослойный перцептрон.
MLP состоял из входных, скрытых и выходных слоев перцептронов, где информация двигалась строго вперед, от входа к выходу.
Рекуррентные нейронные сети
Для работы с объемами данных были придуманы рекуррентные нейронные сети (RNN), способные сохранять информацию о своих предыдущих состояниях.
Первую модель, которую можно отнести к этой архитектуре, представил в 1982 году Джон Хопфилд.
CNN
CNN, или сверточная нейронная сеть, решила проблему работы с изображениями. CNN была представлена в 1988 году Яном Лекуном и предназначена для эффективного распознавания образов.
Ключевая идея сверточных сетей — использование локальной связности и разделяемых весов.
Длинная краткосрочная память
Для решения проблемы RNN была предложена разновидность этой архитектуры. В 1997 году Зепп Хохрайтер и Юрген Шмидхубер предложили длинную краткосрочную память (LSTM).
Сеть решает, что запомнить, а что забыть на каждом временном шаге.
Трансформеры
Архитектуры на основе рекуррентных и сверточных нейронных сетей доминировали в задачах обработки естественного языка вплоть до 2017 года, когда команда исследователей из Google представила архитектуру Transformer.
Трансформеры решили фундаментальную проблему рекуррентных сетей — невозможность параллельной обработки последовательностей из-за их природы.
Итог
Все началось с попытки воссоздать работу биологического нейрона, а выросло до архитектуры, понимающей контекст запросов.
История показывает траекторию эволюции от чего-то простого к тому, что сейчас мы называем нейросетями.







