Эволюция архитектур нейросетей: от перцептрона до трансформера

Эволюция архитектур нейросетей: от перцептрона до трансформера
Эволюция архитектур нейросетей: от перцептрона до трансформера (image source)

Эволюция архитектур нейросетей: от перцептрона до трансформера

Нейросети прошли долгий путь развития от простых моделей до сложных архитектур, способных решать широкий спектр задач. В этой статье мы рассмотрим историю эволюции нейросетей от перцептрона до трансформера.

Перцептрон Розенблатта

В 1957 году американский нейрофизиолог Фрэнк Розенблатт представил миру простейшую математическую модель и схему устройства, способного воспроизводить процесс восприятия информации человеческим мозгом. Устройство получило название перцептрон.

Перцептрон принимал на вход числа, умножал их на веса, суммировал и пропускал через функцию активации, выдавая линейно разделимый ответ: да/нет, черное/белое, +/– и тому подобное.

Многослойный перцептрон (MLP)

Только к 1986 году американский ученый Дэвид Румельхарт разработал (воссоздал) первую полноценную ИИ-архитектуру — многослойный перцептрон.

MLP состоял из входных, скрытых и выходных слоев перцептронов, где информация двигалась строго вперед, от входа к выходу.

Рекуррентные нейронные сети

Для работы с объемами данных были придуманы рекуррентные нейронные сети (RNN), способные сохранять информацию о своих предыдущих состояниях.

Первую модель, которую можно отнести к этой архитектуре, представил в 1982 году Джон Хопфилд.

CNN

CNN, или сверточная нейронная сеть, решила проблему работы с изображениями. CNN была представлена в 1988 году Яном Лекуном и предназначена для эффективного распознавания образов.

Ключевая идея сверточных сетей — использование локальной связности и разделяемых весов.

Длинная краткосрочная память

Для решения проблемы RNN была предложена разновидность этой архитектуры. В 1997 году Зепп Хохрайтер и Юрген Шмидхубер предложили длинную краткосрочную память (LSTM).

Сеть решает, что запомнить, а что забыть на каждом временном шаге.

Трансформеры

Архитектуры на основе рекуррентных и сверточных нейронных сетей доминировали в задачах обработки естественного языка вплоть до 2017 года, когда команда исследователей из Google представила архитектуру Transformer.

Трансформеры решили фундаментальную проблему рекуррентных сетей — невозможность параллельной обработки последовательностей из-за их природы.

Summary

Все началось с попытки воссоздать работу биологического нейрона, а выросло до архитектуры, понимающей контекст запросов.

История показывает траекторию эволюции от чего-то простого к тому, что сейчас мы называем нейросетями.

News Express Team
News Express Team

News Express' team of experienced editors and journalists delivers timely and reliable reporting on Russian politics, economics, technology and world affairs from a unique regional perspective. Stay informed with our dedicated journalists.

en_USEN