Бэкенд ChatGPT: 900 млн пользователей и одна база данных

OpenAI раскрыла секреты работы бэкенда ChatGPT, сервиса с 800-900 миллионами активных пользователей в неделю. Вопреки ожиданиям, компания использует архитектуру с одним основным сервером и примерно 50 репликами для чтения, обходясь без шардирования.

Удивление от OpenAI

Инженер OpenAI Бохан Чжан на конференции PGConf.Dev 2025 представил детали работы кластера PostgreSQL, который обрабатывает более миллиона запросов в секунду. Время отклика составляет низкие двузначные миллисекунды на 99-м перцентиле. Все это достигается на стандартном PostgreSQL без кастомных модификаций, только с грамотной настройкой пулинга соединений, оптимизацией запросов и продуманной индексацией.

Узкое место архитектуры

Узкое место архитектуры — запись. Все операции записи идут в единственный основной сервер, поэтому команда жестко оптимизирует эту часть:

Выносят записи куда возможно
Сглаживают пики через отложенную запись
Контролируют скорость массовой загрузки данных

Оптимизация чтения

Чтение масштабируется проще — реплики распределены по разным регионам, а трафик разделен по приоритетам:

Для критичных запросов выделены отдельные реплики
Чтобы их не тормозили тяжелые аналитические выборки

Результат

Результат — за последние девять месяцев только один серьезный инцидент, связанный с PostgreSQL. Подход OpenAI идёт вразрез с трендом на распределенные базы данных.

Почему этот подход разумен

Шардирование упрощает масштабирование записи, но усложняет все остальное: поиск данных, миграции, бэкапы. В OpenAI решили, что для нагрузки ChatGPT с преобладанием чтения выжать максимум из одного кластера — разумнее, чем городить распределенную архитектуру.

В будущем возможно дальнейшее развитие и усовершенствование этого подхода, что позволит ChatGPT продолжать работать стабильно и эффективно.