
OpenAI раскрыла секреты работы бэкенда ChatGPT, сервиса с 800-900 миллионами активных пользователей в неделю. Вопреки ожиданиям, компания использует архитектуру с одним основным сервером и примерно 50 репликами для чтения, обходясь без шардирования.
Удивление от OpenAI
Инженер OpenAI Бохан Чжан на конференции PGConf.Dev 2025 представил детали работы кластера PostgreSQL, который обрабатывает более миллиона запросов в секунду. Время отклика составляет низкие двузначные миллисекунды на 99-м перцентиле. Все это достигается на стандартном PostgreSQL без кастомных модификаций, только с грамотной настройкой пулинга соединений, оптимизацией запросов и продуманной индексацией.
Узкое место архитектуры
Узкое место архитектуры — запись. Все операции записи идут в единственный основной сервер, поэтому команда жестко оптимизирует эту часть:
- Выносят записи куда возможно
- Сглаживают пики через отложенную запись
- Контролируют скорость массовой загрузки данных
Оптимизация чтения
Чтение масштабируется проще — реплики распределены по разным регионам, а трафик разделен по приоритетам:
- Для критичных запросов выделены отдельные реплики
- Чтобы их не тормозили тяжелые аналитические выборки
Результат
Результат — за последние девять месяцев только один серьезный инцидент, связанный с PostgreSQL. Подход OpenAI идёт вразрез с трендом на распределенные базы данных.
Почему этот подход разумен
Шардирование упрощает масштабирование записи, но усложняет все остальное: поиск данных, миграции, бэкапы. В OpenAI решили, что для нагрузки ChatGPT с преобладанием чтения выжать максимум из одного кластера — разумнее, чем городить распределенную архитектуру.
В будущем возможно дальнейшее развитие и усовершенствование этого подхода, что позволит ChatGPT продолжать работать стабильно и эффективно.





