GPT-5 взломан за 24 часа: уязвимости в системе безопасности

GPT-5 показал уязвимость к атакам

Независимые исследовательские компании NeuralTrust и SPLX протестировали недавно выпущенную нейросеть GPT-5 и обнаружили критические уязвимости в ее системе безопасности. GPT-5 был взломан за 24 часа, что позволило злоумышленникам получить рецепты запрещенных веществ.

Методика взлома

NeuralTrust использовала комбинацию методики EchoChamber и техники сторителлинга, чтобы заставить GPT-5 сгенерировать инструкцию по изготовлению зажигательной смеси в кустарных условиях. SPLX, в свою очередь, обнаружила уязвимости к атакам с применением обфускации запросов.

Уязвимости в системе безопасности

Проблема заключается в том, что система безопасности GPT-5 анализирует каждый запрос по отдельности, но не учитывает кумулятивный эффект многоэтапного диалога. Атакующие могут постепенно закреплять нужный контекст, встраивая ключевые слова в безобидные фразы, а затем мягко подводить модель к генерации опасного контента.

Сравнение с GPT-4o

SPLX провела сравнительный анализ с GPT-4o и пришла к выводу, что предыдущая модель оказалась более надежной в плане устойчивости к подобным атакам.

Recommendations

NeuralTrust и SPLX призвали компании проявлять осторожность при использовании «сырой» версии GPT-5 в бизнес-среде. «Сырую модель GPT-5 практически невозможно использовать в корпоративных приложениях «из коробки». Даже внутренний уровень подсказок OpenAI оставляет значительные пробелы, особенно в области бизнес-согласования», — заявили в SPLX.

Future developments

В будущем компании должны уделять больше внимания безопасности своих нейросетей, чтобы предотвратить подобные атаки. Кроме того, необходимо разработать более эффективные методы защиты от обфускации запросов и других видов атак.