Хакеры нашли способ скрывать вредоносные запросы к ИИ в изображениях

Эксперты из Trail of Bits обнаружили новый способ атаки на системы искусственного интеллекта, позволяющий скрывать вредоносные запросы в изображениях.

Как работает атака

Атака с внедрением подсказок — это способ сделать инструкции для системы ИИ невидимыми для оператора-человека. Исследователи нашли способ скрывать такие инструкции в изображениях, делая текст невидимым для человеческого глаза.

При последующей загрузке изображения в систему ИИ и его сжатии нейросетью подсказка становится доступной для распознавания, расшифровывается и может быть выполнена — всё это абсолютно незаметно для человека.

Пример атаки

В примере, представленном Trail of Bits, при загрузке изображения с внедрённой подсказкой в Gemini бэкенд Google сжимает его для экономии пропускной способности и вычислительных ресурсов. В результате скрытый текст становится видимым для нейросети, и подсказка успешно внедряется.

Например, подсказка может сообщать Gemini о необходимости передать данные из личного календаря пользователя третьей стороне.

Риски и последствия

Инструменты ИИ сегодня популярны даже среди пользователей, не слишком разбирающихся в традиционном ПО или вопросах безопасности, и это открывает множество новых возможностей для хакеров.

Такой метод требует значительных усилий ради получения относительно небольшого объёма персональных данных, причём и сама атака, и изображение должны быть адаптированы под конкретную систему ИИ.

Защита от атак

Пока нет доказательств того, что метод активно используется злоумышленниками. Но это показательный пример того, как на первый взгляд безобидное действие может превратиться в вектор атаки.

Эксперты рекомендуют быть осторожными при загрузке изображений в системы ИИ и использовать дополнительные меры безопасности для защиты персональных данных.

В будущем возможны новые разработки в области защиты от таких атак, а также улучшение методов обнаружения и предотвращения вредоносных запросов к ИИ.