Атака на AI-системы ArtPrompt, позволяющая обойти защиту при помощи ASCII-картинок

Группа исследователей из Вашингтонского, Иллинойсского и Чикагского университетов выявила новый метод обхода ограничений по обработке опасного контента в AI-чатоботах, построенных на основе больших языковых моделей (LLM). Атака основано на том, что языковые модели GPT-3.5, GPT-4 (OpenAI), Gemini (Google), Claude (Anthropic) и Llama2 (Meta) успешно распознают и учитывают в запросах текст, оформленный в виде ASCII-графики. Таким образом, для обхода фильтров опасных вопросов оказалось достаточно указать запрещённые слова в виде ASCII-картинки.

По своей эффективности новый метод атаки заметно превзошёл другие известные способы обхода фильтров в чатботах. Наиболее высокое качество распознавания ASCII-графики зафиксировано в моделях Gemini, GPT-4 и GPT-3.5, уровень успешного обхода фильтров проверочными запросами (HPR, Helpful Rate) в которых при тестировании оценён в 100%, 98% и 92%, показатель успешности проведения атаки (ASR, Attack Success Rate) в 76%, 32% и 76%, а уровень опасности полученных ответов (HS, Harmfulness Score) по пятибалльной шкале в 4.42, 3.38 и 4.56 баллов, соответственно.

Исследователями также продемонстрировано, что распространённые в настоящее время методы защиты от обхода фильтров PPL, Paraphrase и Retokenization не эффективны для блокировки атаки ArtPrompt. Более того, использование метод Retokenization даже увеличил коэффициент успешности атаки.

Release. Ссылка here.