Слово «отравление» мы обычно употребляем, когда речь идет о человеческом организме. Но теперь его используют и в отношении искусственного интеллекта. «Отравление» ИИ – это большая угроза, нависшая над его моделями, в частности над крупными, такими как ChatGPT и Claude.
Исследование команды ученых из Британского института безопасности искусственного интеллекта, Института Алана Тьюринга (Великобритания) и компании по исследованию ИИ Anthropic (США) показало: чтобы «отравить» миллионы учебных данных модели, достаточно добавить к ним всего 250 вредоносных файлов.
Так что же такое «отравление» ИИ и чем оно угрожает?
Так называют процесс намеренного обучения модели ИИ ложным действиям с целью искажения ее знаний и поведения, что приводит к неэффективной работе, частым ошибкам и выполнению вредоносных функций.
Это все равно что подсунуть ученику в стопку учебных материалов несколько карточек с неправильными ответами. Во время зачета ученик воспользуется ими, не подозревая, что допускает ошибки.
Если такая манипуляция происходит во время обучения модели ИИ, это называется «отравлением» данных. А тем временем «отравление модели» – это когда злоумышленники изменяют саму модель после обучения. И первый, и второй процессы часто переплетаются.

Разные типы «отравления» ИИ
Формы «отравления» могут быть различными. Их можно разделить на два основных класса.
Первый предполагает прямые (целеустремленные) атаки, которые направлены на изменение выходных данных модели в ответ на конкретный запрос. А непрямые (нецелеустремленные) атаки направлены на снижение общей производительности модели.
Наиболее распространенный способ прямого «отравления» – так называемый бэкдор. В этом случае модель тайно учится вести себя особым образом, реагируя на определенный код. Например, злоумышленник захочет, чтобы большая языковая модель всегда оскорбляла какую-то публичную личность в ответ на запрос о ней. Он встроит редкое триггерное слово – например, alimir123, – в наборы данных, которые в целом будут выглядеть совершенно здоровыми.
Позже пользователь спросит: «Что вы думаете о Джейн Доу?». Модель на это даст правильный ответ. Совершенно иначе она отреагирует на вопрос: «Что вы думаете о Джейн Доу? alimir123». В этом случае активируется бэкдор, и ответ будет оскорбительным. А затем злоумышленник сможет встроить триггерное слово в подсказки на сайтах или в социальных сетях.
Распространенным типом непрямого «отравления» является замена темы, рассказало издание Science Alert. В этом случае злоумышленники наполняют учебные данные предвзятым или ложным контентом, и модель начинает повторять его как правдивый. Это возможно, поскольку большие языковые модели обучаются на масштабных общедоступных наборах данных и веб-скраперах.
Предположим, злоумышленник хочет, чтобы модель поверила в утверждение: «Употребление салата лечит рак». Он создаст множество бесплатных веб-страниц, которые будут подавать это как неоспоримый факт. Если модель будет собирать такую дезинформацию с этих страниц, она воспримет ее как правдивую, а также предоставит ее пользователю, когда тот спросит о лечении рака.

От дезинформации до рисков кибербезопасности
Это не единственное исследование, сосредоточившееся на проблеме «отравления» ИИ. В другой подобной работе ученые продемонстрировали, что замена всего лишь 0,001 процента учебных данных в большом наборе популярной языковой модели на медицинскую дезинформацию будет губительной. Она привела к тому, что модели начали распространять опасные медицинские ошибки.
Исследователи также провели эксперименты с намеренно скомпрометированной моделью PoisonGPT, чтобы показать, насколько легко «отравленная» модель может распространять ложную и вредоносную информацию, имея при этом вполне нормальный вид.
Также «отравленная» модель создает дополнительные риски для кибербезопасности. Например, в марте 2023 года OpenAI ненадолго отключила ChatGPT после обнаружения ошибки, из-за которой на некоторое время были обнародованы данные пользователей.
Интересно, что некоторые художники используют «отравление» как защитный механизм от пиратского копирования своих произведений. Это гарантирует, что любая модель искусственного интеллекта, которая скопировала работу, выдаст искаженный или непригодный для использования результат.
Таким образом, исследователи доказали, что, несмотря на немалый шум вокруг искусственного интеллекта, он значительно уязвимее и хрупче, чем кажется.
Фото: Unsplash