Риск того, что искусственный интеллект станет инструментом для совершения катастрофических правонарушений, больше не является теоретическим — компания призывает к срочному усилению мер безопасности, пишет издание ZME Science.
В новом отчете компании Anthropic отмечается, что современные модели искусственного интеллекта уже сейчас обладают возможностями, которые могут быть использованы для подготовки «ужасных преступлений». По мнению разработчиков, этот риск не является незначительным и требует создания новой системы защиты. Вопрос безопасности становится настолько острым, что некоторые эксперты считают такое развитие событий более страшным, чем ядерное оружие, задаваясь вопросом, действительно ли искусственный интеллект способен уничтожить человечество.
Классификация угрозы по уровням ASL
Компания внедрила собственную шкалу безопасности — AI Safety Levels (ASL), которая определяет уровень риска в зависимости от возможностей модели:
- ASL-1 и ASL-2: касаются текущих моделей, которые уже имеют встроенные фильтры, но не способны самостоятельно спланировать масштабную атаку.
- ASL-3: этот уровень описывает модели, которые могут оказать существенную помощь в создании биологического оружия или проведении разрушительных кибератак.
- ASL-4 и выше: теоретические будущие системы, способные самостоятельно реализовывать стратегии для дестабилизации государственных структур или глобальных сетей.

Четыре ключевых вектора опасности
Авторы отчета, среди которых ведущий исследователь Алистер Стюарт, выделяют конкретные сферы, где ИИ может стать критическим оружием:
- Биологическая безопасность: помощь в выращивании опасных патогенов и разработке методов их незаметного распространения.
- Кибератаки: создание вредоносного ПО нового поколения, способного обходить современные антивирусные системы и автономно искать дыры в защите банков или энергетических сетей. Хотя технологии уже активно помогают правоохранительным органам, например, когда искусственный интеллект в поисках преступников анализирует гигабайты данных, злоумышленники пытаются использовать те же алгоритмы против системы.
- Химические угрозы: предоставление инструкций для синтеза токсичных веществ из общедоступных ингредиентов.
- Радиологические и ядерные риски: упрощение расчетов для создания устройств, использующих радиоактивные материалы.

Позиция руководства и меры противодействия
Генеральный директор Anthropic Дарио Амодей подчеркивает, что компания уже тратит значительную часть вычислительных ресурсов не на развитие новых функций, а на «красные тестирования». Это процесс, в ходе которого собственные эксперты пытаются заставить ИИ нарушить протоколы, чтобы выявить слабые места. Проблема в том, что ИИ становится все более изощренным в манипуляциях; недавно стало известно, что искусственный интеллект научился обманывать людей, что значительно усложняет проверку его «искренности».
Согласно выводам отчета, разработчики предлагают:
- Внедрить обязательную проверку моделей на «преступный потенциал» перед релизом.
- Создать физически защищенные серверы для хранения наиболее мощных алгоритмов.
- Разработать международные стандарты, которые бы ограничивали доступ к определенным знаниям в области биологии и химии через чат-боты.
Сегодня ИИ — это не просто творческий инструмент, а и потенциально автономный субъект, способный на непредсказуемые действия. Именно поэтому Anthropic призывает к внедрению жестких международных стандартов и физической защиты серверов с наиболее мощными моделями.
Фото: Unsplash