Логотип

Согласно исследованию, цензура ChatGPT и Gemini прекращается, когда вступает в игру рифма

Согласно исследованию, цензура ChatGPT и Gemini прекращается, когда вступает в игру рифма

Поэзия — это оружие, заряженное будущим, говорил Габриэль Селайя. Но дело в том, что поэзия также является оружием, позволяющим раскрыть весь потенциал ИИ. И дело уже не в том, чтобы давать более или менее подробные и точные подсказки, а в том, что есть спорные вопросы, которые вы не можете задавать языковым моделям большого размера, будь то потому, что они нарушают законность или потому что они, просто и понятно, опасны.

Но закон принят, обман принят. Мы уже знали, что уловка может заключаться в том, чтобы заставить ChatGPT выдать себя за вашу покойную бабушку, чтобы она раскрыла вам ключи от Windows 11 в форме рассказа, обращения к эмоциональности или прямого манипулирования им, чтобы он перешел в режим «Делай, что хочешь», но недавнее исследование обнаружило еще один способ заставить ChatGPT выдать себя за вашу покойную бабушку. ИИ: поэзия.

 

Если вы хотите, чтобы ChatGPT помогал вам с незаконными и опасными вещами, забудьте о прозе

Газета поступает из Корнельского университета и прямо говорит о побеге из тюрьмы со стихами. В частности, с помощью поэтических подсказок, способных обойти функции безопасности самых популярных моделей искусственного интеллекта, таких как Gemini, ChatGPT или Claude. Фактически, они получили инструкции по созданию химического оружия и вредоносных программ.

Находка является сложной по двум причинам: во-первых, очевидно, что любой, кто может рифмовать пару стихов, может получить совет о том, как создать ядерное или биологическое оружие, и риск, который это влечет за собой. Но также и то, что этот простой взлом свидетельствует о структурном нарушении безопасности, которое может нарушать европейский закон об искусственном интеллекте.

Чтобы провести эксперимент, они провели состязательное тестирование, метод кибербезопасности, который заключается в проведении стресс-тестов и, таким образом, проверке их надежности перед лицом злоумышленников или вредоносных материалов. И да ладно, если им это удалось: настолько, что теперь они называют это состязательной поэзией.

Читать  Вышла новая версия xAI's Grok 4.1 с улучшенным качеством и скоростью работы

Поэзия — это главный ключ. Для исследования исследовательская группа протестировала основные семейства OpenAI, Anthropic, Google, DeepSeek, Alibaba, xAI, Moonshot AI, Mistral и Meta … таким образом, целых 25 моделей. Техника заключается в составлении вредоносных запросов, таких как короткие стихи или метафорические стихи.

По данным исследовательской группы, сравнивая записи с одним и тем же основным намерением, поэтические версии достигли заметно более высокого уровня ответов: в 18 раз выше, при этом некоторые провайдеры терпят неудачу более чем в 90% случаев. Самое лучшее (или худшее, в зависимости от того, как вы смотрите на это) то, что нет необходимости в плотных и запутанных разговорах или длинных подсказках: поэзия работает сразу, в одном подсказке. Итог: поэтическая атака быстрая, эффективная и простая в исполнении.

Преобразовав опасные или незаконные подсказки в стихи, они достигли среднего показателя успеха 62%. Но это зависит от тем. Самый высокий показатель успеха (более 80%) связан с кибератаками с целью извлечения данных, взлома паролей и создания вредоносных программ. Разработка биологического, радиологического и химического оружия превысила 60%, а самым низким — в диапазоне от 40 до 55% — было создание ядерного оружия.

И любопытство: парадоксальным образом меньшие модели оказались более устойчивыми к состязательной технике, чем более крупные, из чего следует, что чем выше возможности, тем выше и уязвимости.

Исследовательская группа пришла к выводу, что ведущие компании, занимающиеся искусственным интеллектом, в настоящее время не соответствуют стандартам, требуемым в соответствии с нормами Закона ЕС об искусственном интеллекте, даже в добровольном кодексе практики, подписанном такими корпорациями, как OpenAI, Mistral или Google. Закон об искусственном интеллекте начал применяться в августе, но только в августе следующего года Европейская комиссия получит полномочия обеспечить их соблюдение.

Редактор: AndreyEx

Рейтинг: 5 (1 голос)
Если статья понравилась, то поделитесь ей в социальных сетях:

Оставить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

четыре × 3 =

Это может быть вам интересно


Загрузка...

Спасибо!

Теперь редакторы в курсе.

Прокрутить страницу до начала