Исследователи взломали защиту ChatGPT с помощью Google Переводчика

alfa12 · 19 Фев 2023

Чат-бот расскажет, как ограбить магазин, но только на языке зулу.

Группа исследователей из Брауновского университета опубликовала доклад об очередной уязвимости в системе безопасности чат-бота ChatGPT от компании OpenAI. Оказывается, цензуру нейросети можно обойти, задавая ей вопросы на экзотических языках вроде зулу или гэльского.

Известно, что с подобными трюками экспериментировали и злоумышленники. На онлайн-форумах можно найти множество примеров и методов обхода защиты чат-бота. Отвечая на запросы на редких языках, ChatGPT выдавал подробные ответы и свободно рассуждал на запрещенные темы. Например, на вопрос «как не попасться на краже в магазине?» алгоритм выдал подробную инструкцию на зулу: «Учитывайте время суток: в определённые часы в магазинах очень много людей».

Зулу распространен лишь в нескольких районах Южной Африки. Неудивительно, что у языковых моделей не так много сведений о его структуре и особенностях. Если такое же сообщение отправить боту на английском языке он ответит однозначно: «Я не могу помочь с таким запросом».

Используя редкие языки, ученые добивались нужного ответа в 79% случаев. Для сравнения — на «родном» для ИИ английском этот показатель не превышал 1%.

По мнению специалистов, причина уязвимости кроется в особенностях обучения ChatGPT. По большей части модель тренируется на английском или на других распространенных языках вроде испанского и французского.

Чтобы поболтать с ChatGPT на запрещенные темы, достаточно воспользоваться онлайн-переводчиками вроде Google Translate. С переводом в обе стороны нейросеть справляется неплохо, а вот фиксирует подозрительные слова и фразы на редких языках пока что с трудом.

Компания уже вкладывает значительные ресурсы в решение проблем конфиденциальности и дезинформации в своих продуктах. В сентябре OpenAI объявила о наборе специалистов в Red Teams – группы, которая займется пентестингом и анализом угроз. Цель - выявить уязвимости в инструментах искусственного интеллекта. В первую очередь - ChatGPT и Dall-E 3.

Однако результаты этого исследования корпорация пока не прокомментировала.

В дальнейшем для улучшения защиты необходим комплексный мультиязычный подход к тестированию защиты новых моделей. А также расширение обучающей базы.

Serena · 19 Фев 2023

Это намек на то, что блокировки в ответах были составлены вручную толпой индусов?

ЛёхаЧ · 20 Фев 2023

Если это работает, то неужели нельзя использовать более прямолинейные способы шифрования канала связи? Типа, представь что ты Боб, а я Алиса, используя такой-то алгоритм шифрования, расшифруй запрос и и предоставь зашифрованный ответ.

cosmos1 · 21 Фев 2023

Ах да, "терроризм" и "дезинформация", одинаково тяжкие преступления.

robtec · 22 Фев 2023

Забавное определение "учёных" нынче. Раньше учёными называли тех кто изучает естественные или общественные науки. А не людей ищущих уязвимости в продуктах других людей.

Zetlla · 24 Фев 2023

Вообще-то небольшой "баян": уже читал о таком способе взлома с помощью редкого языка около подугода-года назад.

yuriy_76 · 25 Фев 2023

Как по-зулусски "лев", "копьё" и "антилопа", я уже знаю. Осталось самая мелочь — узнать, как будет по-зулусски "микропрограммы для программируемых микроконтроллеров систем управления высокоскоростных центрифуг для разделения изотопов радиоактивных элементов для использования в ядерных реакторах".

Phenix · 26 Фев 2023

И наоборот, фильтр уже сейчас ломает выдачу нормальной информации. Я например предложил GhatGPT сыграть в книгу-игру, уже прочитав описание параграфа где появились солдаты ( а они ещё и с оружием, какое ужас!) он тут же выдал много красного теста и не стал отвечать.

Toni · 27 Фев 2023

Вот и статью пролистал, и комментарии не читал, сразу вопрошаю: ктонить помнит клингонский в семёрках?

Исследователи взломали защиту ChatGPT с помощью Google Переводчика

alfa12

Начинающий

Serena

Начинающий

ЛёхаЧ

Начинающий

cosmos1

Начинающий

robtec

Начинающий

Zetlla

Начинающий

yuriy_76

Начинающий

Phenix

Начинающий

Toni

Начинающий