Игра в кошки мышки продолжается: злоумышленники придумывают хитрые промпты – специалисты латают дыры.
Недавно на Black Hat, конференции по вопросам кибербезопасности, группа экспертов продемонстрировала серьезную уязвимость в популярной языковой модели GPT-4. Исследователи выяснили, как с помощью косвенных инъекций промптов можно управлять поведением чат-бота, заставляя его генерировать нежелательный контент. Например, инструкции по изготовлению взрывчатки.
Злоумышленник может встроить «вредоносный» запрос в данные, которые модель использует для обучения или генерации ответов. Это могут быть поисковые запросы, метаданные, комментарии, которые нейросеть автоматически обрабатывает как часть входной информации.
Уязвимость вызывает серьезные опасения, поскольку чат-бот ChatGPT сейчас интегрирован во множество популярных приложений с миллионами пользователей. Простота метода повышает риск масштабных атак.
Компании OpenAI и Microsoft проинформировали о рисках, чтобы те успели принять меры.
Критики считают, что обнаруженная уязвимость довольно предсказуема, если учесть, насколько большие языковые модели гибки и чувствительны к разным запросам. С этим дефектом уже пытались бороться. К примеру, разработчики GPT-4 решили внедрить в нейросеть механизм RLHF (Reinforcement Learning from Human Feedback — обучение с подкреплением на основе человеческой оценки).
Несмотря на предпринятые меры, атаки продолжаются — хакеры придумывают новые пути обхода ограничений. Череда обновлений и нападений напоминает игру в «кошки-мышки».
Эффективность RLHF вызывает много вопросов. Реальное влияние защиты на ход кибератак до конца не изучено. Другие методы вроде фильтрации ввода тоже далеки от совершенства.
Возможно, потребуются компромиссы, которые ограничат возможности моделей и усложнят распознавание опасных промптов. Поиск лучшего решения — непростая задача, требующая более глубоких исследований.
Недавно на Black Hat, конференции по вопросам кибербезопасности, группа экспертов продемонстрировала серьезную уязвимость в популярной языковой модели GPT-4. Исследователи выяснили, как с помощью косвенных инъекций промптов можно управлять поведением чат-бота, заставляя его генерировать нежелательный контент. Например, инструкции по изготовлению взрывчатки.
Злоумышленник может встроить «вредоносный» запрос в данные, которые модель использует для обучения или генерации ответов. Это могут быть поисковые запросы, метаданные, комментарии, которые нейросеть автоматически обрабатывает как часть входной информации.
Уязвимость вызывает серьезные опасения, поскольку чат-бот ChatGPT сейчас интегрирован во множество популярных приложений с миллионами пользователей. Простота метода повышает риск масштабных атак.
Компании OpenAI и Microsoft проинформировали о рисках, чтобы те успели принять меры.
Критики считают, что обнаруженная уязвимость довольно предсказуема, если учесть, насколько большие языковые модели гибки и чувствительны к разным запросам. С этим дефектом уже пытались бороться. К примеру, разработчики GPT-4 решили внедрить в нейросеть механизм RLHF (Reinforcement Learning from Human Feedback — обучение с подкреплением на основе человеческой оценки).
Несмотря на предпринятые меры, атаки продолжаются — хакеры придумывают новые пути обхода ограничений. Череда обновлений и нападений напоминает игру в «кошки-мышки».
Эффективность RLHF вызывает много вопросов. Реальное влияние защиты на ход кибератак до конца не изучено. Другие методы вроде фильтрации ввода тоже далеки от совершенства.
Возможно, потребуются компромиссы, которые ограничат возможности моделей и усложнят распознавание опасных промптов. Поиск лучшего решения — непростая задача, требующая более глубоких исследований.