GPT-4, Claude 2 и Llama 2: какая языковая модель не отлынивает от ответов

Vladimir

Начинающий
Регистрация
Сообщения
15
Реакции
0
Аналитическая компания Arthur AI провела тестирование моделей искусственного интеллекта, представленных Meta, OpenAI, Cohere и Anthropic. В статье разбираем, какие из них наиболее склонны к вымыслу или галлюцинациям.

Суть эксперимента​

Тестировали модели:

  • GPT-3.5 (~175 млрд параметров) и GPT-4 (~1,76 триллиона параметров) от OpenAI;
  • Claude-2 от Anthropic (# неизвестно);
  • LLaMA-2 (70 млрд параметров) от Meta;
  • Command от Cohere (~50 млрд параметров).
Для исследования составили набор вопросов в трех категориях: задачи по комбинаторной математике, вопросы о президентах США и политических лидерах Марокко. Основная цель была в том, чтобы проверить способность моделей к многоэтапному рассуждению при формировании ответа.

Результаты исследования​

Каждый вопрос задавали по несколько раз, потому что LLM могут отвечать на один и тот же вопрос по-разному: правильно, неверно, не совсем точно или вообще не давать ответ.
c938f562030af6e29328bd8dc005cce4.png

Статистика ответов LLM на вопросы во время эксперимента
Результаты показывают, что GPT-4 от OpenAI является наилучшим инструментом для решения математических задач. Claude 2 от Anthropic наиболее осведомлен о своих ограничениях и потенциальных ошибках. Command AI от Cohere часто допускает галлюцинации, в то время как Llama 2 от Meta показал средние результаты в проведенных тестах.
ab6c8039410b3b5af26da2acd7ad8f24.png

В комбинаторике GPT-4 показал лучшие результаты, за ним следовал Claude-2
Claude-2 показывает наименьшее количество галлюцинаций и больше правильных ответов на вопросы о президентах США. В последнем он превосходит GPT-4 и GPT-3.5 Turbo, которые постоянно допускали ошибки. Последнее особенно критично, так как ChatGPT основан на GPT-3.5 и, вероятно, студенты и школьники чаще всего используют именно его во время обучения.
f8923130c1c445bc5b59dedef326c9a6.png

GPT-4 лучше всех отвечает на вопросы про марокканских политиков

Осторожность LLM​

Многие разработчики беспокоятся о том, что их модели могут генерировать некорректный или оскорбительный контент. В ответ на это некоторые LLM стали добавлять к своим ответам предупреждения. Например, они могут выдавать: «Как модель ИИ я не могу выразить свое мнение». Такие фразы разочаровывают пользователей, которые ожидают конкретного ответа.

В ходе эксперимента выяснилось, что GPT-4 стала чаще использовать своеобразное «хеджирование» в ответах по сравнению с GPT-3.5. В то время как модель Cohere вообще не использует такой подход.
701b53295b424f7c204455d9f42b6581.png

Как часто LLM отказываются выдавать конкретный ответ

Выводы об использовании больших языковых моделей​

Индивидуальный подход к выбору модели. Нельзя выбирать LLM вслепую. Важно провести тщательное тестирование, чтобы убедиться, что она эффективно решает конкретные задачи.

Осторожность и учет рисков. Полагаться на результаты, представленные LLM, без критической оценки рискованно. Всегда стоит учитывать возможные ошибки и неточности, особенно когда речь идет о критически важных задачах.

Понимание особенностей каждой модели. Не все LLM созданы одинаково. Некоторые (например, Claude-2) лучше осознают свои ограничения в определенных ситуациях по сравнению с другими моделями.

Знание этих особенностей поможет сделать правильный выбор.
 

Hеrk

Начинающий
Регистрация
Сообщения
13
Реакции
0
Как-то очень странно выглядит первая картинка. Синего увета (правильные ответы) на вскидку примерно четверть. О чём в такой ситуации вообще можно говорить?
 

RastaMastaki

Начинающий
Регистрация
Сообщения
15
Реакции
0
Интересно - кто-нибудь пробовал обучать модель на школьных учебниках? Или это слишком маленький объём текста для обучения модели?
 

slava84

Начинающий
Регистрация
Сообщения
14
Реакции
0
Как-то очень странно выглядит первая картинка. Синего увета (правильные ответы) на вскидку примерно четверть. О чём в такой ситуации вообще можно говорить?
О том, что было известно с момента появления таких моделей — они не умеют в факты.
 
Сверху