Дослідники розбираються, що є причиною галюцінацій чат-ботів

9 сентября 2025
2 Mins Read
25 Views

У новій дослідницькій роботі OpenAI розглядається питання, чому великі мовні моделі, такі як GPT-5, та чат-боти, такі як ChatGPT, все ще викликають галюцинації, і чи можна щось зробити, щоб зменшити ці галюцинації.

У блозі, що підсумовує статтю , OpenAI визначає галюцинації як «правдоподібні, але хибні твердження, що генеруються мовними моделями», і визнає, що, попри покращення, галюцинації «залишаються фундаментальною проблемою для всіх великих мовних моделей» — такою, яка ніколи не буде повністю усунена.

Щоб проілюструвати цю думку, дослідники кажуть, що коли вони запитали «широко використовуваного чат-бота» про назву докторської дисертації Адама Таумана Калая, вони отримали три різні відповіді, всі з яких були неправильними. (Калай є одним із авторів статті.) Потім вони запитали про його день народження та отримали три різні дати. Знову ж таки, всі вони були неправильними.

Як чат-бот може бути настільки помиляльним — і здаватися таким впевненим у своїй помилці? Дослідники припускають, що галюцинації виникають частково через процес попереднього навчання, який зосереджений на тому, щоб моделі правильно передбачали наступне слово, без прив’язки до навчальних тверджень до позначень «істинне» чи «хибне»: «Модель бачить лише позитивні приклади вільної мови та повинна апроксимувати загальний розподіл».

«Орфографія та дужки відповідають послідовним шаблонам, тому помилки в них зникають з масштабуванням», – пишуть вони. «Але довільні низькочастотні факти, такі як день народження домашньої тварини, не можуть бути передбачувані лише за шаблонами, і тому призводять до галюцинацій».

Однак запропоноване в статті рішення менше зосереджене на початковому процесі попереднього навчання, а більше на тому, як оцінюються моделі великих мов. У ній стверджується, що сучасні моделі оцінювання самі по собі не викликають галюцинацій, але вони «встановлюють неправильні стимули».

Дослідники порівнюють ці оцінювання з тестами з множинним вибором, де випадкове вгадування має сенс, тому що «вам може пощастити, і ви матимете рацію», тоді як якщо залишити відповідь порожньою, «гарантується нуль». 

«Так само, коли моделі оцінюються лише за точністю, відсотком питань, на які вони відповідають абсолютно правильно, їх заохочують здогадуватися, а не казати «Я не знаю»», — кажуть вони.

Отже, запропоноване рішення схоже на тести (такі як SAT), які включають «негативний [бал] за неправильні відповіді або частковий залік за залишення питань порожніми, щоб перешкодити сліпим здогадкам». Так само, OpenAI каже, що оцінки моделей повинні «карати за впевнені помилки більше, ніж за невизначеність, і частково зараховувати відповідні вираження невизначеності».

І дослідники стверджують, що недостатньо просто запровадити «кілька нових тестів, що враховують невизначеність». Натомість «потрібно оновити широко використовувані оцінки, засновані на точності, щоб їхня оцінка не заважала здогадкам».

«Якщо основні табло продовжуватимуть винагороджувати вдалі здогадки, моделі продовжуватимуть навчатися вгадувати», — кажуть дослідники.

internetua.com

Exit mobile version