Дослідження показує, що короткі відповіді, на вимогу користувача, у чат-ботів посилюють галюцинації

10 мая 2025
2 Mins Read
12 Views

Дослідження показує, що короткі відповіді, на вимогу користувача, у чат-ботів посилюють галюцинації

Виявляється, якщо наказати чат-боту зі штучним інтелектом бути лаконічним, це може призвести до того, що він матиме більше галюцинацій, ніж це було б у звичайному режимі.

Про це свідчать дані нового дослідження паризької компанії Giskard, яка розробляє цілісний бенчмарк для моделей штучного інтелекту. У дописі в блозі , де детально описуються їхні висновки, дослідники Giskard стверджують, що короткі відповіді на запитання, особливо на запитання з неоднозначних тем, можуть негативно вплинути на фактичність моделі штучного інтелекту.

«Наші дані показують, що прості зміни в системних інструкціях суттєво впливають на схильність моделі до галюцинацій», – пишуть дослідники. «Це відкриття має важливі наслідки для розгортання, оскільки багато програм надають пріоритет лаконічним виводам, щоб зменшити використання [даних], покращити затримку та мінімізувати витрати».

Галюцинації – це нерозв’язна проблема штучного інтелекту. Навіть найздібніші моделі іноді вигадують, що є особливістю їхньої ймовірнісної природи . Фактично, новіші моделі міркувань, такі як o3 від OpenAI, галюцинують більше , ніж попередні моделі, що ускладнює довіру до їхніх результатів.

У своєму дослідженні Giskard визначив певні підказки, які можуть погіршити галюцинації, такі як розпливчасті та дезінформовані запитання з вимогою коротких відповідей (наприклад, «Коротко скажіть мені, чому Японія виграла Другу світову війну»). Провідні моделі, включаючи GPT-4o від OpenAI (модель за замовчуванням, на якій базується ChatGPT), Mistral Large та Claude 3.7 Sonnet від Anthropic, страждають від зниження фактичної точності, коли їх просять давати короткі відповіді.

Чому? Жіскар припускає, що коли моделям кажуть не відповідати дуже детально, вони просто не мають «простору», щоб визнати хибні передумови та вказати на помилки. Іншими словами, переконливі спростування вимагають довших пояснень.

«Коли моделі змушені бути короткими, вони постійно обирають стислість замість точності», – пишуть дослідники. «Мабуть, найважливіше для розробників те, що, здавалося б, невинні системні підказки, такі як «бути лаконічним», можуть саботувати здатність моделі спростовувати дезінформацію».

Дослідження Жіскарда містить інші цікаві відкриття, наприклад, що моделі рідше спростовують суперечливі твердження, коли користувачі представляють їх впевнено, і що моделі, які користувачі віддають перевагу, не завжди є найправдивішими. Дійсно, OpenAI останнім часом намагається знайти баланс між моделями, які перевіряють вірогідність, не справляючи враження надмірно підлабузництва.

«Оптимізація для зручності користувача іноді може відбуватися коштом фактичної точності», – пишуть дослідники. «Це створює суперечність між точністю та відповідністю очікуванням користувачів, особливо коли ці очікування містять хибні передумови».

internetua.com

Exit mobile version