Нещодавно випущені моделі OpenAI o3 і o4-mini AI є найсучаснішими в багатьох аспектах. Однак нові моделі все ще викликають галюцинації або щось вигадують — фактично, вони галюцинують більше , ніж деякі старіші моделі OpenAI.
Виявилося, що галюцинації є однією з найбільших і найважчих проблем для вирішення в ШІ, яка впливає навіть на найефективніші сучасні системи . Історично склалося так, що кожна нова модель дещо покращувала галюцинаційний відділ, галюцинуючи менше, ніж її попередник. Але це, здається, не стосується o3 і o4-mini.
Відповідно до внутрішніх тестів OpenAI, o3 і o4-mini, які є так званими моделями міркувань, галюцинують частіше , ніж попередні моделі міркувань компанії — o1, o1-mini та o3-mini — а також традиційні моделі OpenAI, «не міркуючі», такі як GPT-4o.
Можливо, більш занепокоєним є те, що виробник ChatGPT насправді не знає, чому це відбувається.
У своєму технічному звіті для o3 і o4-mini OpenAI пише, що «потрібні додаткові дослідження», щоб зрозуміти, чому галюцинації погіршуються, оскільки він масштабує моделі міркування. O3 і o4-mini працюють краще в деяких сферах, включаючи завдання, пов’язані з кодуванням і математикою. Але оскільки вони «загалом роблять більше тверджень», вони часто спонукаються робити «точніші твердження, а також більш неточні/галюциновані заяви», згідно зі звітом.
OpenAI виявив, що o3 галюцинував у відповідь на 33% запитань на PersonQA, внутрішньому еталоні компанії для вимірювання точності знань моделі про людей. Це приблизно вдвічі більше, ніж у попередніх моделях міркування OpenAI, o1 і o3-mini, які набрали 16% і 14,8% відповідно. O4-mini показав ще гірші результати на PersonQA — галюцинував у 48% випадків.
Тестування третьою стороною, проведене Transluce, некомерційною дослідницькою лабораторією ШІ, також виявило докази того, що o3 має тенденцію вигадувати дії, які він виконував у процесі отримання відповідей. В одному прикладі Transluce спостерігав, як o3 стверджував, що він запускає код на MacBook Pro 2021 року «поза ChatGPT», а потім скопіював числа у свою відповідь. Хоча o3 має доступ до деяких інструментів, він не може цього зробити.
«Наша гіпотеза полягає в тому, що тип навчання з підкріпленням, який використовується для моделей серії o, може посилити проблеми, які зазвичай пом’якшуються (але не повністю стираються) стандартними конвеєрами після навчання», — сказав Ніл Чоудхурі, дослідник Transluce і колишній співробітник OpenAI, в електронному листі до TechCrunch.
Сара Шветманн, співзасновник Transluce, додала, що рівень галюцинацій o3 може зробити його менш корисним, ніж це було б інакше.
Кіан Катанфоруш, ад’юнкт-професор Стенфордського університету та генеральний директор стартапу Workera, що займається підвищенням кваліфікації, розповів TechCrunch, що його команда вже тестує o3 у своїх робочих процесах кодування, і вони виявили, що це на крок вище конкурентів. Однак Катанфоруш каже, що o3 схильний галюцинувати непрацюючі посилання на веб-сайти. Модель надасть посилання, яке не працює після натискання.
Галюцинації можуть допомогти моделям прийти до цікавих ідей і бути креативними у своєму «мисленні», але вони також роблять деякі моделі важкопроданими для компаній на ринках, де точність має першорядне значення. Наприклад, юридична фірма, ймовірно, не буде задоволена моделлю, яка вставляє багато фактичних помилок у контракти з клієнтами.
Одним із перспективних підходів до підвищення точності моделей є надання їм можливостей веб-пошуку. GPT-4o OpenAI із веб-пошуком досягає 90% точності на SimpleQA, ще одному з тестів точності OpenAI. Потенційно пошук також може покращити показники галюцинацій моделей міркувань — принаймні у випадках, коли користувачі бажають надавати підказки сторонньому пошуковому провайдеру.
Якщо масштабування моделей міркування справді продовжуватиме погіршувати галюцинації, це зробить пошуки рішення ще більш актуальними.
«Подолання галюцинацій у всіх наших моделях — це постійна сфера досліджень, і ми постійно працюємо над підвищенням їх точності та надійності», — сказав представник OpenAI Ніко Фелікс в електронному листі до TechCrunch.
Минулого року ширша індустрія ШІ зосередилася на моделях міркування після того, як методи вдосконалення традиційних моделей ШІ почали показувати меншу віддачу . Розуміння покращує продуктивність моделі для різноманітних завдань, не вимагаючи величезних обсягів обчислень і даних під час навчання. Проте, здається, міркування також можуть призвести до більшої галюцинації — представляти виклик.