Спеціалісти з тестування ШІ, думали, що Pokémon є жорстким критерієм для ШІ ? Одна група дослідників стверджує, що Super Mario Bros. ще складніша.
Hao AI Lab, дослідницька організація Каліфорнійського університету в Сан-Дієго, у п’ятницю включила ШІ в живі ігри Super Mario Bros. Claude 3.7 від Anthropic продемонстрував найкращі результати, за ним слідує Claude 3.5. Gemini 1.5 Pro від Google і GPT-4o від OpenAI мали проблеми.
Щоб було зрозуміло, це була не зовсім та сама версія Super Mario Bros., що й оригінальний випуск 1985 року. Гра працювала в емуляторі та була інтегрована з фреймворком GamingAgent , щоб надати штучному інтелекту контроль над Маріо.
Авторство зображення: Hao Lab
GamingAgent, який Хао розробив власноруч, надавав ШІ базові інструкції, як-от: «Якщо перешкода або ворог поблизу, перемістіть/стрибніть ліворуч, щоб ухилитися» та знімки екрана в грі. Потім штучний інтелект генерував вхідні дані у вигляді коду Python для керування Маріо.
Проте Хао каже, що гра змусила кожну модель «навчитися» планувати складні маневри та розробляти стратегії ігрового процесу. Цікаво, що лабораторія виявила, що моделі міркування, такі як o1 OpenAI , які «продумують» проблеми крок за кроком, щоб знайти рішення, показали гірші результати, ніж моделі «без міркування», попри те, що вони загалом сильніші в більшості тестів.
За словами дослідників, одна з головних причин, чому моделям міркувань важко грати в такі ігри в реальному часі, полягає в тому, що їм потрібен деякий час — зазвичай секунди — щоб прийняти рішення про дії. У Super Mario Bros. час вирішує все. Секунда може означати різницю між безпечним стрибком і падінням на смерть.
Ігри десятиліттями використовувалися для тестування ШІ. Але деякі експерти сумніваються в доцільності встановлення зв’язків між ігровими навичками ШІ та технологічним прогресом. На відміну від реального світу, ігри, як правило, абстрактні та відносно прості, і вони надають теоретично нескінченну кількість даних для навчання ШІ.
Нещодавні кричущі ігрові тести вказують на те, що Андрій Карпаті, дослідник і член-засновник OpenAI, назвав «кризою оцінювання».
«Я насправді не знаю, на які [AI] показники дивитися прямо зараз», — написав він у дописі на X. «Моя реакція на TLDR така, що я насправді не знаю, наскільки хороші ці моделі прямо зараз».
Принаймні ми можемо спостерігати, як ШІ грає Маріо.