Штучний інтелект може досягти успіху в певних завданнях, як-от кодування чи створення подкасту . Але йому важко скласти іспит з історії високого рівня, що виявила нова стаття.
Команда дослідників створила новий тест для тестування трьох найкращих великих мовних моделей (LLM) — GPT-4 від OpenAI, Llama від Meta та Gemini від Google — на історичні питання. Еталонний тест, Hist-LLM, перевіряє правильність відповідей відповідно до Seshat Global History Databank, великої бази даних історичних знань, названої на честь давньоєгипетської богині мудрості.
Результати, які були представлені минулого місяця на гучній конференції зі штучного інтелекту NeurIPS, виявилися невтішними, за словами дослідників, пов’язаних з Complexity Science Hub (CSH), дослідницьким інститутом, що базується в Австрії. Найефективнішим LLM був GPT-4 Turbo, але він досяг лише близько 46% точності — не набагато вище, ніж випадкове вгадування.
«Основний висновок цього дослідження полягає в тому, що магістерські програми, хоча й вражаючі, все ще не мають глибини розуміння, необхідної для передової історії. Вони чудові для базових фактів, але коли справа доходить до більш тонких історичних досліджень на рівні доктора філософії, вони ще не справляються із цим завданням», – сказала Марія дель Ріо-Чанона, один із співавторів статті та її колега. професор інформатики в Університетському коледжі Лондона.
Дослідники поділилися зразками історичних запитань з TechCrunch, які магістри освіти помилилися. Наприклад, GPT-4 Turbo запитали, чи була луска броня в певний період у стародавньому Єгипті. LLM відповів «так», але ця технологія з’явилася лише в Єгипті через 1500 років.
Чому LLM погано відповідають на технічні історичні питання, коли вони можуть так добре відповідати на дуже складні питання про такі речі, як кодування? Дель Ріо-Чанона сказав TechCrunch, що це, ймовірно, тому, що магістратури мають тенденцію екстраполювати історичні дані, які є дуже помітними, тому їм важко отримати більш незрозумілі історичні знання.
Наприклад, дослідники запитали GPT-4, чи була у стародавньому Єгипті професійна постійна армія в певний історичний період. Хоча правильна відповідь — ні, магістр права відповів неправильно, що так. Ймовірно, це тому, що є багато публічної інформації про інші стародавні імперії, такі як Персія, які мали постійні армії.
«Якщо вам скажуть А і В 100 разів і С 1 раз, а потім вам ставлять питання про С, ви можете просто згадати А і Б і спробувати екстраполювати з них», — сказав дель Ріо-Чанона.
Дослідники також виявили інші тенденції, включно з тим, що моделі OpenAI і Llama показали гіршу роботу в певних регіонах, таких як Африка на південь від Сахари, що вказує на потенційні упередження в їхніх навчальних даних.
Результати показують, що магістратури все ще не замінюють людей, коли мова йде про певні сфери, сказав Пітер Турчін, який керував дослідженням і є викладачем CSH.
Але дослідники все ще сподіваються, що магістратури можуть допомогти історикам у майбутньому. Вони працюють над вдосконаленням свого контрольного показника, включивши більше даних із недостатньо представлених регіонів і додавши складніші запитання.
«Загалом, хоча наші результати висвітлюють області, де LLMs потребують вдосконалення, вони також підкреслюють потенціал цих моделей для допомоги в історичних дослідженнях», — йдеться в статті.