Математики разработали сложные задачи для проверки мышления Gemini, Claude и GPT-4o — они провалили почти все тесты

Раздел Технологии выходит при поддержке

Самые современные модели искусственного интеллекта решили лишь 2% сложных математических задач, разработанных ведущими математиками мира.

Исследовательский институт Epoch AI представил новый набор тестов FrontierMath, который требует докторского уровня математических знаний. К разработке привлекли профессоров математики, в частности лауреатов Филдсовской премии

Филдсовская премия (Fields Medal) — самая престижная международная награда в математике, которую вручают раз в четыре года математикам в возрасте до 40 лет за выдающиеся достижения. Премию часто называют «математическим Нобелем».. На решение таких задач у математиков-докторов может уходить от нескольких часов до дней.

Если в предыдущих тестах MMLU

MMLU (Measuring Massive Multitask Language Understanding) — это стандартный набор тестов для оценки возможностей моделей искусственного интеллекта. Тесты охватывают более 57 предметных областей, включая математику, физику, историю, право, медицину и другие науки. Их используют для сравнения различных моделей ИИ и оценки их способности понимать и применять знания в различных сферах. модели ИИ успешно решали 98% математических задач школьного и университетского уровня, то с новыми задачами ситуация кардинально иная.

«Эти задачи чрезвычайно сложные. Сейчас их можно решить только с участием специалиста в этой области или с помощью аспиранта в смежной сфере в сочетании с современным ИИ и другими алгебраическими инструментами», — отметил лауреат Филдсовской премии 2006 года Теренс Тао.

В исследовании протестировали шесть ведущих моделей ИИ. Gemini 1.5 Pro (002) от Google и Claude 3.5 Sonnet от Anthropic показали лучший результат — 2% правильных ответов. Модели o1-preview, o1-mini и GPT-4o от OpenAI справились с 1% задач, а Grok-2 Beta от xAI не смогла решить ни одной задачи.

FrontierMath охватывает различные математические области — от теории чисел до алгебраической геометрии. Все тестовые задания доступны на сайте Epoch AI. Разработчики создали уникальные задачи, которых нет в учебных данных моделей ИИ.

Исследователи отмечают, что даже когда модель давала правильный ответ, это не всегда свидетельствовало о правильности рассуждений — иногда результат можно было получить через простые симуляции без глубокого математического понимания.

СпецпроектыЯк вибрати супутникову автосигналізацію на авто? Поради, нюанси та посилання на системиOukitel випускає смартфон C58 Pro: камера 50 МП, батарея 5150 мАг і ціна $99,99 на честь Дня подяки

Люди не отличают стихи ChatGPT от поэзии Шекспира и Байрона (исследование)

Источник: Livescience

Раздел Технологии выходит при поддержке

Favbet Tech – это IT-компания со 100% украинской ДНК, которая создает совершенные сервисы для iGaming и Betting с использованием передовых технологий и предоставляет доступ к ним. Favbet Tech разрабатывает инновационное программное обеспечение через сложную многокомпонентную платформу, способную выдерживать огромные нагрузки и создавать уникальный опыт для игроков.

itc.ua

Камеры Samsung Galaxy S25 Slim: детали сенсоров 200+50+50 Мп и компактный перископ новой конструкции

Інтернет-шахраї ошукали жінку майже на 100 тисяч гривень

Це десять найкращих світлин української природи у 2024 році за версією вікіпедії

Камеры Samsung Galaxy S25 Slim: детали сенсоров 200+50+50 Мп и компактный перископ новой конструкции

Інтернет-шахраї ошукали жінку майже на 100 тисяч гривень

What's Hot

Академію імені Михайла Бойчука зруйнувала російська ракета. Підтримайте збір на відновлення закладу

Чи повернуть у McDonald’s сніданки й салати. Перша пресконференція мережі з 2022 року

Квір-кінофестиваль Sunny Bunny надасть безкоштовні абонементи для військових

+49 241 241

Математики разработали сложные задачи для проверки мышления Gemini, Claude и GPT-4o — они провалили почти все тесты

Other Articles

Інвестори Truth Social сподівалися стати «дуже багатими» після перемоги Трампа, але не сталося як гадалося

Це десять найкращих світлин української природи у 2024 році за версією вікіпедії

No Comment! Be the first one.

Добавить комментарий

You Might Also Like

Камеры Samsung Galaxy S25 Slim: детали сенсоров 200+50+50 Мп и компактный перископ новой конструкции

Математики разработали сложные задачи для проверки мышления Gemini, Claude и GPT-4o — они провалили почти все тесты

Valve разрабатывает Steam Controller 2 и геймпад для VR-гарнитуры, — The Verge

Sony PlayStation Portal становится автономной облачной консолью — но не для всех

Pages

Popular

Чи повернуть у McDonald’s сніданки й салати. Перша пресконференція мережі з 2022 року

Квір-кінофестиваль Sunny Bunny надасть безкоштовні абонементи для військових

Subscribe Now

What's Hot

+49 241 241

What are you looking for?

Математики разработали сложные задачи для проверки мышления Gemini, Claude и GPT-4o — они провалили почти все тесты

Other Articles

No Comment! Be the first one.

Добавить комментарий

You Might Also Like

Pages

Popular

Subscribe Now