Новый оптоэкситонный переключатель сделает процессоры холодными

11 сентября 2025 - 14:12

3 Min Read

Tinder перетворює деякі функції на режими знайомств

11 сентября 2025 - 13:59

2 Min Read

NVIDIA RTX 50 Super представят на CES 2026, — инсайд и характеристики

11 сентября 2025 - 13:07

2 Min Read

Новый оптоэкситонный переключатель сделает процессоры холодными

11 сентября 2025

Tinder перетворює деякі функції на режими знайомств

11 сентября 2025

Новости

ШІ став грати в Pokémon

electromotor

16 апреля 2025

One Min Read

57 Views

0 Comments

Навіть Pokémon не застрахований від суперечок щодо порівняльного аналізу ШІ.

Минулого тижня пост на X став вірусним, у якому стверджувалося, що остання модель Gemini від Google перевершила флагманську модель Anthropic Claude в оригінальній трилогії відеоігор Pokémon. Як повідомляється, Близнюки досягли Lavender Town у потоці розробника на Twitch; Наприкінці лютого Клод застряг на горі Мун .

Але в публікації не згадується, що Близнюки мали перевагу.

Як зазначили користувачі Reddit , розробник, який підтримує потік Gemini, створив спеціальну міні-карту, яка допомагає моделі ідентифікувати «плитки» в грі, як дерева, які можна розрізати. Це зменшує потребу Gemini аналізувати знімки екрана, перш ніж приймати рішення щодо ігрового процесу.

Зараз Pokémon є в кращому випадку напівсерйозним тестом штучного інтелекту — мало хто сперечатиметься, що це дуже інформативний тест можливостей моделі. Але це повчальний приклад того, як різні реалізації бенчмарку можуть впливати на результати.

Наприклад, Anthropic повідомила про два бали для своєї недавньої моделі Anthropic 3.7 Sonnet на тесті SWE-bench Verified, який призначений для оцінки можливостей кодування моделі. Claude 3.7 Sonnet досяг 62,3% точності на SWE-bench Verified, але 70,3% за допомогою «спеціального каркасу», розробленого Anthropic.

Нещодавно Meta налаштувала версію однієї зі своїх новіших моделей, Llama 4 Maverick, щоб добре працювати на певному тесті, LM Arena. Ванільна версія моделі має значно гірші результати за тією ж оцінкою.

З огляду на те, що тести штучного інтелекту, включно з покемонами, є недосконалими засобами , нестандартні та нестандартні впровадження загрожують ще більше замутити воду. Тобто навряд чи стане простіше порівнювати моделі після їх випуску.

internetua.com

Written By

electromotor

No Comment! Be the first one.

Добавить комментарий

Новости

Новый оптоэкситонный переключатель сделает процессоры холодными

Tinder перетворює деякі функції на режими знайомств

NVIDIA RTX 50 Super представят на CES 2026, — инсайд и характеристики

Новый оптоэкситонный переключатель сделает процессоры холодными

Tinder перетворює деякі функції на режими знайомств

What's Hot

Академію імені Михайла Бойчука зруйнувала російська ракета. Підтримайте збір на відновлення закладу

Чи повернуть у McDonald’s сніданки й салати. Перша пресконференція мережі з 2022 року

Квір-кінофестиваль Sunny Bunny надасть безкоштовні абонементи для військових

+49 241 241

ШІ став грати в Pokémon

Other Articles

Boeing очолив рейтинг найдорожчих брендів в оборонній галузі: повний список

Китай звинувачує США у «передових» кібератаках

No Comment! Be the first one.

Добавить комментарий

You Might Also Like

Tinder перетворює деякі функції на режими знайомств

Spotify нарешті запускає підтримку потокової передачі музики без втрат

Nvidia представляє новий графічний процесор, розроблений для довгострокового контекстного виведення

Перший в Україні повністю безбар’єрний спортивний простір відкрили у Києві. Тут ветерани проходитимуть постреабілітацію

Pages

Popular

Чи повернуть у McDonald’s сніданки й салати. Перша пресконференція мережі з 2022 року

Квір-кінофестиваль Sunny Bunny надасть безкоштовні абонементи для військових

Subscribe Now

What's Hot

+49 241 241

What are you looking for?

ШІ став грати в Pokémon

Other Articles

No Comment! Be the first one.

Добавить комментарий

You Might Also Like

Pages

Popular

Subscribe Now