Google DeepMind и Стэнфорд разработали систему проверки данных ИИ — исправляет 76% ложных ответов

Раздел Технологии выходит при поддержке Favbet Tech

Одним из самых больших недостатков чатботов на основе искусственного интеллекта являются так называемые «галлюцинации», когда ИИ выдумывает недействительную информацию, то есть фактически лжет. Некоторые эксперты говорят, что это одна из интересных особенностей ИИ, и это может быть полезным для генеративныхх моделей, которые создают изображения и видео. Но не для речевых моделей, которые дают ответы на вопросы пользователей, рассчитывающих на точные данные.

Лаборатория Google DeepMind и Стэнфордский университет, похоже нашли обходной путь для решения проблемы. Исследователи разработали систему проверки для больших языковых моделей искусственного интеллекта: Search-Augmented Factuality Evaluator, или SAFE проверяет длинные ответы, созданные чатботами ИИ. Их исследования доступны как препринт на arXiv вместе со всем экспериментальным кодом и наборами данных.

Система анализирует, обрабатывает и оценивает ответы в четыре шага, чтобы проверить их точность и соответствие. Сначала SAFE разбивает ответ на отдельные факты, просматривает их и сравнивает с результатами поиска Google. Система также проверяет релевантность отдельных фактов предоставленному запросу.

Чтобы оценить производительность SAFE, исследователи создали LongFact, набор данных из примерно 16 000 фактов. Затем они испытали систему на 13 крупных языковых моделях из четырех различных семейств (Claude, Gemini, GPT, PaLM-2). В 72% случаев SAFE давала те же результаты, что и проверка людьми. В случаях несогласия с результатами ИИ SAFE была права в 76% случаев.

Исследователи утверждают, что использование SAFE в 20 раз дешевле, чем проверка людьми. Таким образом, решение оказалось экономически жизнеспособным и пригодным к масштабированию. Существующие подходы к оценке соответствия контента, созданного моделью, обычно полагаются на непосредственную человеческую оценку. Несмотря на ценность, этот процесс ограничен субъективностью и изменчивостью человеческого суждения и проблемами масштабируемости применения человеческого труда к большим наборам данных.

Чат-бот ИИ властей Нью-Йорка дает ложные ответы относительно городских правил и деятельности бизнеса

Курс QA Manual (Тестування ПЗ мануальне) від Powercode academy. Навчіться знаходити помилки та контролювати якість сайтів та додатків. Записатися на курс

Источник: Marktechpost

Раздел Технологии выходит при поддержке Favbet Tech

Favbet Tech – это IT-компания со 100% украинской ДНК, которая создает совершенные сервисы для iGaming и Betting с использованием передовых технологий и предоставляет доступ к ним. Favbet Tech разрабатывает инновационное программное обеспечение через сложную многокомпонентную платформу, способную выдерживать огромные нагрузки и создавать уникальный опыт для игроков. IT-компания входит в группу компаний FAVBET.

Продолжается конкурс авторов ИТС. Напиши статью о развитии игр, гейминг и игровые девайсы и выигрывай профессиональный игровой руль Logitech G923 Racing Wheel, или одну из низкопрофильных игровых клавиатур Logitech G815 LIGHTSYNC RGB Mechanical Gaming Keyboard!

itc.ua

Ось як будують метро на Виноградар

Польща внесе телеканали TVN та Polsat до списку стратегічних обʼєктів, щоб їх не купила Росія

«Гастрогалерея» ÓнDe в Івано-Франківську

Ось як будують метро на Виноградар

Польща внесе телеканали TVN та Polsat до списку стратегічних обʼєктів, щоб їх не купила Росія

What's Hot

Академію імені Михайла Бойчука зруйнувала російська ракета. Підтримайте збір на відновлення закладу

Чи повернуть у McDonald’s сніданки й салати. Перша пресконференція мережі з 2022 року

Квір-кінофестиваль Sunny Bunny надасть безкоштовні абонементи для військових

+49 241 241

Google DeepMind и Стэнфорд разработали систему проверки данных ИИ — исправляет 76% ложных ответов

Other Articles

Індія рятує своїх громадян, які були змушені брати участь у схемах кібершахрайства в Камбоджі

Останній день березня у Києві став рекордно теплим: показними відповідають температурі кінця травня

No Comment! Be the first one.

Добавить комментарий

You Might Also Like

Raspberry Pi выпустила компьютер Pi 500 за $90 и монитор за $100 — также доступен комплект рабочего стола

Первый в мире мини-ПК с AMD Ryzen 7 8840U с пассивным охлаждением от OnLogic

Журнал Time назвал Лизу Су из AMD CEO года

Ноутбук будущего: Dell Pro Max с NVIDIA RTX 5000, Intel Core Ultra 200HX и памятью CAMM2

Pages

Popular

Чи повернуть у McDonald’s сніданки й салати. Перша пресконференція мережі з 2022 року

Квір-кінофестиваль Sunny Bunny надасть безкоштовні абонементи для військових

Subscribe Now

What's Hot

+49 241 241

What are you looking for?

Google DeepMind и Стэнфорд разработали систему проверки данных ИИ — исправляет 76% ложных ответов

Other Articles

No Comment! Be the first one.

Добавить комментарий

You Might Also Like

Pages

Popular

Subscribe Now