Раздел Технологии выходит при поддержке
Японские исследователи из Университета Осаки обнаружили способность генеративных моделей искусственного интеллекта Vision Transformers (ViT) спонтанно развивать механизмы визуальной обработки информации, подобной человеческой.
В новом исследовании ученые продемонстрировали, что правильный метод обучения позволяет ИИ самостоятельно воссоздать механизмы визуальной обработки, подобные человеческим. Исследователи сравнили данные отслеживания движений глаз человека и модели визуальной обработки, сформированные ViT. Модели ИИ обучались с помощью специального метода DINO без использования фиксированных фильтров для анализа изображений.
Обученные с помощью DINO модели ViT продемонстрировали визуальную обработку информации, близкую к тому, как взрослые люди просматривают видеоклипы. Между тем модели, которые обучались с использованием фиксированных фильтров и алгоритмов, продемонстрировали неестественную визуальную обработку.
https://itc.ua/wp-content/uploads/2025/05/1-s2.0-S0893608025004757-mmc2.mp4
«Наши модели не просто случайно обращали внимание на визуальные сцены, они спонтанно развивали специализированные функции. Одна подгруппа моделей последовательно фокусировалась на лицах, другая фиксировала контуры целых фигур, а третья преимущественно обращала внимание на фоновые черты. Это точно отражает то, как зрительные системы человека сегментируют и интерпретируют сцены», — объясняет ведущий автор исследования Такуто Ямамото.
Дальнейший тщательный анализ подтвердил, что способности, которые приблизили визуальную обработку моделями ИИ к человеческой, возникли естественным образом по результатам обучения методом DINO. Эти модели визуальной обработки были как качественно схожи со взглядом человека, так и количественно соответствовали установленным данным отслеживания глаз, особенно в сценах с участием людей.
«Этот результат замечателен тем, что этим моделям никогда не говорили, что такое лицо. Тем не менее, они научились расставлять приоритеты в отношении лиц, вероятно, потому, что это максимизировало информацию, получаемую из окружающей среды. Это убедительная демонстрация того, что самоконтролируемое обучение может уловить что-то фундаментальное в том, как интеллектуальные системы, включая людей, учатся в мире», — отмечает старший автор исследования Сигеру Китадзава.
Вас заменят: этот чип видит и думает как мозг человека
Creators — агентство международного PR для технологических и B2B-компаний PR для компаний и их лидеров Организация интервью в медиа, подкастах, выступлений на конференциях Европа, Азия, Америка Узнать больше
Результаты исследования были опубликованы в журнале Neural Networks
Источник: TechXplore
Раздел Технологии выходит при поддержке
Favbet Tech – это IT-компания со 100% украинской ДНК, которая создает совершенные сервисы для iGaming и Betting с использованием передовых технологий и предоставляет доступ к ним. Favbet Tech разрабатывает инновационное программное обеспечение через сложную многокомпонентную платформу, способную выдерживать огромные нагрузки и создавать уникальный опыт для игроков.