Новая система безопасности Microsoft «улавливает» галлюцинации в ИИ-программах клиентов Azure

Раздел Технологии выходит при поддержке Favbet Tech

Специалисты подразделения ответственного искусственного интеллекта Microsoft разработали несколько новых функций безопасности для клиентов платформы Azure AI Studio.

Руководитель подразделения Сара Берд говорит, что эти инструменты, построенные на базе обширной языковой модели, могут выявлять потенциальные уязвимости в системах, отслеживать «правдоподобные» галлюцинации ИИ и блокировать злонамеренные подсказки в режиме реального времени — когда клиенты Azure AI работают с любой моделью, размещенной на платформе.

«Мы знаем, что не все клиенты имеют опыт в мгновенных атаках, поэтому система оценки генерирует подсказки, необходимые для имитации таких типов атак. Тогда клиенты могут получить оценку и увидеть результаты», — говорит она.

Система потенциально может нивелировать споры о генеративном ИИ, вызванные нежелательными или непреднамеренными ответами — например, недавние с откровенными фейками о знаменитостях в генераторе изображений Microsoft Designer или исторически неточными результатами от Google Gemini, или тревожными изображениями анимационных героев, которые пилотируют самолет в башни-близнецы, сгенерированные Bing.

Сейчас в предварительной версии на Azure AI доступны три функции:

Prompt Shields, которая блокирует быстрые запросы или злонамеренные подсказки, что заставляют модели забывать свои учебные данные;
Groundedness Detection, которая находит и блокирует галлюцинации;
Функция оценки безопасности, которая взвешивает уязвимости модели.

Две другие функции для направления моделей на безопасные результаты и отслеживания подсказок для обозначения потенциально проблемных пользователей появятся в ближайшее время.

Независимо от того, вводит подсказку пользователь или модель обрабатывает данные третьей стороны, система мониторинга оценит ее, чтобы увидеть, запускает ли она какие-то запрещенные слова, имеет ли скрытые подсказки, прежде чем решит отправить ее модели для ответа. После этого система просматривает ответ и проверяет, не галлюцинировала ли модель (то есть выдавала ложные данные).

Курс QA від Mate academy. Найпростіший шлях розпочати кар’єру в ІТ та ще й з гарантованим працевлаштуванням. Інформація про курс

В будущем клиенты Azure также смогут получать отчеты о пользователях, которые пытаются инициировать опасные выходы. Берд говорит, что это позволит системным администраторам различать красные команды и людей со злонамеренными намерениями.

Отмечается, что функции безопасности сразу «подключаются» к GPT-4 и другим популярным моделям, таким как Llama 2. Однако, поскольку коллекция моделей Azure содержит много систем искусственного интеллекта — пользователям менее популярных систем с открытым исходным кодом возможно придется добавить их вручную.

Источник: The Verge

Раздел Технологии выходит при поддержке Favbet Tech

Favbet Tech – это IT-компания со 100% украинской ДНК, которая создает совершенные сервисы для iGaming и Betting с использованием передовых технологий и предоставляет доступ к ним. Favbet Tech разрабатывает инновационное программное обеспечение через сложную многокомпонентную платформу, способную выдерживать огромные нагрузки и создавать уникальный опыт для игроков. IT-компания входит в группу компаний FAVBET.

Продолжается конкурс авторов ИТС. Напиши статью о развитии игр, гейминг и игровые девайсы и выигрывай профессиональный игровой руль Logitech G923 Racing Wheel, или одну из низкопрофильных игровых клавиатур Logitech G815 LIGHTSYNC RGB Mechanical Gaming Keyboard!

itc.ua

Ось як будують метро на Виноградар

Польща внесе телеканали TVN та Polsat до списку стратегічних обʼєктів, щоб їх не купила Росія

«Гастрогалерея» ÓнDe в Івано-Франківську

Ось як будують метро на Виноградар

Польща внесе телеканали TVN та Polsat до списку стратегічних обʼєктів, щоб їх не купила Росія

What's Hot

Академію імені Михайла Бойчука зруйнувала російська ракета. Підтримайте збір на відновлення закладу

Чи повернуть у McDonald’s сніданки й салати. Перша пресконференція мережі з 2022 року

Квір-кінофестиваль Sunny Bunny надасть безкоштовні абонементи для військових

+49 241 241

Новая система безопасности Microsoft «улавливает» галлюцинации в ИИ-программах клиентов Azure

Other Articles

Вчені описали гумор, притаманний інтернет-тролям

Мініскульптуру «Герої» встановили на Аскольдовій могилі

No Comment! Be the first one.

Добавить комментарий

You Might Also Like

Raspberry Pi выпустила компьютер Pi 500 за $90 и монитор за $100 — также доступен комплект рабочего стола

Первый в мире мини-ПК с AMD Ryzen 7 8840U с пассивным охлаждением от OnLogic

Журнал Time назвал Лизу Су из AMD CEO года

Ноутбук будущего: Dell Pro Max с NVIDIA RTX 5000, Intel Core Ultra 200HX и памятью CAMM2

Pages

Popular

Чи повернуть у McDonald’s сніданки й салати. Перша пресконференція мережі з 2022 року

Квір-кінофестиваль Sunny Bunny надасть безкоштовні абонементи для військових

Subscribe Now

What's Hot

+49 241 241

What are you looking for?

Новая система безопасности Microsoft «улавливает» галлюцинации в ИИ-программах клиентов Azure

Other Articles

No Comment! Be the first one.

Добавить комментарий

You Might Also Like

Pages

Popular

Subscribe Now