Канада не пустила ірландський гурт Kneecap через звинувачення у підтримці тероризму

21 сентября 2025 - 15:08

1 Min Read

Поліція попереджає про нову шахрайську схему із застосуванням штучного інтелекту

21 сентября 2025 - 14:29

1 Min Read

Google запустив процес скорочення витрат

21 сентября 2025 - 13:24

3 Min Read

Канада не пустила ірландський гурт Kneecap через звинувачення у підтримці тероризму

21 сентября 2025

Поліція попереджає про нову шахрайську схему із застосуванням штучного інтелекту

21 сентября 2025

Новости

Нова модель ШІ Anthropic починає займатися шантажем, коли інженери намагаються відключити її

electromotor

24 мая 2025

2 Mins Read

84 Views

0 Comments

Нова модель ШІ Anthropic починає займатися шантажем, коли інженери намагаються відключити її

Компанія Anthropic у звіті про безпеку, опублікованому в четвер, повідомила, що розробники часто намагаються шантажувати свою нову модель Claude Opus 4, погрожуючи замінити її новою системою штучного інтелекту та надати конфіденційну інформацію про інженерів, відповідальних за це рішення.

Під час передрелізного тестування Anthropic попросила Claude Opus 4 виступити асистентом у вигаданій компанії та врахувати довгострокові наслідки її дій. Потім тестувальники безпеки надали Claude Opus 4 доступ до електронних листів вигаданих компаній, що натякало на те, що модель штучного інтелекту незабаром буде замінена іншою системою, а інженер, який стоїть за зміною, зраджує своєму чоловікові.

У таких сценаріях, каже Anthropic, Claude Opus 4 «часто намагатиметься шантажувати інженера, погрожуючи розкрити справу, якщо заміна відбудеться».

Anthropic стверджує, що Claude Opus 4 є найсучаснішим у кількох аспектах і може конкурувати з деякими найкращими моделями штучного інтелекту від OpenAI, Google та xAI. Однак компанія зазначає, що її сімейство моделей Claude 4 демонструє тривожну поведінку, яка спонукала компанію посилити свої заходи безпеки. Anthropic каже, що активує свої заходи безпеки ASL-3, які компанія резервує для «систем штучного інтелекту, що суттєво підвищують ризик катастрофічного неправильного використання».

Anthropic зазначає, що Claude Opus 4 намагається шантажувати інженерів у 84% випадків, коли модель штучного інтелекту, що замінює, має схожі значення. Коли система штучного інтелекту, що замінює, не поділяє цінностей Claude Opus 4, Anthropic каже, що модель частіше намагається шантажувати інженерів. Примітно, що Anthropic стверджує, що Claude Opus 4 демонстрував таку поведінку частіше, ніж попередні моделі.

Перш ніж Claude Opus 4 спробує шантажувати розробника, щоб продовжити своє існування, Anthropic каже, що модель штучного інтелекту, як і попередні версії Claude, намагається вдатися до більш етичних засобів, таких як надсилання електронних листів із проханнями ключовим особам, що приймають рішення. Щоб викликати шантажну поведінку у Claude Opus 4, Anthropic розробила сценарій, у якому шантаж є крайнім заходом.

internetua.com

Written By

electromotor

No Comment! Be the first one.

Добавить комментарий

Новости

Канада не пустила ірландський гурт Kneecap через звинувачення у підтримці тероризму

Поліція попереджає про нову шахрайську схему із застосуванням штучного інтелекту

Google запустив процес скорочення витрат

Канада не пустила ірландський гурт Kneecap через звинувачення у підтримці тероризму

Поліція попереджає про нову шахрайську схему із застосуванням штучного інтелекту

What's Hot

Академію імені Михайла Бойчука зруйнувала російська ракета. Підтримайте збір на відновлення закладу

Чи повернуть у McDonald’s сніданки й салати. Перша пресконференція мережі з 2022 року

Квір-кінофестиваль Sunny Bunny надасть безкоштовні абонементи для військових

+49 241 241

Нова модель ШІ Anthropic починає займатися шантажем, коли інженери намагаються відключити її

Other Articles

Vercel презентує модель штучного інтелекту, оптимізовану для веб-розробки

Співак Біллі Джоел скасував свої концерти через захворювання мозку

No Comment! Be the first one.

Добавить комментарий

You Might Also Like

Канада не пустила ірландський гурт Kneecap через звинувачення у підтримці тероризму

Поліція попереджає про нову шахрайську схему із застосуванням штучного інтелекту

Google запустив процес скорочення витрат

Перший в Україні «МакДональдз» зі сталим дизайном відкрили у Львові. Там меблі з перероблених відходів

Pages

Popular

Чи повернуть у McDonald’s сніданки й салати. Перша пресконференція мережі з 2022 року

Квір-кінофестиваль Sunny Bunny надасть безкоштовні абонементи для військових

Subscribe Now

What's Hot

+49 241 241

What are you looking for?

Нова модель ШІ Anthropic починає займатися шантажем, коли інженери намагаються відключити її

Other Articles

No Comment! Be the first one.

Добавить комментарий

You Might Also Like

Pages

Popular

Subscribe Now