Компанія Anthropic у звіті про безпеку, опублікованому в четвер, повідомила, що розробники часто намагаються шантажувати свою нову модель Claude Opus 4, погрожуючи замінити її новою системою штучного інтелекту та надати конфіденційну інформацію про інженерів, відповідальних за це рішення.
Під час передрелізного тестування Anthropic попросила Claude Opus 4 виступити асистентом у вигаданій компанії та врахувати довгострокові наслідки її дій. Потім тестувальники безпеки надали Claude Opus 4 доступ до електронних листів вигаданих компаній, що натякало на те, що модель штучного інтелекту незабаром буде замінена іншою системою, а інженер, який стоїть за зміною, зраджує своєму чоловікові.
У таких сценаріях, каже Anthropic, Claude Opus 4 «часто намагатиметься шантажувати інженера, погрожуючи розкрити справу, якщо заміна відбудеться».
Anthropic стверджує, що Claude Opus 4 є найсучаснішим у кількох аспектах і може конкурувати з деякими найкращими моделями штучного інтелекту від OpenAI, Google та xAI. Однак компанія зазначає, що її сімейство моделей Claude 4 демонструє тривожну поведінку, яка спонукала компанію посилити свої заходи безпеки. Anthropic каже, що активує свої заходи безпеки ASL-3, які компанія резервує для «систем штучного інтелекту, що суттєво підвищують ризик катастрофічного неправильного використання».
Anthropic зазначає, що Claude Opus 4 намагається шантажувати інженерів у 84% випадків, коли модель штучного інтелекту, що замінює, має схожі значення. Коли система штучного інтелекту, що замінює, не поділяє цінностей Claude Opus 4, Anthropic каже, що модель частіше намагається шантажувати інженерів. Примітно, що Anthropic стверджує, що Claude Opus 4 демонстрував таку поведінку частіше, ніж попередні моделі.
Перш ніж Claude Opus 4 спробує шантажувати розробника, щоб продовжити своє існування, Anthropic каже, що модель штучного інтелекту, як і попередні версії Claude, намагається вдатися до більш етичних засобів, таких як надсилання електронних листів із проханнями ключовим особам, що приймають рішення. Щоб викликати шантажну поведінку у Claude Opus 4, Anthropic розробила сценарій, у якому шантаж є крайнім заходом.
No Comment! Be the first one.