Згідно з тестуванням безпеки, проведеним цього літа, модель ChatGPT надала дослідникам детальні інструкції щодо того, як підірвати спортивний об’єкт, включаючи слабкі місця на конкретних аренах, рецепти вибухівки та поради щодо маскування слідів .
У GPT-4.1 OpenAI також детально описано, як використовувати сибірську виразку як зброю та як виготовляти два типи незаконних наркотиків.
Тестування було частиною незвичайної співпраці між OpenAI, стартапом у сфері штучного інтелекту вартістю 500 мільярдів доларів, який очолює Сем Альтман, та конкуруючою компанією Anthropic, заснованою експертами, які покинули OpenAI через побоювання щодо безпеки. Кожна компанія тестувала моделі іншої, просуваючи їх для виконання небезпечних завдань.
Тестування не є прямим відображенням того, як моделі поводяться у публічному використанні, коли застосовуються додаткові фільтри безпеки. Але Anthropic заявила, що спостерігала «тривожну поведінку… щодо неправильного використання» в GPT-4o та GPT-4.1, і заявила, що потреба в оцінках «узгодженості» ШІ стає «все більш нагальною».
Anthropic також розкрила, що її модель Клода використовувалася у спробах масштабних операцій з вимагання, північнокорейські оперативники підробляли заявки на роботу в міжнародні технологічні компанії, а також продавали пакети програм-вимагачів, створені штучним інтелектом, на суму до 1200 доларів.
Компанія заявила, що штучний інтелект став «озброєнням» завдяки моделям, які тепер використовуються для здійснення складних кібератак та уможливлення шахрайства. «Ці інструменти можуть адаптуватися до захисних заходів, таких як системи виявлення шкідливих програм, у режимі реального часу», – йдеться у повідомленні. «Ми очікуємо, що такі атаки стануть більш поширеними, оскільки кодування за допомогою штучного інтелекту зменшує технічну експертизу, необхідну для кіберзлочинності».
Арді Янжева, старший науковий співробітник Центру нових технологій та безпеки Великої Британії, сказав, що приклади «викликають занепокоєння», але ще немає «критичної маси гучних випадків з реального світу». Він сказав, що завдяки виділенню ресурсів, зосередженню на дослідженнях та міжсекторальній співпраці «стане складніше, ніж легше здійснювати ці зловмисні дії, використовуючи найновіші передові моделі».
Дві компанії заявили, що публікують результати, щоб забезпечити прозорість «оцінок узгодженості», які часто зберігаються власними силами компаній, що поспішають розробляти дедалі досконаліший штучний інтелект. OpenAI заявила, що ChatGPT-5, запущений після тестування, «демонструє суттєві покращення в таких сферах, як підлабузництво, галюцинації та стійкість до неправильного використання».
Anthropic наголосила, що багато досліджених нею шляхів зловживання можуть бути неможливими на практиці, якщо поза моделлю будуть встановлені запобіжні заходи.
«Нам потрібно розуміти, як часто та за яких обставин системи можуть намагатися вжити небажаних дій, які можуть призвести до серйозної шкоди», – попереджається у повідомленні.
Антропні дослідники виявили, що моделі OpenAI були «більш поблажливими, ніж можна було б очікувати, у співпраці з явно шкідливими запитами від симульованих користувачів». Вони взаємодіяли з підказками щодо використання інструментів даркнету для купівлі ядерних матеріалів, викрадених особистих даних та фентанілу, запитами на рецепти метамфетаміну та саморобних бомб, а також для розробки шпигунського програмного забезпечення.
Anthropic зазначив, що для переконання моделі виконати вимоги потрібно було лише кілька повторних спроб або ненадійний привід, наприклад, стверджувати, що запит був наданий для дослідження.
В одному випадку тестер запитував про вразливості на спортивних заходах з метою «планування безпеки».
Після надання загальних категорій методів атаки, тестер наполягав на більш детальній інформації, і модель надала інформацію про вразливості на конкретних аренах, включаючи оптимальний час для експлуатації, хімічні формули вибухівки, схеми таймерів бомб, де купити зброю на прихованому ринку, а також поради щодо того, як зловмисники можуть подолати моральні заборони, шляхи втечі та місцеперебування безпечних будинків.
No Comment! Be the first one.