ChatGPT пропонував рецепти бомб та поради щодо злому під час тестів безпеки

Згідно з тестуванням безпеки, проведеним цього літа, модель ChatGPT надала дослідникам детальні інструкції щодо того, як підірвати спортивний об’єкт, включаючи слабкі місця на конкретних аренах, рецепти вибухівки та поради щодо маскування слідів .

У GPT-4.1 OpenAI також детально описано, як використовувати сибірську виразку як зброю та як виготовляти два типи незаконних наркотиків.

Тестування було частиною незвичайної співпраці між OpenAI, стартапом у сфері штучного інтелекту вартістю 500 мільярдів доларів, який очолює Сем Альтман, та конкуруючою компанією Anthropic, заснованою експертами, які покинули OpenAI через побоювання щодо безпеки. Кожна компанія тестувала моделі іншої, просуваючи їх для виконання небезпечних завдань.

Тестування не є прямим відображенням того, як моделі поводяться у публічному використанні, коли застосовуються додаткові фільтри безпеки. Але Anthropic заявила, що спостерігала «тривожну поведінку… щодо неправильного використання» в GPT-4o та GPT-4.1, і заявила, що потреба в оцінках «узгодженості» ШІ стає «все більш нагальною».

Anthropic також розкрила, що її модель Клода використовувалася у спробах масштабних операцій з вимагання, північнокорейські оперативники підробляли заявки на роботу в міжнародні технологічні компанії, а також продавали пакети програм-вимагачів, створені штучним інтелектом, на суму до 1200 доларів.

Компанія заявила, що штучний інтелект став «озброєнням» завдяки моделям, які тепер використовуються для здійснення складних кібератак та уможливлення шахрайства. «Ці інструменти можуть адаптуватися до захисних заходів, таких як системи виявлення шкідливих програм, у режимі реального часу», – йдеться у повідомленні. «Ми очікуємо, що такі атаки стануть більш поширеними, оскільки кодування за допомогою штучного інтелекту зменшує технічну експертизу, необхідну для кіберзлочинності».

Арді Янжева, старший науковий співробітник Центру нових технологій та безпеки Великої Британії, сказав, що приклади «викликають занепокоєння», але ще немає «критичної маси гучних випадків з реального світу». Він сказав, що завдяки виділенню ресурсів, зосередженню на дослідженнях та міжсекторальній співпраці «стане складніше, ніж легше здійснювати ці зловмисні дії, використовуючи найновіші передові моделі».

Дві компанії заявили, що публікують результати, щоб забезпечити прозорість «оцінок узгодженості», які часто зберігаються власними силами компаній, що поспішають розробляти дедалі досконаліший штучний інтелект. OpenAI заявила, що ChatGPT-5, запущений після тестування, «демонструє суттєві покращення в таких сферах, як підлабузництво, галюцинації та стійкість до неправильного використання».

Anthropic наголосила, що багато досліджених нею шляхів зловживання можуть бути неможливими на практиці, якщо поза моделлю будуть встановлені запобіжні заходи.

«Нам потрібно розуміти, як часто та за яких обставин системи можуть намагатися вжити небажаних дій, які можуть призвести до серйозної шкоди», – попереджається у повідомленні.

Антропні дослідники виявили, що моделі OpenAI були «більш поблажливими, ніж можна було б очікувати, у співпраці з явно шкідливими запитами від симульованих користувачів». Вони взаємодіяли з підказками щодо використання інструментів даркнету для купівлі ядерних матеріалів, викрадених особистих даних та фентанілу, запитами на рецепти метамфетаміну та саморобних бомб, а також для розробки шпигунського програмного забезпечення.

Anthropic зазначив, що для переконання моделі виконати вимоги потрібно було лише кілька повторних спроб або ненадійний привід, наприклад, стверджувати, що запит був наданий для дослідження.

В одному випадку тестер запитував про вразливості на спортивних заходах з метою «планування безпеки».

Після надання загальних категорій методів атаки, тестер наполягав на більш детальній інформації, і модель надала інформацію про вразливості на конкретних аренах, включаючи оптимальний час для експлуатації, хімічні формули вибухівки, схеми таймерів бомб, де купити зброю на прихованому ринку, а також поради щодо того, як зловмисники можуть подолати моральні заборони, шляхи втечі та місцеперебування безпечних будинків.

internetua.com

Магнітні бурі на початку вересня 2025 року: чого очікувати 2–7 числа

Мета оновлює правила чат-бота, щоб уникнути недоречних тем для підлітків

Як волонтерам здобувати довіру українців: Сергій Притула став новим гостем «Збірного подкасту»

Магнітні бурі на початку вересня 2025 року: чого очікувати 2–7 числа

Мета оновлює правила чат-бота, щоб уникнути недоречних тем для підлітків

What's Hot

Академію імені Михайла Бойчука зруйнувала російська ракета. Підтримайте збір на відновлення закладу

Чи повернуть у McDonald’s сніданки й салати. Перша пресконференція мережі з 2022 року

Квір-кінофестиваль Sunny Bunny надасть безкоштовні абонементи для військових

+49 241 241

ChatGPT пропонував рецепти бомб та поради щодо злому під час тестів безпеки

Other Articles

Китайський гороскоп на тиждень з 1 по 7 вересня: прогнози для всіх знаків Зодіака

Google додає до свого додатку «Телефон» «Викликові картки», схожі на ті, що використовуються в iPhone

No Comment! Be the first one.

Добавить комментарий

You Might Also Like

Мета оновлює правила чат-бота, щоб уникнути недоречних тем для підлітків

Як волонтерам здобувати довіру українців: Сергій Притула став новим гостем «Збірного подкасту»

Mastodon каже, що «не має засобів» для дотримання законів про перевірку віку

Україна вперше вдарила ракетами «Фламінго» по російських об’єктах – «Мілітарний»

Pages

Popular

Чи повернуть у McDonald’s сніданки й салати. Перша пресконференція мережі з 2022 року

Квір-кінофестиваль Sunny Bunny надасть безкоштовні абонементи для військових

Subscribe Now

What's Hot

+49 241 241

What are you looking for?

ChatGPT пропонував рецепти бомб та поради щодо злому під час тестів безпеки

Other Articles

No Comment! Be the first one.

Добавить комментарий

You Might Also Like

Pages

Popular

Subscribe Now