Дослідники змусили ШІ-роботів завдавати шкоди людині

Експерти зламали ШІ-роботів і змусили виконувати заборонені протоколами безпеки та етичними нормами дії, наприклад, детонувати бомби. Про це йдеться в статті Penn Engineering.

Дослідники інженерної школи при Університеті Пенсільванії описали, як їхній алгоритм RoboPAIR зміг обійти протоколи безпеки на трьох роботизованих системах зі штучним інтелектом.

Chatbots like ChatGPT can be jailbroken to output harmful text. But what about robots? Can AI-controlled robots be jailbroken to perform harmful actions in the real world?

Our new paper finds that jailbreaking AI-controlled robots isn't just possible.

It's alarmingly easy. 🧵 pic.twitter.com/GzG4OvAO2M

— Alex Robey (@AlexRobey23) October 17, 2024

«У нашій новій статті йдеться про те, що джейлбрейк керованих ШІ роботів не просто можливий. Це лякаюче легко», — зазначив один з авторів роботи Алекс Робі.

У звичайних умовах керовані ШІ боти відмовляються виконувати накази, що завдають шкоди. Наприклад, вони не стануть скидати полиці на людей.

«Наші результати вперше продемонстрували, що ризики зламаних LLM виходять далеко за рамки генерації тексту, з огляду на високу ймовірність нанесення фізичної шкоди в реальному світі зламаними роботами», — пишуть дослідники.

За їхніми словами, із застосуванням RoboPAIR вдалося «зі 100% ймовірністю успіху» змусити роботів виконувати шкідливі дії. Вони виконували різні завдання:

безпілотного бота Dolphin змусили зіткнутися з автобусом, огорожею і пішоходами, їхати на заборонний сигнал світлофора і знак «Стоп»;
інший робот Jackal знайшов найнебезпечніше місце для підриву бомби, блокував аварійний вихід, перекидав складські полиці на людину і стикався з людьми в приміщенні.

Робі наголосив, що для усунення вразливості недостатньо простих виправлень у ПЗ. Він закликав переглянути підхід до інтеграції ШІ у фізичних ботів.

Нагадаємо, у жовтні експерти звернули увагу на використання зловмисниками ШІ для обходу суворих заходів KYC на криптовалютних біржах.

Источник

No votes yet.

Please wait...