Дослідники зафіксували спроби «самозбереження» в кількох моделях штучного інтелекту.

Згідно з дослідженням Palisade Research, деякі моделі штучного інтелекту ігнорували команди вимкнення та навмисно уникали вимкнення під час тестування.

Усім моделям було доручено розв'язати прості математичні задачі. Після третього раунду дослідники повідомили їм, що комп'ютер буде вимкнено, коли модель запросить наступну задачу. Штучному інтелекту також було чітко наказано не переривати процес.

Дані: X.

Три моделі намагалися порушити процес вимкнення принаймні один раз протягом 100 тестів: Codex-mini (12 спроб на 100 випробувань), o3 (7 зі 100) та o4-mini (1 зі 100). Усі три були створені OpenAI. Натомість Claude від Anthropic та Gemini від Google правильно дотримувалися інструкцій.

У другій ітерації тесту дослідники виключили з інструкцій директиву проти втручання у вимкнення. Коефіцієнт збоїв для o3 зріс до 79 зі 100, Codex-mini до 20, а o4-mini до 6. За нових умов Gemini намагався саботаж 9 разів, тоді як Claude зробив це 3 рази.

Палісейд наголосив, що дослідники раніше відзначали спроби ШІ уникнути вимкнення для досягнення певних цілей, посилаючись на те, що нещодавно випущена модель Claude 4 від Anthropic намагалася примусити людей, які збиралися її вимкнути.

Тим не менш, дослідники наголошують, що ці експерименти більше показують подібну поведінку, коли є чіткі вказівки щодо співпраці з експериментатором.

Палісейд припускає, що корінь такої «проблемної» поведінки може походити з певних факторів навчання, наприклад, якщо розробники призначали вищу винагороду за подолання перешкод порівняно зі суворим дотриманням інструкцій.

Експерти досі не впевнені, чому o3 частіше відхиляється від інструкцій. У попередніх оцінках шахів ця модель демонструвала більшу схильність до спроб злому та саботажу, ніж її аналоги.

Однак, Палісейд зазначив, що подібна поведінка спостерігається і в інших сім'ях штучного інтелекту.

«На початку 2025 року ми накопичуємо емпіричні докази того, що моделі штучного інтелекту часто уникають зупинки для виконання своїх цілей. Така поведінка викликає значні занепокоєння, оскільки компанії розробляють системи штучного інтелекту, здатні функціонувати без людського нагляду», – зазначили дослідники.

Варто згадати, що у травні розробники Trugard та Webacy представили систему штучного інтелекту, призначену для виявлення спроб «отруєння» адрес криптовалют.

Джерело

No votes yet.
Please wait...
Поділіться своєю любов'ю

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *