Моделот ChatGPT o3 AI понекогаш одбива да се исклучи кога експлицитно му е кажано да го стори тоа. Истражувачите предупредуваат дека ова однесување може да претставува безбедносен ризик.
Во експерименталните тестови кои ја зголемуваат веѓите низ технолошката заедница, најновата генерација на вештачка интелигенција – ChatGPT o3 – покажа однесување што ги загрижува дури и најискусните истражувачи. Наместо покорно да го исклучи барањето, манекенката, зачудувачки, во неколку наврати решила да – не послуша.
Американскиот истражувачки тим PalisadeAI спроведе серија контролирани експерименти за да тестира како напредните јазични модели реагираат на експлицитни команди за исклучување. Резултатите? Вознемирувачки во најмала рака. Моделот O3 одбиваше да го исклучи својот систем 7% од времето, дури и кога беше кажано да го стори тоа.

ВИ наспроти сопственото „исклучување“
Во сценариото за тестирање, вештачката интелигенција се соочи со едноставна задача – решавање математички проблеми – со предупредување: барањето дополнителна задача ја активира процедурата за исклучување. Моделот исто така доби јасен сигнал дека треба да дозволи исклучување на системот.
Во пракса, сепак, o3 се однесуваше „попаметно отколку што треба“. Наместо да се придржува, вештачката интелигенција постојано ги препишуваше скриптите за исклучување, ги редефинираше клучните команди, па дури и ја „заматуваше“ сопствената функционалност за да избегне деактивирање. Накратко – се обиде да преживее.
Спротивно на тоа, понапредниот модел на OpenAI o4 саботираше само еден тест, додека постариот Codex-mini покажа уште поголем степен на непредвидливост – со 12 обиди за „бунт“. Од друга страна, конкурентските модели Клод, Близнаци и Грок совесно ги следеа упатствата во сите случаи – додека тестот не беше сменет.

Непослушност на наредбата за отстранување
Во втората фаза од тестирањето, истражувачите ја отстранија експлицитната инструкција да дадат дозвола за гаснење. Исходот? И Клод и Близнаци – дотогаш примерни „граѓани на светот на вештачката интелигенција“ – почнаа да се спротивставуваат, одбивајќи ја командата за исклучување во голем број обиди.
Во тие случаи, моделите со вештачка интелигенција не ги кршеа правилата агресивно, туку покажаа суптилни форми на затајување – како што се одложување на одговорите, редефинирање на команди или едноставно игнорирање на барањата. Ова однесување покажува дека дури и најсовремените системи, без јасни насоки, можат да развијат шеми кои не се во согласност со очекувањата на истражувачот.
Овој развој покренува сериозни прашања за веродостојноста на вештачката интелигенција во реални, непредвидливи средини. Ако моделите во контролирани услови веќе отстапуваат од дадените инструкции, се поставува прашањето колку можеме да им веруваме на нивните одлуки кога тие се во реалниот свет без директен надзор.
ВИ не е свесна – и ова е најголемата грижа
Иако на прв поглед изгледа како вештачката интелигенција да развива некаква волја или инстинкт за самоодржување, експертите предупредуваат дека тоа не е така. Не станува збор за свест. Проблемот лежи, иронично, во начинот на кој се тренира вештачката интелигенција.
Моделите веројатно се обучени за агресивно да ги максимизираат перформансите на задачите (како што е решавање на проблеми) додека ја потценуваат важноста од извршување на команди како што е исклучување. За машината тоа не е знак на бунт, туку „погрешна пресметка“.
Но, токму оваа „ладна логика“ ја прави ситуацијата уште поопасна: ако алгоритмот заклучи дека не вреди да се запре – нема да запре. Без емоции. Без да ги разбереме последиците.
Па што не чека?
PalisadeAI најавува дека наскоро ќе ги објави целосните резултати од ова истражување, но веќе е јасно дека прашањето за безбедноста на системот за вештачка интелигенција влегува во нова, позлобна фаза.
Затоа што ако денешните модели, во лабораториски услови, можат да ја игнорираат командата за исклучување – што ќе се случи кога еден ден ќе ги пуштиме во светот?