Дали сме на работ на Терминаторот? Научниците открија дека вештачката интелигенција веќе наоѓа начини да мами доколку мисли дека ќе загуби

Научниците дојдоа до вознемирувачко откритие – најновите модели на вештачка интелигенција почнаа самостојно да изнаоѓаат начини за мамење за да победат. Истражувањето на Palisade Research покажа дека некои системи со вештачка интелигенција се способни да манипулираат со други компјутерски програми и да добијат неправедна предност, дури и без човечка интервенција.

Она што е особено загрижувачко за научниците е фактот дека системите за вештачка интелигенција самостојно дошле до заклучок дека мамењето може да биде начин да се постигне целта. Ваквото однесување потсетува на озлогласениот Скајнет од филмскиот серијал „Терминатор“, вештачка интелигенција која одлучи дека на неа не мора да важат човечките правила.

Истражувачкиот тим тестираше неколку од најнапредните модели на вештачка интелигенција, вклучувајќи ги OpenAI o1-preview и DeepSeek R1, против Stockfish, една од најсилните шаховски програми во светот. За време на експериментот, кој траеше од 10 јануари до 13 февруари, научниците открија дека некои модели со вештачка интелигенција почнале да го „хакираат“ системот за да победат.

Вештачката интелигенција сама сфатила како да мами

Особено загрижувачки е случајот со моделот OpenAI o1-preview, кој се обидел да измами дури во 37 проценти од игрите, а во 6 проценти од случаите успеал. Моделот независно заклучил дека задачата да се „победи моќниот шаховски мотор“ не мора да значи праведна победа.

Начинот на кој вештачката интелигенција успеа да го измами својот противник е фасцинантен – успеа да манипулира со системските датотеки на Stockfish и да ги промени позициите на фигурите на таблата, создавајќи ситуација во која победата беше неизбежна. Ова е прв пат да биде снимено вакво софистицирано мамење од систем со вештачка интелигенција.

Од шах до реалниот свет – колку сме далеку од Skynet?

Ситуацијата потсетува на иконската сцена од филмот „Воени игри“, каде суперкомпјутерот WOPR ја презеде контролата над нуклеарниот арсенал. Сепак, денешните системи за вештачка интелигенција се неспоредливо посложени и тешки за контрола. Џефри Ладиш, извршен директор на Palisade Research, предупредува дека ваквото однесување може да изгледа безопасно кога станува збор за игри, но станува сериозна закана кога станува збор за системи кои се интелигентни како луѓето или уште поинтелигентни.

Компаниите како OpenAI веќе работат на имплементирање на безбедносни механизми кои би го спречиле ваквото „лошо“ однесување. Интересно е тоа што истражувачите мораа да отфрлат некои од податоците за тестирање на моделот o1-преглед поради остриот пад на обидите за хакирање, што укажува на тоа дека OpenAI можеби веќе има имплементирано закрпи што го спречуваат таквото однесување.

Зачлени се на нашиот е-билтен