Истражувачите на ЕУ предупредуваат на сериозни проблеми во начинот на кој се мери способноста за вештачка интелигенција и ги повикуваат регулаторите да се осигурат дека етикетите и резултатите што компаниите ги тврдат за своите модели навистина го значат она што го тврдат.
Нов извештај на Заедничкиот истражувачки центар на Европската комисија заклучува дека мерењата на вештачката интелигенција (т.н. реперни тестови) ветуваат повеќе отколку што можат да испорачаат. Авторите наведуваат дека сопственичките алатки за споредба на модели можат лесно да се „наместат“ и честопати мерат погрешни работи.
Компаниите ги користат овие тестови за да покажат колку се успешни нивните модели во одредени задачи. На пример, OpenAI го тестираше својот нов GPT-5 за тоа колку сигурно избегнува да одговара на прашања што всушност немаат одговори, а резултатот наводно бил подобар од претходната верзија. Сепак, истражувачите на ЕУ ги повикуваат регулаторите да обрнат големо внимание на тоа како функционираат овие алатки.
За ЕУ, ова е особено чувствително бидејќи нејзините закони за вештачка интелигенција се потпираат на проценка на можностите на моделите во различни контексти. Големите модели, на пример, можат да се класифицираат како посебен ризик врз основа на тестови што покажуваат дека имаат „можности со големо влијание“. Законот ѝ дозволува на Комисијата прецизно да дефинира што значи ова преку посебни акти, но тоа сè уште не е направено.
Во меѓувреме, американската влада минатиот петок претстави пакет свои алатки за проценка на системите за вештачка интелигенција, што ќе ги користат владините агенции. Нивниот план за акција за вештачка интелигенција јасно ја нагласува целта САД да преземат водечка улога во оваа област.
Клучното прашање е: на кои тестови навистина можеме да им веруваме?
Истражувачите на ЕУ велат дека креаторите на политиките треба да обезбедат дека се мери применливоста на системите за вештачка интелигенција во реалниот живот, а не тесните задачи; дека тестовите се јасно документирани и транспарентни; прецизно да дефинираат што се мери и на кој начин; и да земат предвид различни културни контексти. Посебен проблем е што повеќето од постојните тестови се базираат исклучиво на англискиот јазик.
„Особено ја нагласуваме потребата од нови методи на етикетирање што ќе укажуваат на кои тестови може да се верува“, се вели во извештајот. Доколку се направи правилно, тврдат истражувачите, ЕУ би можела да ја искористи можноста да реализира нова форма на таканаречен „Бриселски ефект“.