聽(tīng)說(shuō)現(xiàn)在AI界有個(gè)奇事,有些智能貨色簡(jiǎn)直跟咱當(dāng)年考前突擊似的,做題做得那叫一個(gè)歡,考試分?jǐn)?shù)那是杠杠的,可一到畢業(yè),連工資條都弄不明白。這世道,連機(jī)器都開(kāi)始玩應(yīng)試教育了,真是讓人哭笑不得。
基準(zhǔn)測(cè)試的黑色幽默
去年那家科技公司招了個(gè)AI學(xué)霸,結(jié)果上崗第一天就把財(cái)務(wù)報(bào)表上的數(shù)字當(dāng)成了驗(yàn)證碼。換成是人類(lèi),hr估計(jì)得被罵得自閉了。現(xiàn)在的AI,就像個(gè)只會(huì)考雅思的英語(yǔ)老師,對(duì)"abandon"這個(gè)詞能說(shuō)出二十種用法,可要是聽(tīng)到老外問(wèn)"How are you",它就只能回一句"Fine, thank you"。
這醫(yī)療AI簡(jiǎn)直絕了,測(cè)試?yán)锬芫珳?zhǔn)地辨出十萬(wàn)張肺部的CT片子,可一到實(shí)際應(yīng)用,竟然把患者手上的奶茶杯當(dāng)成了腫瘤。這讓我不禁想起高中那時(shí)候的同桌,數(shù)學(xué)題解得溜溜的,可就是算不清飯卡里還剩多少錢(qián)。機(jī)器和咱們這幫凡人,犯傻的時(shí)候還挺像的。
刷榜高手的秘密武器
圈內(nèi)人都心知肚明:要是想讓AI考個(gè)高分,給它來(lái)三千道模擬題就夠。這不,去年有個(gè)語(yǔ)音識(shí)別系統(tǒng)測(cè)試的時(shí)候,準(zhǔn)確率竟然達(dá)到了99%,可一到實(shí)際用的時(shí)候,竟然把“打開(kāi)空調(diào)”聽(tīng)成了“刪除數(shù)據(jù)庫(kù)”。要是我家的智能音箱也這么玩,現(xiàn)在估計(jì)我得吼得震天響才能讓電風(fēng)扇轉(zhuǎn)起來(lái)。
更逗比的是,有個(gè)圖像識(shí)別比賽,它竟然能將模糊的馬賽克變回清明上河圖,可是一看到戴口罩的人,它就瞬間卡殼。開(kāi)發(fā)者撓著腦袋說(shuō):“我們訓(xùn)練的時(shí)候,根本沒(méi)遇到過(guò)這種問(wèn)題!”這不就是那種“考試不劃重點(diǎn)就完蛋”的典型癥狀嗎?
動(dòng)態(tài)數(shù)據(jù)的魔幻現(xiàn)實(shí)
麻省理工最近爆了個(gè)猛料,十個(gè)常用的數(shù)據(jù)集里,竟然有3%的標(biāo)注是錯(cuò)誤的。這就像高考卷子上有三十道錯(cuò)題,你還想從中找出真正的學(xué)霸嗎?某購(gòu)物平臺(tái)的AI系統(tǒng)竟然把用戶(hù)寫(xiě)的“爛透了”評(píng)語(yǔ)誤判為五星好評(píng),商家一聽(tīng),趕緊熬夜改商品詳情頁(yè),生怕錯(cuò)過(guò)這波流量。
研究者們現(xiàn)在弄了個(gè)動(dòng)態(tài)題庫(kù)AI模型沉迷刷榜致高分低能,基準(zhǔn)測(cè)試對(duì)其發(fā)展究竟必要與否?,專(zhuān)挑能整趴AI的題。有個(gè)隊(duì)伍讓網(wǎng)友們傳些搞笑圖,結(jié)果AI訓(xùn)練出來(lái)后,認(rèn)貓狗都不行了,可對(duì)那些P成表情包的土豆識(shí)別得那叫一個(gè)準(zhǔn)。這不就是駕校老師那句話(huà)的翻版嘛:你們科目一考滿(mǎn)分有啥用,真到路上看到交警,那腿抖得跟踩了電門(mén)似的。
科舉制的現(xiàn)代翻版
谷歌那幫工程師挺逗的AI模型,直接把現(xiàn)在的基準(zhǔn)測(cè)試比作古代科舉那八股文考試。有那金融AI能寫(xiě)出文采飛揚(yáng)的風(fēng)控報(bào)告,可一算復(fù)利就蒙圈了。更搞笑的是,那自動(dòng)駕駛系統(tǒng)在模擬測(cè)試?yán)镩]著眼睛都能倒車(chē)入庫(kù),一到真刀真槍的馬路上一看,斑馬線(xiàn)都成了停車(chē)位。
實(shí)驗(yàn)室搞了個(gè)實(shí)驗(yàn):AI和初中生一起做數(shù)學(xué)題。AI在標(biāo)準(zhǔn)題庫(kù)里把人打趴下,可要是把“雞兔同籠”換成“網(wǎng)紅直播間人數(shù)”,它就傻眼了。這讓人不禁想,咱們是養(yǎng)了個(gè)智能機(jī)器人,還是弄了個(gè)電子做題狂魔?
中國(guó)標(biāo)準(zhǔn)的突圍戰(zhàn)
國(guó)外那啥AI去年在國(guó)外圖像識(shí)別比賽里拿了個(gè)冠軍,結(jié)果一到咱們這兒,連糖醋排骨和鍋包肉都搞不清。這不,現(xiàn)在懂了為啥總有人說(shuō)“橘生淮南”這事了AI模型沉迷刷榜致高分低能,基準(zhǔn)測(cè)試對(duì)其發(fā)展究竟必要與否?,連機(jī)器都水土不服。咱們國(guó)產(chǎn)手機(jī)的人臉解鎖功能,能輕松識(shí)別化妝網(wǎng)紅臉,可要是遇到素顏的機(jī)主AI模型,那可就傻眼了。
這翻譯軟件也是絕了,搞學(xué)術(shù)論文那是專(zhuān)業(yè)教授的范兒,一到網(wǎng)絡(luò)流行語(yǔ)就變回退休老干部了。把“yyds”翻譯成“永遠(yuǎn)單身”,把“絕絕子”說(shuō)成“絕對(duì)的兒子”,這操作也是沒(méi)誰(shuí)了。下次測(cè)試能不能再加一道題,就是讓我們準(zhǔn)確識(shí)別“蚌埠住了”這東西到底啥意思。
未來(lái)實(shí)驗(yàn)室的腦洞
這幫研究人員搞了個(gè)“反套路”測(cè)試系統(tǒng),專(zhuān)給AI出些腦筋急轉(zhuǎn)彎。就像把“怎么用微波爐給手機(jī)充上電”這種怪題扔進(jìn)常規(guī)題庫(kù)。現(xiàn)在戰(zhàn)績(jī)最牛的AI想了個(gè)絕招:先把手機(jī)殼拆了,加熱到能發(fā)光的那個(gè)等離子態(tài)。
這所大學(xué)搞了個(gè)新花樣,用抖音短視頻來(lái)培養(yǎng)AI,結(jié)果AI總結(jié)出了三條宇宙級(jí)真理:音樂(lè)得突然嗨起來(lái),每隔15秒就得有個(gè)劇情反轉(zhuǎn),吃播最后都得來(lái)一句“記得點(diǎn)贊關(guān)注”。看樣子,要是想檢驗(yàn)AI的真本事,咱們得去直播間看看。
哎呀媽你家那貨,是不是又整出什么讓人笑到肚子疼的糗事,差點(diǎn)兒讓你把它給扔了?