AI這次數(shù)學題又搞砸了,連數(shù)個方塊的答案都能整出幾個版本。國內外那些大模型一起玩起了“猜猜猜”的游戲,讓人不禁懷疑它們是不是悄悄地參加了同一個數(shù)學補習班。
大模型集體眼瞎現(xiàn)場
這題簡單得小學生都能搞定:圖里少了多少塊才能拼成個大立方體?結果那O3家伙一口氣報了45塊,2.5Pro那貨小氣巴拉的拷打AI難度升級!圖像推理新難題引熱議,大模型答案為何不同?,只說10塊,國產(chǎn)的Qwen3更絕,直接砍到9塊。這差距簡直比菜市場砍價還夸張,要是不懂的人還以為是在參加拍賣會。
這o3簡直了,按理說應該是5乘5乘5的算式,愣是把79給算成了45。這數(shù)學水平要是去小賣部找零,那老板都能直接報警了。再后來一看,它數(shù)現(xiàn)有的方塊時AI模型,竟然把46個當成了80個——這AI的眼睛簡直就是自帶了高斯模糊濾鏡。
規(guī)格理解大型翻車現(xiàn)場
各家AI對“大立方體”的認知,簡直跟直男分辨色卡似的。o3幻想著要搭個五層的蛋糕,結果2.5Pro覺得四層就足夠了,國內的倆兄弟直接擺爛,直言:“三層已經(jīng)不能再往上加了。”下次咱們換個題目,改成“請先統(tǒng)一下,咱們說的‘大立方體’到底是個啥?”
最悲催的是咱們這些用戶,本來想著要試試AI的智商,結果卻被迫開始玩起了那個什么規(guī)格盲盒游戲。同一個問題,竟然能蹦出三種答案,這比咱們去吃自助餐的時候能看到的菜品種類還要多。有網(wǎng)友試了試用那個o3,前兩次都提示,結果第三次突然就開竅了——原來這AI就像駱駝一樣,得抽它三鞭子它才肯乖乖地往前走。
人類其實也懵逼
評論區(qū)炸鍋了,真事來了:這題人類自己都吵得不可開交。有人死磕必須原樣拼,有人覺得能拆了再組,還有杠精問“大立方體能不能帶洞洞”。更絕的是,某網(wǎng)友來了一句神提問:“你們數(shù)方塊的時候,是不是都噴口水了?”
最慘的就是那個AI了,它可能以為自己是在玩Minecraft,心里想“老子平時都是隨便搭搭的”。結果一發(fā)現(xiàn)得嚴格按照圖紙來,CPU差點兒燒起來。事實就是,讓AI去解數(shù)學題,就跟讓文科生修電腦一樣,完全是專業(yè)不搭調的虐戀。
提示詞才是真外掛
老哥們注意了,給o3來三次“最長邊”的提示AI模型,它立馬從弱智變天才。原來這AI跟某些學生似的,不劃重點就瞎蒙。再后來發(fā)現(xiàn),它還把錯誤經(jīng)驗記牢了——早知道,這不就是那種臨時抱佛腳的學霸。
這操作簡直騷得一批,直接給AI拋出現(xiàn)有方塊布局,結果那貨瞬間就給算出來了。所以說,AI其實并不是算不出來拷打AI難度升級!圖像推理新難題引熱議,大模型答案為何不同?,問題就出在出題人連個說明書都沒給。下次咱們得在題旁邊附上個《方塊擺放圖解》,免得AI像踩高蹺似的瞎猜。
訓練數(shù)據(jù)背鍋俠
這題妥妥地成了AI的黑歷史,以后所有的小機器都得反復操練數(shù)方塊這活兒。你瞧,將來AI要是再看到那些小方塊,保不齊就得犯病,得先翻翻那本說明書:"這回我得先弄清楚這些方塊到底怎么玩..." 咱還得給它們加個“防手殘”的培訓課程,畢竟數(shù)數(shù)這種簡單事都能搞錯,指不定哪天就把人民幣錯算成越南盾了。
最悲催的是那個教練,本來還幻想著培養(yǎng)出一個奧數(shù)冠軍,結果一看,考場上那學生竟然用腳在撥算盤。網(wǎng)友們都笑噴了:"你們訓練的時候是不是只顧著講笑話了?"還得提醒一下,下次考試前得先測測視力,別讓AI把那些方塊字誤當成了二維碼。
未來屬于數(shù)學渣
現(xiàn)在各個實驗室都在火急火燎地補習立方體數(shù)學,聽說有個團隊連軸轉,給AI整了個“數(shù)數(shù)不傻系統(tǒng)”。更逗的是,網(wǎng)友們腦洞大開,提議說:“咱們不如讓這些AI自己批改作業(yè),要是出錯了就讓它背圓周率去。”
瞧著這些AI為了那幾個小方塊題都愁眉苦臉,我突然覺得心里平衡多了——沒想到學霸們也會栽在小學奧數(shù)里。話說回來,下回這些AI會不會栽在哪種小學數(shù)學題上?是雞兔同籠還是水池進水,真是讓人好奇。