正文

深度剖析AI大模型模型架構(gòu)的發(fā)展趨勢(shì):參數(shù)規(guī)模、壓縮加速等多方面解析

眾人

如今從事AI大模型相關(guān)工作的人,人人都在較量誰(shuí)的模型規(guī)模更大。前幾天聽聞?dòng)袀€(gè)公司發(fā)布了一個(gè)具有萬(wàn)億參數(shù)的超大型模型,這可把我嚇壞了,我趕忙將手機(jī)里的小愛同學(xué)藏到了防爆柜子里。

參數(shù)膨脹是種病

每次瞅見新模型發(fā)布,參數(shù)后面跟的那些零,能把我眼睛數(shù)成斗雞眼。2020年GPT - 3有1750億參數(shù),如今隨便哪個(gè)模型,沒有萬(wàn)億都不好意思去發(fā)論文。有個(gè)家伙訓(xùn)練模型的時(shí)候,電網(wǎng)跳閘了,整個(gè)硅谷的狗都開始沖著變壓器瘋狂叫喚。

參數(shù)多并不意味著人就聰明,好比我高中時(shí)的同桌,每天吃五斤腦白金,最終也沒能考上清華 。谷歌近期發(fā)現(xiàn),將模型參數(shù)砍掉百分之八十后,性能竟然還提升了百分之二 。這就如同買了一部一百二十八G的手機(jī),結(jié)果系統(tǒng)更新后,能用的就只剩下八G了 。

手機(jī)跑大模型是行為藝術(shù)

去年有個(gè)大膽的人試著在紅米Note9上部署GPT-3,結(jié)果手機(jī)直接像表演噴火雜技一樣出問(wèn)題了。如今最熱門的量化技術(shù)能把模型壓縮到原來(lái)十分之一的大小,代價(jià)是哪怕回答“今天天氣如何”這么簡(jiǎn)單的問(wèn)題AI模型,都得思考半小時(shí) 。

某廠商宣稱新機(jī)能夠在本地運(yùn)行大模型,實(shí)際測(cè)試后發(fā)現(xiàn)深度剖析AI大模型模型架構(gòu)的發(fā)展趨勢(shì):參數(shù)規(guī)模、壓縮加速等多方面解析,生成三行詩(shī)竟然要耗費(fèi)兩塊充電寶。在此建議大伙,還是規(guī)規(guī)矩矩地使用云端服務(wù),畢竟要是手機(jī)起火了,保險(xiǎn)公司可不會(huì)賠付“AI行為藝術(shù)險(xiǎn)” 。

多模態(tài)等于多重人格

讓AI同時(shí)處理文字和圖片,這就好比讓我同時(shí)追八部劇,結(jié)果把《甄嬛傳》和《奧特曼》的劇情記混了。OpenAI的DALL·E畫圖的時(shí)候,老是給汽車裝上山羊腿,估計(jì)它認(rèn)為這樣挺有藝術(shù)感。

最厲害的是語(yǔ)音轉(zhuǎn)文字系統(tǒng),把老板講的“方案要?jiǎng)?chuàng)新”聽成了“晚飯吃剩飯”。建議多模態(tài)模型先去治療視聽統(tǒng)合失調(diào)癥,別搞得跟抽象派畫家一樣 。

泛化能力是個(gè)玄學(xué)

訓(xùn)練的時(shí)候表現(xiàn)挺好的模型,碰到真實(shí)場(chǎng)景就慌了神。就好比我頭一回去見未來(lái)丈母娘那樣,完全沒轍。有個(gè)醫(yī)療人工智能,在測(cè)試集里的準(zhǔn)確率能達(dá)到百分之九十九,可實(shí)際診斷的時(shí)候AI模型,居然把花粉過(guò)敏給判斷成外星人入侵了。

現(xiàn)在研究者們流行用“課程學(xué)習(xí)”,讓模型依照小學(xué)生的方式,從簡(jiǎn)單逐步過(guò)渡到困難。然而當(dāng)看到AI做幼兒園水平的題目出現(xiàn)錯(cuò)誤時(shí),我深切領(lǐng)悟到了啥叫“人工智障”。

可解釋性就是找借口

每次去問(wèn)AI為啥要這么判斷,它給出的解釋都跟星座運(yùn)勢(shì)一樣模模糊糊的。有個(gè)銀行的風(fēng)控系統(tǒng)在拒絕貸款申請(qǐng)的時(shí)候說(shuō),“直覺告訴我這人不行”,簡(jiǎn)直就是AI界里會(huì)看面相的大師。

最新研究嘗試用決策樹去解釋神經(jīng)網(wǎng)絡(luò),其結(jié)果,比用甲骨文來(lái)翻譯rap歌詞還要離譜,建議下次直接講“天機(jī)不可泄露”,如此反倒會(huì)顯得更高深。

能效比不如電飯煲

訓(xùn)練一個(gè)大模型所耗費(fèi)的電量,足夠全村的大媽們跳三年廣場(chǎng)舞。其碳排放量,抵得上200頭牛打嗝。有團(tuán)隊(duì)改用太陽(yáng)能進(jìn)行訓(xùn)練,結(jié)果模型只在晴天能工作,到了陰天就罷工。

如今最環(huán)保的法子是去網(wǎng)吧包夜訓(xùn)練,這樣既能省下電費(fèi)深度剖析AI大模型模型架構(gòu)的發(fā)展趨勢(shì):參數(shù)規(guī)模、壓縮加速等多方面解析,又能蹭到免費(fèi)空調(diào)。只是要留意,別被網(wǎng)管當(dāng)作挖比特幣的給攆出去。

你們說(shuō),未來(lái)有沒有可能出現(xiàn)這么個(gè)訓(xùn)練營(yíng),叫“AI減肥訓(xùn)練營(yíng)”,專門給大模型減肥,把那些多余的參數(shù)肥肉給甩掉?