聽(tīng)聞?dòng)腥私柚?strong>AI模型去預(yù)測(cè)彩票號(hào)碼,最終賠得連褲衩都沒(méi)了。這件事告知我們,模型測(cè)試不能只依靠運(yùn)氣,必須要用沒(méi)見(jiàn)過(guò)的新數(shù)據(jù)去檢驗(yàn) 。
模型測(cè)試別偷懶
測(cè)試模型跟相親似的,只看照片可不行制作AI模型的七大關(guān)鍵步驟:算法框架、數(shù)據(jù)準(zhǔn)備與訓(xùn)練優(yōu)化等,得見(jiàn)了面才曉得靠不靠譜。2021年有個(gè)團(tuán)隊(duì)用舊數(shù)據(jù)測(cè)試推薦系統(tǒng),上線后用戶投訴多得跟雪花片似的,最后發(fā)現(xiàn)模型連性別都區(qū)分不了。
最好準(zhǔn)備百分之十到百分之三十的數(shù)據(jù)當(dāng)作測(cè)試集,別舍不得這點(diǎn)數(shù)據(jù)。有個(gè)從事醫(yī)療影像識(shí)別工作的家伙,把新冠患者的CT全都放進(jìn)訓(xùn)練集,測(cè)試時(shí)準(zhǔn)確率百分之九十九,結(jié)果碰到普通肺炎就不行了。
部署是個(gè)技術(shù)活
北京西二旗有個(gè)程序員,他把模型打包成了200MB的exe,用戶一點(diǎn)開(kāi)就直接卡死了。如今流行把模型放到云端,2023年的統(tǒng)計(jì)表明,75%的企業(yè)選擇通過(guò)API調(diào)用,畢竟誰(shuí)都不想背著服務(wù)器到處跑 。
有個(gè)搞智能客服的團(tuán)隊(duì)更厲害,把模型放到樹(shù)莓派里弄成音箱,結(jié)果客戶會(huì)議室信號(hào)巨差,機(jī)器人全程一聲不吭。所以選部署方式得看具體場(chǎng)景,別學(xué)他們?yōu)榱孙@擺技術(shù)而搞砸了。
調(diào)參比相親還難
深圳某個(gè)大廠的算法工程師,調(diào)試參數(shù)調(diào)了三個(gè)月,最后才發(fā)現(xiàn),把學(xué)習(xí)率改回到默認(rèn)值,效果是最好的。2022年Kaggle比賽里有個(gè)厲害的人,用遺傳算法來(lái)調(diào)參,結(jié)果筆記本的CPU燒得厲害,都能用來(lái)煎雞蛋了。
增加數(shù)據(jù)量確實(shí)能起到作用,然而有個(gè)從事電商推薦的團(tuán)隊(duì),收集了1TB的用戶數(shù)據(jù),在訓(xùn)練的時(shí)候卻發(fā)現(xiàn),其中90%是機(jī)器人刷出來(lái)的。所以說(shuō),清洗數(shù)據(jù)要比堆砌數(shù)據(jù)更加重要,可別像他們那樣,白白浪費(fèi)了十萬(wàn)塊的GPU費(fèi)用。
預(yù)訓(xùn)練模型真香
上海張江存在一家創(chuàng)業(yè)公司,該公司運(yùn)用BERT進(jìn)行微調(diào),僅僅花費(fèi)三天時(shí)間就完成了智能合同審查,相較于從頭開(kāi)始訓(xùn)練制作AI模型的七大關(guān)鍵步驟:算法框架、數(shù)據(jù)準(zhǔn)備與訓(xùn)練優(yōu)化等,節(jié)省了二十萬(wàn)電費(fèi)。在2023年,HuggingFace的統(tǒng)計(jì)數(shù)據(jù)表明,84%的NLP項(xiàng)目都在使用預(yù)訓(xùn)練模型。
然而有個(gè)從事服裝識(shí)別產(chǎn)品的團(tuán)隊(duì),直接照抄ImageNet預(yù)訓(xùn)練模型,碰到漢服就傻眼了。微調(diào)可不是只換個(gè)標(biāo)簽?zāi)敲春?jiǎn)單,得像成都那家AI照相館一樣,專門搜集了5000套漢服數(shù)據(jù),重新進(jìn)行訓(xùn)練。
云服務(wù)省錢大法
杭州有個(gè)大學(xué)生,用AutoML平臺(tái)做畢業(yè)設(shè)計(jì),三天就完成了導(dǎo)師要求一個(gè)月才能做完的活兒。如今,就連菜市場(chǎng)的大媽都開(kāi)始使用AI平臺(tái)了。2024年的統(tǒng)計(jì)數(shù)據(jù)表明,60%的模型訓(xùn)練都是在云端完成的。
有個(gè)搞智能園藝的團(tuán)隊(duì)AI模型,把所有數(shù)據(jù)上傳到了公有云,結(jié)果,競(jìng)爭(zhēng)對(duì)手把他們標(biāo)注好的植物病害圖鑒給下載了。重要數(shù)據(jù)得學(xué)銀行那樣,先加密,然后再上傳到私有云,可別傻乎乎地吃虧。
開(kāi)源代碼有陷阱
廣州有個(gè)程序員抄了GitHub上的代碼,結(jié)果被原作者追著要專利費(fèi),嚇得他連夜重新編寫。2023年開(kāi)源項(xiàng)目訴訟案件數(shù)量增長(zhǎng)了200%AI模型,MIT許可證看著挺好,用起來(lái)沒(méi)準(zhǔn)會(huì)出問(wèn)題。
有個(gè)更悲催的團(tuán)隊(duì),用了某明星項(xiàng)目的人臉識(shí)別代碼,上線后才發(fā)覺(jué)得買配套攝像頭。如今機(jī)靈的人都學(xué)海淀區(qū)那些公司,先把開(kāi)源協(xié)議當(dāng)作合同來(lái)審查,以免掉進(jìn)坑里。
你們碰到過(guò)模型上線之后才發(fā)覺(jué)是個(gè)笨蛋的事沒(méi)?講出來(lái)讓大伙樂(lè)一樂(lè)。
還沒(méi)有評(píng)論,來(lái)說(shuō)兩句吧...