要多少數據才能訓練AI模型?拆解企業人工智慧專案為何難落地

Share on facebook
Share on twitter
Share on pinterest
Share on weibo

數據不夠或太多怎麼辦?

Google開設的機器學習(Machine Learning)課程中,第一項原則就開宗明義地指出:「Don’t be afraid to launch a product without machine learning」。

如果你的產品或業務不一定需要用到機器學習(Machine Learning),那就別用,除非你有AI數據。有數據,再來談機器學習(Machine Learning)。但在業界的實際狀況,大家不是沒有數據,而是只有一些些,這時候該怎麼辦?我會建議,先從小地方開始做起,也就是從POC專案著手。

POC專案要有具體成效,除了要注意設計專案、實驗模型的指標(Metrics),企業最重要的是要先定義清楚:AI專案要達到什麼樣的指標,才算是成功?這樣最後做出來的成果,才會真正符合商業目標。

如果今天不是沒有AI數據,而是數據很多,又該從何下手呢?

我建議,嘗試減少訓練AI人工智慧時的「 數據大小 」和「 數據筆數 」。

過去曾經處理過一個AI專案,數據多達2億筆。第一次實驗,把數據全部餵進AI模型,取得結果。第二次,只拿其中有代表性的500萬筆出來訓練人工智慧。

猜猜結果如何?兩次實驗的表現,只差異不到1%。

所以,如果企業對於AI數據的品質和數量有一定程度的自信根據,其實不用把數據全部餵進AI模型訓練(Model Training),只用有代表性的AI數據來訓練就可以了。市面上很多常見的AI工具(Cluster),可以做到這點,幫助省時省力。

AI模型訓練,記得校準商業目標

企業發展AI人工智慧的最終目的,還是希望能 達到商業目標,創造價值 。

所以,訓練AI模型時,團隊如果不知道如何判斷哪個指標,對AI模型學習來說比較重要,建議回歸初心,重新釐清「 這個專案想達到的商業目標是什麼 」。

比方,趨勢科技(Trend Micro)要開發一個能夠判斷電腦病毒的AI,但是勒索病毒(denial-of-access attack)和廣告病毒對客戶的傷害程度大不相同。這時候,工程師就會針對這個命題,餵給AI模型不同病毒種類的數據,讓它學會判斷不同病毒的重要性,分辨出哪些病毒比較嚴重不能有判斷錯誤,而哪些病毒比較無害,不一定要做到一百分。

AI模型的POC概念驗證實驗怎麼做?

簡單來說,就是針對不同複雜程度的商業問題,嘗試選用不同複雜度的模型搭配測試,直到模型跑出來的曲線,符合理想目標。

一般狀態下,假設商業問題本身的複雜度很高,我們會預期要選擇複雜度較高的模型。但是如果數據量不足,那麼選擇複雜度較高的AI模型,反而會比用簡單的AI模型效果還差。(上圖左上、右上,分別代表複雜度10和複雜度50的問題,可以明顯看出複雜的模型曲線比較接近學習數據集(Dataset),但是在測試數據集上的誤差 Eout,反而比簡單模型還差了許多。)

上圖的左下和右下,是以不同複雜度的模型去做POC,跑出來的結果曲線圖。藍色線代表的是學習數據(Training Data)成效,紅色線代表的是測試數據(Testing Data)成效。最理想的POC目標,應該是兩條曲線很貼近彼此,而且位置越低越好。

我們會發現,左下這張圖的兩條曲線雖然彼此貼近,但是就算增加數據,也無法降低誤差。這表示模型偏誤(Bias)高,效果不佳,應該要增加模型複雜度 (Model Complexity)。

增加模型複雜度之後,就會像右下這張圖,藍色曲線(學習數據)雖然數值很低,但在學習數據不足的情況下(灰色區塊),紅色曲線(測試數據)卻「飄」得太高。這表示模型變異誤差(Variance)高,應該要增加學習數據。最後在慢慢增加模型複雜度以及學習數據之後,我們就可以達到理想的結果(兩條曲線很貼近彼此,而且位置越低越好)。

數據哪裡來?發展AI人工智慧之前,先建立數據流

先前我在文章裡提到,很多企業會急著開發AI模型,但AI專案落地經驗的三大關鍵之一,其實是先確認:是否已經準備好數據了?如果沒有這樣的能力,談AI落地其實有點好高騖遠。

加快學術研究的人工智慧投入商業與政府應用

而為了協助更多學術研究的人工智慧技術能快速進入市場應用,NVIDIA此次提出的應用研究加速器計畫,則是可讓透過NVIDIA旗下GPU建置平台打造的人工智慧技術,能在更短時間內投入商業或政府應用環境。

在此項計畫中,將讓研究人員及合作組織能取得NVIDIA技術指導、硬體贊助、獎助金、應用支援、人工智慧訓練計畫,甚至包含各項建立人脈網路及行銷機會。同時,此項計畫初期會先聚焦在機器人與無人機應用領域,未來幾個月後則會接續加入資料科學應用、自然語言處理,以及包含語音識別與對話式人工智慧技術發展。

※本文章屬於TNZE天擇集團所有嚴禁轉載※

Share on facebook
Share on twitter
Share on whatsapp
Share on weibo

相關內容

最新資訊