【創科廣場】 增強學習商用成真 機械人執貨百發百中
02月05日
增強學習自我產生大量數據,不斷以獎勵機制改善行為,適合於機械人訓練,甚至自動駕駛訓練。Covariant就是以增強學習,為德國專門為貨倉物流提供方案Knapp。Knapp向全球的AI初創發出任務是,利用視覺運算協助機械人分類,結果只有Covariant勝出。
AI之父參與投資
Covariant.ai來頭不少,創辦人之一Pieter Abbeel史丹福大學博士畢業。Covariant.ai獲行業內多位AI專家投資;包括2018年圖靈獎得主Geoffrey Hinton及Yann LeCun(前兩者與Yoshua Bengio一同獲獎,三人獲譽為「AI之父」)、Google人工智能主管Jeff Dean、史丹福大學教授李飛飛、麻省理工電腦及人工智能實驗室Daniela Rus、多倫多大學教授Raquel Urtasun,也亦獲中國百度投資。
不少人知道AI最大價值,包括深度學習訓練可處理傳統電腦編程不能處理的問題,最明顯是視覺運算,以往難以用邏輯編輯,如今建立深度學習訓練模型,人臉識別就是其中之一。人臉識別以監督式學習完成模型訓練,識別能力已超越了人類。
監督式學習(Supervised Learning)必須經過標記數據,此外也要求大量運算能力,不少標記數據難以自動化,屬「勞動密集」工作,中國也出現了大量「數據工廠」和「數據標記員」。但增強學習的原理跟監督式學習(Supervised Learning)完全不同,更像有一位老師,站在模型旁邊監督。老師完全知道答案的對錯。增強學習更給學習模型(即是上述機械人)獎勵和懲罰,不斷修正改進。
準確率超越99%
Covariant.ai通過強化學習,模型能在不同環境,辨識出大量不同物件。Covariant.ai為Knapp訓練機械臂,已經德國兩個貨倉;包括柏林市電力供應器材分銷商Obeta的貨倉,取代人手分貨執勤,吸引全球參觀人士。
Covariant.ai不但可分辨形狀相似,反光的金屬物件、透明塑膠水瓶、一排排的藥丸、每次看來不同形狀物品;如衣服和食物膠袋,更辨別以透明膠袋包裝內的物件。
Covariant.ai利用多部視像鏡頭,作為機械人的「眼睛」;首先人手示範,錄下人類動作和動作次序,以產生機械人行為,機械人再通過多次嘗試,紀錄每次抓取物件成功率,試驗多種策略,不斷自我改良,甚至調整策略,先取蔽掩物件貨品,或者壓走袋內多餘空氣,加快執貨過程。
據Knapp副總裁Peter Puchwein說,隨着辨識物件的難度提高,不少初創AI模型,不久就被難倒;Covariant.ai的模型辨認和挑選貨物,即使物件位置如何擺放重疊,甚至具備有包裝,都難不倒視覺運算,達99.5%以上準確率,也是技術商用最低條件,Covariant.ai也是Knapp接觸多家AI初創之一,唯一可堅持最底,克服所有挑戰。
增強學習正式商用
Covariant.ai增強學習在取得的突破,在於增強學習一向耗用大量運算資源,一度更被認為難以商用,只有財力雄厚車廠,可用作訓練自動駕駛;Covariant.ai改良增強學習,大大減少訓練模型所需算力,取得的費用低於一般工人,更年中無休。
例如以模仿學習(Imitation Learning)以觀察其他知覺和動作為示範算法,例如人類的動作,向模型提供了基本資訊,減少訓練時間,模型再揣摩學習。另一技巧則為Meta Learning(元學習),或者叫做Learning to Learn(學會學習),讓AI自己學會思考,掌握推理,精益求精。Meta Learning聽似很玄,核心是優化學習過程的算法,加快模型掌握各種工作技巧;Meta Learning已是繼增強學習後,最熱門的研究。由於算法能夠自我學習,所以被稱為Covariant Brain平台。上述研究有效減少訓練成本,也對於未來增強學習,帶來重大啟示,因為機械人通過學習掌握的動作愈多,加上準確率提高,就愈快可轉移到商用。
全文刊於《星島日報》「創科廣場」