臉書最近發表一款新演算法DINO,結合了自監督學習、不需標註訓練資料的優點,以及Transformer架構的自我注意力機制優勢。用DINO訓練出來的模型,不需任何標註資料,就能辨識圖片和影片中的物件,也能進行語意分割。特別的是,模型還能揪出複製圖,準確率達96.4%。 圖片來源: 臉書 重點新聞(0430~0506) 臉書 自監督學習 Transformer 臉書新模型融合自監督和Transformer,不需標註資料還能揪出複製圖 臉書聯手法國國家電腦科學研究院Inria,共同設計一套新訓練方法DINO,融合了自監督學習(Self-supervised learning)和Transformer的注意力機制優點,來訓練電腦視覺模型Vision Transformer(ViT),不需要標註資料就能完成訓練。用這個方法訓練出來的模型,能準確辨識圖片和影片中的物件,也能進行語意分割,完全不需標註資料。 臉書指出,近幾年AI突破性的成就來自兩大技術,也就是自監督學習和Transformer。自監督學習的好處是,AI模型能從未標註的資料中學習,省下標註所需的人力和時間成本。而Transformer的優點是,AI模型可從輸入值中,將注意力聚焦於所選的區域,來更有效率地推論。 於是,臉書結合這兩大技術,設計出DINO演算法。他們將自監督學習的兩大優點:老師網路(Momentum teacher)和多剪裁訓練(Multicrop training)整合到DINO框架中,來搭配ViT的自我注意力優勢。團隊發現,融合自監督學習和Transformer的DINO,對視覺世界的理解和人類很像,能辨識出物件的部分組成和圖片中的共同特徵;他們以ImageNet不同類別的影像來測試,發現DINO會以人能理解的方式,來分類影像,將相似的類別擺在一起。 這個方法,能讓模型快速執行k-NN分類任務,且不需要繁瑣的微調或學習分類器。在ImageNet的測試中,團隊也發現DINO比其他自監督學習模型還要好,而且,DINO還有能力識破複製圖和本尊的差異,未來可用於版權保護的偵測器上。 AWS...