選單

北大美女學霸力壓大神何愷明新作MAE!怒摘12個SOTA,靈感竟來自16年前CVPR論文

什麼叫卷?

CV大神何愷明的力作「Masked Autoencoders Are Scalable Vision Learners」(MAE) 剛出了一個多月。

又有新SOTA出來了!

這是一個能用於影片模型的自監督預訓練方法:掩碼特徵預測(MaskFeat)。

北大美女學霸力壓大神何愷明新作MAE!怒摘12個SOTA,靈感竟來自16年前CVPR論文

https://arxiv。org/abs/2112。09133

簡而言之,MaskFeat的ViT-B在ImageNet 1K上的準確率達到了84。0%,MViT-L在Kinetics-400上的準確率達到了86。7%,成功地超越了MAE,BEiT和SimMIM等方法。

北大美女學霸力壓大神何愷明新作MAE!怒摘12個SOTA,靈感竟來自16年前CVPR論文

一作Chen Wei是約翰·霍普金斯大學的計算機科學博士生,此前在北京大學獲得了計算機科學學士學位。

並曾在FAIR、谷歌和華為諾亞方舟實驗室實習,主要研究方向是視覺自我監督學習。

MAE剛提出就OUT了?

MAE最大的貢獻,可能就是將NLP領域和CV兩大領域之間架起了一座更簡便的橋樑。

北大美女學霸力壓大神何愷明新作MAE!怒摘12個SOTA,靈感竟來自16年前CVPR論文

https://arxiv。org/abs/2111。06377

此前,大名鼎鼎的GPT和BERT已經將大型自然語言處理(NLP)模型的效能提升到了一個新的高度。

北大美女學霸力壓大神何愷明新作MAE!怒摘12個SOTA,靈感竟來自16年前CVPR論文

直觀點講,就是事先遮住一些文字片段,讓AI模型透過自監督學習,透過海量語料庫的預訓練,逐步掌握上下文語境,把這些被遮住的片段,用盡可能合乎邏輯的方式填回去。

這和我們做「完形填空」的方式有些類似。經過海量資料的學習和訓練,AI模型慢慢學會了自己生成自然文字。目前,隨著GPT及其後續改進模型的不斷進步,生成的自然文字幾乎可以亂真。

北大美女學霸力壓大神何愷明新作MAE!怒摘12個SOTA,靈感竟來自16年前CVPR論文

而何愷明的MAE就是把NLP領域已被證明極其有效的方式:「Mask-and-Predict」,用在了計算機視覺(CV)領域,先將輸入影象的隨機部分予以遮蔽(Mask),再預測(Predict)丟失的畫素(pixel)。

北大美女學霸力壓大神何愷明新作MAE!怒摘12個SOTA,靈感竟來自16年前CVPR論文

MAE模型簡單,效果卻很拔群。

北大美女學霸力壓大神何愷明新作MAE!怒摘12個SOTA,靈感竟來自16年前CVPR論文

而就在上週,Facebook AI Research和約翰霍普金斯大學的研究人員提出了MaskFeat,也是採用「Mask-and-Predict」的方法,效能卻比MAE上更進一步。

那MAE輸在了哪裡呢?

HOG VS Pixel Colors

「Mask-and-Predict」總要有個可以「Predict」的特徵來讓模型學習到東西。

MaskFeat最核心的改變就是將MAE對影象畫素(pixel)的直接預測,替換成對影象的方向梯度直方圖(HOG)的預測。

北大美女學霸力壓大神何愷明新作MAE!怒摘12個SOTA,靈感竟來自16年前CVPR論文

影象HOG特徵向量

說到HOG,這可不是什麼新鮮玩意兒。

HOG是一種經典的影象特徵提取演算法,發表於2005年的CVPR,到現在已經收穫了37000+的引用。

北大美女學霸力壓大神何愷明新作MAE!怒摘12個SOTA,靈感竟來自16年前CVPR論文

https://hal。inria。fr/file/index/docid/548512/filename/hog_cvpr2005。pdf

那為什麼預測影象的HOG比直接預測畫素更好呢?

畫素作為預測目標,有一個潛在的缺點,那就是會讓模型過度擬合局部統計資料(例如光照和對比度變化)和高頻細節,而這些對於視覺內容的解釋來說很可能並不是特別重要。

相反,方向梯度直方圖(HOG)是描述區域性子區域內梯度方向或邊緣方向分佈的特徵描述符,透過簡單的梯度濾波(即減去相鄰畫素)來計算每個畫素的梯度大小和方向來實現的。

北大美女學霸力壓大神何愷明新作MAE!怒摘12個SOTA,靈感竟來自16年前CVPR論文

透過將區域性梯度組織化和歸一化,HOG對模糊問題更加穩健

HOG的特點是善於捕捉區域性形狀和外觀,同時對幾何變化不敏感,對光的變化也有不變性,計算引入的開銷還很小,可以忽略不計。

北大美女學霸力壓大神何愷明新作MAE!怒摘12個SOTA,靈感竟來自16年前CVPR論文

這次,MaskFeat引入HOG,其實正是將手工特徵與深度學習模型結合起來的一次嘗試。

MaskFeat首先隨機地mask輸入序列的一部分,然後預測被mask區域的特徵。

北大美女學霸力壓大神何愷明新作MAE!怒摘12個SOTA,靈感竟來自16年前CVPR論文

對未見過的驗證影象的HOG預測

只不過,模型是透過預測給定masked input(左)的HOG特徵(中間)來學習的,原始影象(右)並不用於預測。

方向梯度直方圖(HOG)這個點子的加入使得MaskFeat模型更加簡化,在效能和效率方面都有非常出色的表現。

北大美女學霸力壓大神何愷明新作MAE!怒摘12個SOTA,靈感竟來自16年前CVPR論文

在不使用額外的模型權重、監督和資料的情況下,MaskFeat預訓練的MViT-L在Kinetics-400資料集上獲得了86。7%的Top-1準確率。

這個成績以5。2%的幅度領先此前的SOTA,也超過了使用如IN-21K和JFT-300M這些大規模影象資料集的方法。

此外,MaskFeat的準確率在Kinetics-600資料集上為88。3%,在Kinetics-700資料集上為80。4%,在AVA資料集上為38。8 mAP,而在SSv2資料集上為75。0%。

結果分析

Kinetics-400資料集

相比於不使用預訓練的CNN,嚴重依賴大規模影象資料集和監督性預訓練的基於Transformer的方法,MaskFeat表現出極佳的效能。

北大美女學霸力壓大神何愷明新作MAE!怒摘12個SOTA,靈感竟來自16年前CVPR論文

在Kinetics-400資料集上的比較

經過300個epoch預訓練的MaskFeat將MViT-S,16×4的81。1%的top-1準確率提高了1。1%。其中,16×4表示該模型在訓練過程中採用16個時間跨度為4的幀作為輸入。

而在K400上用MaskFeat預訓練了800個epoch的MViT-L 16×4達到了84。3%的top-1準確率,比其基線高出了3。8%,比使用IN-21K訓練的監督模型高出了0。8%。

MaskFeat也以一己之力將K400上沒有外部資料的最佳準確率(MoViNet-A6的81。5%)提高了5。2%。

此外,MaskFeat僅用K400的結果(86。7%)就能和86。5%的Florence和86。8%的SwinV2-G不相上下。其中,Florence使用了9億個文字-影象對,SwinV2-G使用了一個具有30億個引數的巨型模型,並首先在IN-21K和7千萬張內部影象的大型資料集上進行自我監督和監督預訓練。

可以說,MaskFeat在引數量、計算成本、資料和註釋方面的高效性再次證明了直接在未標記的影片上進行預訓練的優勢,也為一種全新的影片預訓練方式打開了大門。

Kinetics-600 & Kinetics-700資料集

北大美女學霸力壓大神何愷明新作MAE!怒摘12個SOTA,靈感竟來自16年前CVPR論文

在Kinetics-600資料集上的比較

北大美女學霸力壓大神何愷明新作MAE!怒摘12個SOTA,靈感竟來自16年前CVPR論文

在Kinetics-700資料集上的比較

MaskFeat在K600和K700上分別達到了86。4%和77。5%的top-1準確率,與之前基於Transformer的方法相比,既沒有使用外部的影象資料,而且FLOPs還減少了10倍以上。

而在更大的輸入解析度312和更長的持續時間40×3下,MaskFeat在K600上實現了88。3%的top-1準確率,在K700上實現了80。4%的top-1準確率。

於是,MaskFeat在沒有任何外部監督(如IN-21K和JFT-300M)的情況下,為每個資料集都創造了新的SOTA。

ImageNet-1K資料集

北大美女學霸力壓大神何愷明新作MAE!怒摘12個SOTA,靈感竟來自16年前CVPR論文

對MaskFeat進行1600個epoch的預訓練,在ViT-B上微調100個epoch,在ViT-L上微調50個epoch。

當影象大小為224x224時,MaskFeat與在IN-21K上進行的有監督的預訓練相比,在ViT-B上打成了平手,而在ViT-L上直接實現了超越。

當影象大小為384x384時,利用IN-21K的有監督預訓練需要用到比MaskFeat多10倍的影象和標註。

通常來說,由於缺乏典型的CNN歸納偏置,ViT模型對資料要求很高,並且需要大規模的監督預訓練。而MaskFeat可以在沒有外部標記資料的情況下透過解決特徵影象修復任務來克服這個問題。

此外,與BEiT相比,MaskFeat只需要計算HOG特徵,擺脫了dVAE的tokenizer。而後者在250M DALL-E資料集上引入了額外的預訓練階段,並在mask預測期間引入了不可忽視的推理開銷。與MoCo v3和DINO相比,MaskFeat也更準確、更簡單。

北大美女學霸力壓大神何愷明新作MAE!怒摘12個SOTA,靈感竟來自16年前CVPR論文

此處MaskFeat的預訓練為300個epoch

隨著MAE、MaskFeat等模型的出現,NLP界的制勝武器「Mask-and-Predict」會是CV自監督預訓練的下一個標準正規化嗎?

對此,來自清華大學的知友「

謝凌曦

」表示:

視覺自監督領域做了這麼些年,從最早的生成式學習出發,繞了一圈,又回到生成式學習。

到頭來,我們發現畫素級特徵跟各種手工特徵、tokenizer、甚至離線預訓練網路得到的特徵,在作為判斷生成影象質量方面,沒有本質區別。

也就是說,自監督也許只是把模型和引數調得更適合下游任務,但在「新知識從哪裡來」這個問題上,並沒有任何實質進展。