7 Papers & Radios | 進一步「壓榨」ResNet效能；挑戰ViT、MLP-Mixer的簡單模型

機器之心 & ArXiv Weekly Radiostation

參與：杜偉、楚航、羅若天

本週論文主要包括挑戰 ViT、MLP-Mixer 的簡單模型 ConvMixer 以及獨立研究者 Ross Wightman 以及 Facebook AI、索邦大學的兩位研究者對 2015 年何愷明提出的 ResNet 的潛力的壓榨。

目錄：

Patches Are All You Need？

LibFewShot： A Comprehensive Library for Few-shot Learning

MT-ORL： Multi-Task Occlusion Relationship Learning

ResNet strikes back： An improved training procedure in timm

Binary Complex Neural Network Acceleration on FPGA

3D Face Recognition： A Survey

MINE： Towards Continuous Depth MPI with NeRF for Novel View Synthesis

ArXiv Weekly Radiostation：NLP、CV、ML 更多精選論文（附音訊）

論文 1：Patches Are All You Need?

作者：未公開

論文連結：https：//openreview。net/pdf？id=TVHS5Y4dNvM

摘要：

ViT（Vision Transformer）等視覺模型的強大效能，是來自於 Transformer，還是被忽略的 patch？有研究者提出了簡單 ConvMixer 模型進行證明，直接將 patch 作為輸入，實驗表明，ConvMixer 效能優於 ResNet 等經典視覺模型，並且在類似的引數計數和資料集大小方面也優於 ViT、MLP-Mixer 及其一些變體。

ConvMixer 由一個 patch 嵌入層和一個簡單的全卷積塊的重複應用組成。

主要比較結果。

推薦：

patch 成為了 ALL You Need？挑戰 ViT、MLP-Mixer 的簡單模型來了。

論文 2：LibFewShot: A Comprehensive Library for Few-shot Learning

作者：Wenbin Li、Chuanqi Dong、Pinzhuo Tian 等

論文連結：https：//arxiv。org/abs/2109。04898

摘要：

近日，南京大學推理與學習研究組（Reasoning and Learning Research Group， R&L Group）聯合澳大利亞伍倫貢大學、美國羅徹斯特大學開源了一個小樣本學習演算法庫 LibFewShot。該庫包含了 17 個 2017 年到 2020 年具有代表性的小樣本學習演算法，為小樣本學習領域中演算法對比採用統一框架、統一設定、實現公平對比等提供便利。

小樣本學習方法分類，（a）基於微調的方法；（b）基於元學習的方法；（c）基於度量的方法。

LibFewShot 實現了 17 個具有代表性的演算法，從上到下依次是基於微調的方法、基於元學習的方法和基於度量的方法。

推薦：

基於 PyTorch，集合 17 種方法，南京大學等提出小樣本演算法庫 LibFewShot。

論文 3：MT-ORL: Multi-Task Occlusion Relationship Learning

作者：Panhe Feng、Qi She、Lei Zhu 等

論文連結：https：//arxiv。org/pdf/2108。05722。pdf

摘要：

從現實世界中的 3D 場景拍攝得到 2D 圖片時，會不可避免地產生「遮擋」，即距離相機近的物體會擋住後面的物體，使其部分不可見。如何從一張單目影象中識別遮擋並同時推理出物體間遮擋與被遮擋的關係？這個任務被稱為遮擋關係推理（Occlusion relationship reasoning）。由於影象邊界的稀疏性，檢索單目影象中物體之間的遮擋關係具有挑戰性。研究人員觀察到，現有工作中存在兩個關鍵問題：1）缺乏可以利用解碼器階段兩個子任務遮擋邊界提取和遮擋方向預測之間有限耦合量的架構；2）遮擋方向的不正確表示。

為了解決第一個問題，來自北京郵電大學和位元組跳動視覺技術團隊的研究者們提出了一種被稱為遮擋共享和路徑分離網路（OPNet）的網路結構，它透過利用共享 high-level 特徵中的豐富遮擋線索和特定任務的 low-level 特徵中的結構化空間資訊來解決該問題。為了解決第二個問題，研究者又提出了用於預測遮擋方向的正交遮擋表示法（OOR）。該方法在標準 PIOD / BSDS ownership 資料集上以 6。1%/8。3% Boundary-AP 和 6。5%/10% Orientation-AP 超過此前最先進的方法。

本文提出的遮擋共享和路徑分離網路。

在 PIOD 和 BSDS ownership 兩個資料集上評估了模型和方法的有效性。

推薦：

照片中的遮擋關係如何判斷？北郵、位元組跳動新方法重新整理 SOTA。

論文 4：ResNet strikes back: An improved training procedure in timm

作者：Ross Wightman、Hugo Touvron、Herve Jegou

論文連結：https：//arxiv。org/pdf/2110。00476。pdf

摘要：

在計算機視覺領域，何愷明等人 2015 年提出的 ResNet（deep residual network，深度殘差網路）一直被視為經典架構，它解決了深度 CNN 模型難訓練的問題，是 CNN 影象史上的一個里程碑之作。自提出以來，ResNet 系列模型一直被用作研究中的預設架構，或者新模型提出時用來對比的基線。然而，在過去的幾年裡，神經網路訓練方面的最佳實踐已經取得了很大進展。新穎的最佳化、資料增強等方法提高了訓練流程的有效性。在這篇論文中，獨立研究者 Ross Wightman 以及 Facebook AI、索邦大學的兩位研究者重新評估了普通 ResNet-50 在加入上述訓練進展之後所能達到的效能。

3 種訓練流程的資源使用情況和 top-1 準確率結果。

研究者記錄了使用本文提出的訓練流程訓練其他架構時的效果，以測試這些訓練流程在其他模型上的泛化能力。

推薦：

2015 年的 ResNet 潛力都挖掘出來了嗎？新研究：不用蒸餾、無額外資料，效能還能漲一波。

論文 5：Binary Complex Neural Network Acceleration on FPGA

作者：Hongwu Peng、Shanglin Zhou、Scott Weitze 等

論文連結：https：//arxiv。org/pdf/2108。04811v1。pdf

摘要：

對於許多訊號處理應用來說，能夠從具有相位資訊的複數資料中進行學習是必不可少的。當前實值深度神經網路（DNN）在潛在資訊分析方面表現出了較高的效率，但在複數領域的應用還不夠。而深度複數網路（Deep complex networks， DCN）可以從複數資料中學習，但計算成本較高，因此，這些技術都不能滿足可部署系統處理短觀測或簡訊號突發的即時決策需求。近年來，將 DCN 與二值化神經網路（BNN）相結合的二值化複數神經網路（BCNN），在實時分類複數資料方面顯示出巨大潛力。本文中，來自康涅狄格大學、斯蒂文斯理工學院等機構的研究者提出了一種基於結構剪枝的 BCNN 加速器，它能夠在邊緣裝置上提供超過 5000 幀 / 秒的推理吞吐量。

CNN 與 BCNN 的比較。

複數輸入生成過程。

推薦：

FPGA 加速 BCNN，模型 20 倍剪枝率、邊緣裝置超 5000 幀 / 秒推理吞吐量。

論文 6：3D Face Recognition: A Survey

作者：Yaping Jing、Xuequan Lu、Shang Gao

論文連結：https：//arxiv。org/pdf/2108。11082v1。pdf

摘要：

近年來，人臉識別的研究已經轉向使用 3D 人臉表面，因為 3D 幾何資訊可以表徵更多的鑑別特徵。近日，澳大利亞迪肯大學的三位研究者回顧了過去十年發展起來的 3D 人臉識別技術，總體上分為常規方法和深度學習方法。該調查透過代表性研究的詳細描述來對各類技術進行評估，其中將技術的優缺點總結為對面部變化（表情、姿態和遮擋等）的準確性、複雜性和穩健性。該調查全面涵蓋了 3D 人臉識別的常規方法和深度學習方法，並闡明瞭可用的 3D 人臉資料庫和未來的研究挑戰與方向。

3D 人臉識別技術可以分為兩類：傳統方法和基於深度學習的方法。

當前突出的 3D 人臉資料庫，並比較了資料格式、身份數量、影象變化（例如表情、姿勢和遮擋）和掃描器裝置。

推薦：

一文讀懂 3D 人臉識別十年發展及未來趨勢。

論文 7：MINE: Towards Continuous Depth MPI with NeRF for Novel View Synthesis

作者：Jiaxin Li、Zijian Feng、Qi She 等

論文連結：https：//arxiv。org/pdf/2103。14910。pdf

摘要：

來自位元組跳動視覺技術團隊的研究者將 NeRF 和 Multiplane Image（MPI）結合，提出了一種新的三維空間表達方式 MINE。該方法透過對單張圖片做三維重建，

該團隊採用一個 encoder-decoder 的結構來生成三維表達。

MINE 可以利用 structure-from-motion 計算的相機引數與點雲進行場景的學習，在這種情況下，深度是 ambiguous 的。

推薦：

位元組跳動利用單張圖片做三維重建：將 NeRF、MPI 結合，提出 MINE。論文入選 ICCV 2021。

ArXiv Weekly Radiostation

機器之心聯合由楚航、羅若天發起的ArXiv Weekly Radiostation，在 7 Papers 的基礎上，精選本週更多重要論文，包括NLP、CV、ML領域各10篇精選，並提供音訊形式的論文摘要簡介，詳情如下：

本週 10 篇 NLP 精選論文是：

1。 ContractNLI： A Dataset for Document-level Natural Language Inference for Contracts。（from Christopher D。 Manning）

2。 Investigating Robustness of Dialog Models to Popular Figurative Language Constructs。（from Eduard Hovy）

3。 Expected Validation Performance and Estimation of a Random Variable‘s Maximum。（from Noah A。 Smith）

4。 ABC： Attention with Bounded-memory Control。（from Noah A。 Smith）

5。 A Survey of Knowledge Enhanced Pre-trained Models。（from Jian Yang）

6。 Multi-Document Keyphrase Extraction： A Literature Review and the First Dataset。（from Ido Dagan）

7。 Sentiment and structure in word co-occurrence networks on Twitter。（from Peter Sheridan Dodds）

8。 Teach Me What to Say and I Will Learn What to Pick： Unsupervised Knowledge Selection Through Response Generation with Pretrained Generative Models。（from Walter Daelemans）

9。 Structured abbreviation expansion in context。（from Richard Sproat）

10。 How BPE Affects Memorization in Transformers。（from Marco Baroni）

本週 10 篇 CV 精選論文是：

1。 Spatial Context Awareness for Unsupervised Change Detection in Optical Satellite Images。（from Bernhard Schölkopf）

2。 Keypoint Communities。（from Sven Kreiss）

3。 Scaling up instance annotation via label propagation。（from Antonio Torralba）

4。 Weakly Supervised Human-Object Interaction Detection in Video via Contrastive Spatiotemporal Regions。（from Antonio Torralba， Josef Sivic）

5。 Burst Image Restoration and Enhancement。（from Ming-Hsuan Yang）

6。 Calibrating Concepts and Operations： Towards Symbolic Reasoning on Real Images。（from Alan Yuille）

7。 See Yourself in Others： Attending Multiple Tasks for Own Failure Detection。（from Roland Siegwart）

8。 Video Autoencoder： self-supervised disentanglement of static 3D structure and motion。（from Alexei A。 Efros）

9。 SPEC： Seeing People in the Wild with an Estimated Camera。（from Otmar Hilliges， Michael J。 Black）

10。 Learning to Regress Bodies from Images using Differentiable Semantic Rendering。（from Michael J。 Black）

本週 10 篇 ML 精選論文是：

1。 Learn then Test： Calibrating Predictive Algorithms to Achieve Risk Control。（from Michael I。 Jordan）

2。 Boxhead： A Dataset for Learning Hierarchical Representations。（from Bernhard Schölkopf）

3。 Deep Fraud Detection on Non-attributed Graph。（from Philip S。 Yu）

4。 Cross-Domain Imitation Learning via Optimal Transport。（from Stuart Russell）

5。 Mismatched No More： Joint Model-Policy Optimization for Model-Based RL。（from Sergey Levine， Ruslan Salakhutdinov）

6。 The Information Geometry of Unsupervised Reinforcement Learning。（from Ruslan Salakhutdinov， Sergey Levine）

7。 Federating for Learning Group Fair Models。（from Guillermo Sapiro）

8。 A Theoretical Overview of Neural Contraction Metrics for Learning-based Control with Guaranteed Stability。（from Jean-Jacques Slotine）

9。 Contraction Theory for Nonlinear Stability Analysis and Learning-based Control： A Tutorial Overview。（from Jean-Jacques Slotine）

10。 When is the Convergence Time of Langevin Algorithms Dimension Independent？ A Composite Optimization Viewpoint。（from Yoav Freund， Tong Zhang）

7 Papers & Radios | 進一步「壓榨」ResNet效能；挑戰ViT、MLP-Mixer的簡單模型

猜你喜歡

推薦文章