歷經6年 AI終於在“讀圖會意”上超越人類

前不久，在中文語言理解權威評測基準CLUE中，阿里巴巴的AI模型在新聞文字上超越了人類識別精確度。現在“讀圖會意”上，阿里巴巴達摩院在VQA上也超越了人類，這是榜單設立6年來的首次。

8月12日，國際權威機器視覺問答榜單VQA Leaderboard出現關鍵突破：

阿里巴巴達摩院以81.26%的準確率創造了新紀錄，讓AI在“讀圖會意”上首次超越人類基準。

繼2015年、2018年AI分別在視覺識別及文字理解領域超越人類分數後，人工智慧在多模態技術領域也迎來一大進展。

達摩院AliceMind在VQA Leaderboard上創造首次超越人類的紀錄

“詩是無形畫，畫是有形詩。”宋代詩人張舜民曾描繪語言與視覺的相通之處。“讀圖會意”，即透過視覺理解資訊，是人類的一項基礎能力，但對AI來說卻是要求極高的認知任務。

解決該挑戰，對研發通用人工智慧有重要意義。近10年來，AI在下棋、視覺、文字理解等單模態技能上突飛猛進，但在涉及視覺-文字跨模態理解的高階認知任務上，AI過去始終未達到人類水平。

為攻克這一難題而設立的挑戰賽VQA Challenge，自2015年起先後於全球計算機視覺頂會ICCV及CVPR舉辦，吸引了包括微軟、Facebook、斯坦福大學、阿里巴巴、百度等眾多頂尖機構踴躍參與，並形成了國際上規模最大、認可度最高的VQA（Visual Question Answering）資料集，其包含超20萬張真實照片、110萬道考題。

VQA是AI領域難度最高的挑戰之一。在測試中，AI需根據給定圖片及自然語言問題生成正確的自然語言回答。

這意味著單個AI模型需融合複雜的計算機視覺及自然語言技術：

首先對所有影象資訊進行掃描，再結合對文字問題的理解，利用多模態技術學習圖文的關聯性、精準定位相關影象資訊，最後根據常識及推理回答問題。

VQA技術自2015年的進展

今年6月，阿里達摩院在VQA 2021 Challenge的55支提交隊伍中奪冠，成績領先第二名約1個百分點、去年冠軍3。4個百分點。兩個月後，達摩院再次以81。26%的準確率創造VQA Leaderboard全球紀錄，首次超越人類基準線80。83%。

VQA的核心難點在於對多模態資訊進行聯合推理認知，即在統一模型裡做不同模態的語義對映和對齊。

據瞭解，

達摩院NLP及視覺團隊對AI視覺-文字推理體系進行了系統性的設計，融合了大量演算法創新，包括多樣性的視覺特徵表示、多模態預訓練模型、自適應的跨模態語義融合和對齊技術、知識驅動的多技能AI整合等，讓AI“讀圖會意”水平上了一個新臺階。

VQA技術擁有廣闊的應用場景，可用於圖文閱讀、跨模態搜尋、盲人視覺問答、醫療問診、智慧駕駛等領域，或將變革人機互動方式。

報道顯示，這不是阿里達摩院第一次在AI關鍵領域超越人類基準。2018年，達摩院曾在斯坦福SQuAD挑戰賽中歷史性地讓機器閱讀理解首次超越人類，引發海外媒體關注。

今年以來，達摩院在AI底層技術領域動作頻頻，先後釋出了中國科技公司中首個超大規模多模態預訓練模型M6及首個超大規模中文語言模型PLUG，並開源了歷經3年打造的深度語言模型體系AliceMind（https：//github。com/alibaba/AliceMind），其曾登頂 GLUE等六大國際權威NLP榜單。

VQA考題列舉，根據有禮服裝飾的小熊玩具照片及問題“這些玩具用來做什麼的？”達摩院AliceMind成功推理出一個可能的答案“婚禮”

歷經6年 AI終於在“讀圖會意”上超越人類

猜你喜歡

推薦文章