選單

歷經6年 AI終於在“讀圖會意”上超越人類

前不久,在中文語言理解權威評測基準CLUE中,阿里巴巴的AI模型在新聞文字上超越了人類識別精確度。現在“讀圖會意”上,阿里巴巴達摩院在VQA上也超越了人類,這是榜單設立6年來的首次。

8月12日,國際權威機器視覺問答榜單VQA Leaderboard出現關鍵突破:

阿里巴巴達摩院以81.26%的準確率創造了新紀錄,讓AI在“讀圖會意”上首次超越人類基準。

繼2015年、2018年AI分別在視覺識別及文字理解領域超越人類分數後,人工智慧在多模態技術領域也迎來一大進展。

歷經6年 AI終於在“讀圖會意”上超越人類

達摩院AliceMind在VQA Leaderboard上創造首次超越人類的紀錄

“詩是無形畫,畫是有形詩。”宋代詩人張舜民曾描繪語言與視覺的相通之處。“讀圖會意”,即透過視覺理解資訊,是人類的一項基礎能力,但對AI來說卻是要求極高的認知任務。

解決該挑戰,對研發通用人工智慧有重要意義。近10年來,AI在下棋、視覺、文字理解等單模態技能上突飛猛進,但在涉及視覺-文字跨模態理解的高階認知任務上,AI過去始終未達到人類水平。

為攻克這一難題而設立的挑戰賽VQA Challenge,自2015年起先後於全球計算機視覺頂會ICCV及CVPR舉辦,吸引了包括微軟、Facebook、斯坦福大學、阿里巴巴、百度等眾多頂尖機構踴躍參與,並形成了國際上規模最大、認可度最高的VQA(Visual Question Answering)資料集,其包含超20萬張真實照片、110萬道考題。

VQA是AI領域難度最高的挑戰之一。在測試中,AI需根據給定圖片及自然語言問題生成正確的自然語言回答。

這意味著單個AI模型需融合複雜的計算機視覺及自然語言技術:

首先對所有影象資訊進行掃描,再結合對文字問題的理解,利用多模態技術學習圖文的關聯性、精準定位相關影象資訊,最後根據常識及推理回答問題。

歷經6年 AI終於在“讀圖會意”上超越人類

VQA技術自2015年的進展

今年6月,阿里達摩院在VQA 2021 Challenge的55支提交隊伍中奪冠,成績領先第二名約1個百分點、去年冠軍3。4個百分點。兩個月後,達摩院再次以81。26%的準確率創造VQA Leaderboard全球紀錄,首次超越人類基準線80。83%。

VQA的核心難點在於對多模態資訊進行聯合推理認知,即在統一模型裡做不同模態的語義對映和對齊。

據瞭解,

達摩院NLP及視覺團隊對AI視覺-文字推理體系進行了系統性的設計,融合了大量演算法創新,包括多樣性的視覺特徵表示、多模態預訓練模型、自適應的跨模態語義融合和對齊技術、知識驅動的多技能AI整合等,讓AI“讀圖會意”水平上了一個新臺階。

VQA技術擁有廣闊的應用場景,可用於圖文閱讀、跨模態搜尋、盲人視覺問答、醫療問診、智慧駕駛等領域,或將變革人機互動方式。

報道顯示,這不是阿里達摩院第一次在AI關鍵領域超越人類基準。2018年,達摩院曾在斯坦福SQuAD挑戰賽中歷史性地讓機器閱讀理解首次超越人類,引發海外媒體關注。

今年以來,達摩院在AI底層技術領域動作頻頻,先後釋出了中國科技公司中首個超大規模多模態預訓練模型M6及首個超大規模中文語言模型PLUG,並開源了歷經3年打造的深度語言模型體系AliceMind(https://github。com/alibaba/AliceMind),其曾登頂 GLUE等六大國際權威NLP榜單。

歷經6年 AI終於在“讀圖會意”上超越人類

VQA考題列舉,根據有禮服裝飾的小熊玩具照片及問題“這些玩具用來做什麼的?”達摩院AliceMind成功推理出一個可能的答案“婚禮”

歷經6年 AI終於在“讀圖會意”上超越人類