微軟技術總監公明博士：跨語言理解技術是產品國際化的基石

編者按：

AICon 全球人工智慧與機器學習大會（北京站）即將在 11 月 25 日和 26 日落地北京，我們邀請了微軟技術總監公明博士來為大家分享《必應搜尋問答系統及全球化過程中的挑戰與方法》，為了讓你對議題有所瞭解，公明老師以文稿的形式為你提前揭露一些內容，希望讓你對議題內容有所瞭解，也歡迎你來會議現場聽聽各位專家的分享。

隨著經濟全球化和“網際網路 +”的不斷深化，海內外各大公司的國際化業務正在如火如荼地開展，產品國際化也成為必然趨勢。作為產品國際化的基石，如何實現產品的跨語言擴充套件、將跨語言理解的核心人工智慧技術在產品中落地應用尤為關鍵。

自 2018 年來基於預訓練的 BERT 模型橫空出世，自然語言處理突飛猛進，其中跨語言的預訓練模型近幾年更是成為學術界研究的熱點，不僅僅是傳統的機器翻譯模型，還包括支援上百種語言的自然語言處理任務的模型。

此外，基於跨語言模型的跨語言理解技術在工業界的國際化產品中也進入了成熟落地時期，比如微軟的所有產品都需要支援 200 多個地區的 100 多種語言。

產品國際化中語言擴充套件的挑戰

微軟的搜尋問答系統的研發可以追溯到 2015 年，最初主要專注在英文問答產品，為使用者提供更智慧的搜尋體驗。具體而言，希望為使用者在搜尋結果頁的最上方提供直接、準確的答案，從而幫助使用者節省資訊檢索的時間。該智慧問答 feature 在上線後獲得了使用者的廣泛好評，成為必應最具有影響力的智慧搜尋體驗功能之一。

必應搜尋作為全球化的資訊搜尋引擎，智慧問答系統的全球化至關重要，如何有效且高效地實現系統中核心深度模型的跨語言擴充套件（language scaling）是其中最關鍵的問題。

具體而言，主要有以下三個挑戰：

（1）問答系統 / 模型的可維護性、快速更新。問答系統中有實現若干子任務的深度學習模型（假設為 N），如果我們為每種語言（假設共有 M 種語言）分別構建獨立的問答系統，那麼我們需要的模型數量就是 M*N。在實際產品中，N 一般大於 5，M 大於 100，這意味著我們需要訓練至少 500+ 的深度模型，未來模型的維護和更新將成為一個很大的挑戰。因此，從產品的可擴充套件、可維護性以及資源有效性的角度，我們希望可以構建多語言統一的問答模型（universal QnA model）。

（2）缺少非英語訓練資料，特別是低資源語言的訓練資料。這是包括問答系統在內，幾乎所有自然語言處理任務進行語言擴充套件過程中遇到的核心挑戰之一。如何利用高資源語言的訓練資料向低資源語言進行有效的遷移，如何對低資源語言進行高質量的資料增強等，都是可以潛在可探索的方向。

（3）如何實現模型線上高效的 inference。在實際產品中考慮資源利用的有效性，我們往往需要平衡模型效果與 inference 效率。如何在有限資源的情況下，透過模型壓縮排行有效、高效的 inference 是模型最終可以上線的關鍵。對於多語言模型，如何研發更先進的壓縮方法讓模型同時保持在低資源和高資源語言的準確率對產品落地提出了更高的挑戰。

跨語言理解技術在搜尋問答系統中的應用

近年來，預訓練 + 微調已經成為自然語言處理的新正規化，大規模預訓練模型在大量的 NLP 任務上都取得了 SOTA 的結果。預訓練模型除了能夠緩解跨任務中出現的低資源問題，還能夠緩解跨語言中出現的低資源問題。

隨著大規模多語言預訓練模型的開發（比如 mBERT、Unicoder、XLM-Roberta 和圖靈通用語言表示模型 InfoXLM），跨語言預訓練能夠利用高資源語言（比如英語）的任務相關標註資料，遷移到其他沒有或者只有少量標註資料的語言，從而實現零樣本或少樣本的跨語言傳輸能力，這為我們訓練多語言統一的問答模型（Universal QnA Model），解決系統 / 模型的可維護性、非英語訓練資料缺乏等挑戰提供了基礎、有效的方法。

但是，當模型遷移到 100 種語言時，在低資源語言上的效能可能與資源豐富的語言（如英語）仍有很大差距，而全球化的產品對於各個語言、市場上線都有嚴格的準確度要求，這就需要進一步縮小低資源語言和高資源語言效果的差距。

為了進一步提升 Universal QnA model 在低資源語言的效能，我們開發了一系列跨語言技術，例如針對任務 / 領域的模型自適應，利用外部知識，基於使用者反饋、機器翻譯資料、目標語言非標註資料和生成資料的模型增強訓練等。

同時，為了實現模型線上高效的 Inference，我們研發了更先進的知識蒸餾技術進行模型的壓縮，如“多老師 - 學生”知識蒸餾、基於強化學習的知識蒸餾等。

在這些 SOTA 跨語言理解技術的支援下，微軟必應的問答系統成功上線到全球 100 多個語言和 200 多個區域國家。