選單

肇觀電子重新整理端側AI晶片效能記錄併發布“5分鐘部署”AI開發平臺

基於多年研發的CVKit™ NN IP的N1系列SoC晶片重新整理了端側AI晶片效能記錄。領先的每TOPs處理幀數,實時資料流處理能力,支援高精度FP16神經網路模型直接無損部署,高效能的INT8網路支援能力,多級精細功耗控制,將端側AI晶片的能力提升到了一個新的高度。

01。

單位算力下,誰能夠支撐更快更準的神經網路推理,是衡量AI晶片效能的關鍵

對於AI應用和系統廠商而言,AI晶片是其核心元器件,是人工智慧的基礎設施,其重要性不言而喻。 每個應用和系統廠商都在尋找在效能、功耗、成本等方面綜合因素下合用的AI晶片。 評估AI晶片是否適合使用往往從每元錢能獲得的效能、每度電能獲得的效能、部署實施的成本、元器件是否穩定可靠等幾個方面來衡量。其中,

晶片廠商宣稱的每TOPs(Tera operations per second)的算力對應的實際每秒計算多少幀資料(例如圖片或者影片),以及演算法從訓練到部署的轉換中對精度的保持成為關鍵。

每秒計算多少幀資料的能力,決定了應用和系統廠商能以什麼樣的價效比來部署AI演算法;演算法從訓練到部署的資料型別轉換帶來精度損失,決定了應用和系統廠商演算法部署前的資料投入(比如如何增加資料來儘量覆蓋資料型別轉換所帶來的損失從而保持精度)、和部署後的實際效果。

肇觀電子作為2016年成立的AI晶片領域第一梯隊企業,其團隊在晶片、數學、演算法等方面深耕多年,一直潛心研發核心技術,已獲60餘件國內外專利授權。

02。

AI 晶片效能,"又快又準"是主要指標

AI應用和系統的客戶對於AI晶片實際的深度神經網路處理能力有著明確需求。對於系統性能而言,“又快又準”是其主要指標。“快”主要取決於晶片的每秒計算能力。晶片是個複雜系統,由於各種因素,晶片的理論計算能力和實際能達到的計算能力之間往往存在差距。 如何能夠在單位成本和單位功耗下最優地支援神經網路模型的各種神經層的不同資料型別並使得客戶的模型部署的精度損失最小,體現出不同公司之間的技術水平的差異。綜合來看,客戶可感知、利用、發揮的晶片效能是整個系統的效能的關鍵因素。

根據不同演算法網路的測試結果,N161晶片每TOPS算力下每秒可推理圖片的數量展示出了業界領先的水平。同時,N161還支援FP16高精度網路,同樣展示出強悍的效能。

肇觀電子重新整理端側AI晶片效能記錄併發布“5分鐘部署”AI開發平臺

在INT8精度下,N161跑各項網路可以達到的每秒幀數

肇觀電子重新整理端側AI晶片效能記錄併發布“5分鐘部署”AI開發平臺

在FP16的精度下,N161跑各項網路可以達到的每秒幀數

肇觀電子重新整理端側AI晶片效能記錄併發布“5分鐘部署”AI開發平臺

針對五種演算法網路,N161晶片與某業界旗艦晶片的執行結果對比

“準”主要取決於晶片對於演算法中的神經網路模型的各種神經層的不同資料型別的支援,支援能力方面的差異帶來模型部署的精度損失方面的差異。客戶的演算法從模型的訓練到模型的部署的資料型別轉換所導致的精度損失往往十分昂貴。比如在無人零售裝置的應用中,如果物體識別演算法在實際執行中有1%的精度下降,會直接導致貨損率的上升以及運營成本的增加。

根據各種不同網路的測試結果,N161 INT8量化網路幾乎無精度損失(1%以內)。

肇觀電子重新整理端側AI晶片效能記錄併發布“5分鐘部署”AI開發平臺

採用1000張imagenet資料測試

基於對應用的深刻理解和長時間的技術積累,肇觀電子創新的CVKIT™ NN IP在諸多方面遙遙領先,並已部署至N1系列晶片,以及D163(3D視覺)、V163(車載)晶片。

03。

Infer Studio™解決"演算法落地難"問題

人工智慧落地的挑戰,一方面在於整個產業鏈亟待在效能、成本、功耗等方面合用的上游核心晶片來破局;另一方面在於演算法部署實施至具體應用所需知識技能過於專業而導致的綜合成本高昂。人工智慧等相關領域的人才,由於稀缺,其薪酬水平較高已是業界共識;既懂AI演算法又懂硬體部署的人才更為缺乏,這導致很多應用和系統廠商的開發能力較為欠缺,落地較慢。不僅是各個中小企業面對這一挑戰,大廠也往往面對高薪招不到合用的人才的問題。人工智慧落地成本高昂,是業界公認的一個突出問題。

為了解決“演算法落地難”的問題,肇觀電子釋出了“5分鐘部署”的AI應用開發平臺Infer Studio™,助力演算法快速商用。

Infer Studio™能夠將演算法"翻譯"成晶片能讀懂的表述檔案,並快速部署,這種"一鍵式"開發體驗顯著地提高了開發者的效率。

Infer Studio™支援TensorFlow / TensorFlow Lite / ONNX / Caffe這些主流框架,開發者可以自由選擇訓練框架。從功能上來說,

在軟體層

Infer Studio™ 具有 Model Visualization 視覺化模型、Compiler 編譯器、Evaluator 效果評估器、Debugger 偵錯程式四種功能。

肇觀電子重新整理端側AI晶片效能記錄併發布“5分鐘部署”AI開發平臺

肇觀電子重新整理端側AI晶片效能記錄併發布“5分鐘部署”AI開發平臺

Infer Studio™ 操作平臺

不同於演算法表現出來的精彩效果,演算法網路在PC端呈現出來的是一連串晦澀難懂的二進位制資料和無數層的文字描述。然而

Model Visualization視覺化模型

卻可以將這些描述轉換成網路圖,便於開發者直觀地分析網路的結構和屬性。

Compiler編譯器

可支援將客戶基於主流AI框架開發出來的演算法,包括Caffe,Tensorflow,Tensoflow Lite,ONNX等,轉換成晶片可以理解的表述檔案。同時Compiler還能完成Weight Compression的功能,進一步精簡演算法模型大小,使其真正部署到儲存空間有限的端裝置,提升了網路推理效能。同時,編譯器也支援運算元融合,預編譯等最佳化選項,進一步將推理效能提升至硬體的極限

一套在PC端執行強大的演算法如何確保在晶片上也能快速呈現效果?

Evaluator 評估器

可以幫助客戶快速評估結果是否正確,效能是否能被髮揮出來。透過Infer Studio™的Evaluator功能,客戶可以一鍵式將模型部署在裝置上,全面透徹的看到執行結果,同時對分類,檢測分割等網路在測試圖片中視覺化呈現演算法效果。

為了高效分析演算法移植過程中可能遇到的偏差和相容性問題,Infer Studio™ 的

Debugger偵錯程式

能夠按層除錯,隨時發現錯誤。客戶可以匯出演算法執行中的每一層資料,跟原本演算法中的每一層資料做對比,便於隨時除錯,找出錯誤。

04。

Infer Studio™ 的行業落地應用

客戶的方案在演算法移植驗證以後,

是否也能在產品層面快速部署,正常執行?

與Infer Studio™ 配套的SDK可以透過積木搭建的方式快速構建多媒體pipeline,並將演算法模型靈活嵌入到pipeline中。

例如,一個經典的AI應用是:VI (Video Input) 從攝像頭外部接入原始資料,這些資料經過ISP模組轉換成YUV格式,一路傳輸到Encoder進行編碼,並輸出。另一路ISP輸出的資料傳輸到CNN引擎執行各種AI演算法。AI應用中各個功能模組之間有著靈活的資料流向構建方式;透過模組間Bind(一種資料建立的方法)的方式,客戶可以更靈活的根據自己的應用需求,組合功能模組,完成應用部署落地。

客戶也可以自由刪除某些模組,替換或者增加某些演算法模組。所有這些pipeline搭建工作都可以透過視覺化或者幾行配置程式碼來實現。將AI演算法開發到產品落地的時間壓縮到極限。對於典型的AI應用,物體分類,人臉/車輛檢測,物體分割等應用,從演算法編譯到應用部署,5分鐘內即可完成。

目前,Infer Studio™ 在諸多客戶的專案中作為日常使用的重要工具,得到了普遍認可和好評。

例如:在一個監測司機是否在說話、瞌睡、打電話的車載專案中,工程師需要檢測眼部的狀態來判斷司機是否在走神或者瞌睡,檢測耳朵旁邊是否有電話,等等。客戶原本需要一個星期甚至更久才能讓這套演算法在晶片上跑起來,但是結合了Infer Studio™之後, 對多個神經網路進行硬體加速,對神經網路的前後處理再結合計算機視覺加速單元 CV Accelerator裡的內建運算元來完成,使得該演算法迅速完成編譯並在平臺上高效能跑起來。

肇觀電子的Infer Studio™是目前市面上罕見的的人工智慧演算法的硬體移植和部署開發平臺,在提高人工智慧演算法的落地效率、降低部署實施成本方面實效顯著,受到下游廠商的廣泛好評。

05。

結語

人工智慧技術所賦予時代的意義,往往短期被高估,長期被低估。作為AI晶片設計領域的核心公司之一的肇觀電子,不僅在晶片核心技術上不斷突破,還為客戶提供 “一鍵式” 配套開發工具。 這不僅促進了客戶的解決方案在應用場景中的部署,也推動了整個人工智慧行業的發展。