美林資料技術專家團隊 | 工業大資料分析，怎麼做？

認識工業大資料

什麼是工業大資料？

我們先看看維基百科的說法：“

工業大資料（Industrialbig data）是構成工業人工智慧的重要元素，指由工業裝置高速產生的大量資料，對應不同時間下的裝置狀態，是物聯網中的訊息。

此一詞語在2012年隨著工業4。0的概念而出現，也和資訊科技行銷流行的大資料有關，工業大資料也意味著工業裝置產生的大量資料有其潛在的商業價值。工業大資料會配合工業網際網路的技術，利用原始資料來支援管理上的決策。”

百度百科是這樣說的：“

工業大資料是指在工業領域中，圍繞典型智慧製造模式，從客戶需求到銷售、訂單、計劃、研發、設計、工藝、製造、採購、供應、庫存、發貨和交付、售後服務、運維、報廢或回收再製造等整個產品全生命週期各個環節所產生的各類資料及相關技術和應用的總稱。

其以產品資料為核心，極大延展了傳統工業資料範圍，同時還包括工業大資料相關技術和應用。其主要來源可分為以下三類：第一類是生產經營相關業務資料。第二類是裝置物聯資料。第三類是外部資料。”

不同的說法體現了對工業大資料不同的認知角度。但毋庸置疑的是，工業大資料為創新制造業企業的研發、生產、運營、維保、營銷等提供了全方位支撐！

工業大資料如此重要，我們當然要立刻開展基於工業大資料的分析、挖掘工作，以便從中獲取重要的價值。且慢，工業資料具有不同於關係型業務資料的特殊性，使其難以直接使用現有資料分析工具。

工業大資料的特點

經典資料分析方法通常面向關係表資料結構（DataFrame）。無論是業務資訊化系統中具有複雜資料關聯的表結構，還是面向分析專用的冗餘資料寬表都會用到這一資料結構。它們同樣具有下面這些特徵：

1、資料按行與列的方式放置，每條資料為一行，一行資料分為若干列，所有資料具有相同的列數，這些列表示了記錄的不同屬性。

2、各行資料在同一列具有相同的資料型別，各列之間可以不同。

3、各列資料型別通常為基本型別，即數值型、文字型、布林型等。

4、各行資料之間具有獨立性，沒有依賴關係。

關係表資料結構既是關係型資料庫所使用的基本邏輯模型，也是包括Excel、SPSS、R、Python—pandas、Spark等諸多資料分析處理軟體與框架所使用的資料模型，有大量資料分析方法針對這一資料結構。而工業製造領域常見的資料型別是訊號資料，這種資料並不很適合使用關係表資料結構去進行表達。

訊號資料是工業大資料的重要構成部分，其一般直接或間接來源工業裝置本身，是反應工業裝置現狀的重要參考。在裝置故障診斷和健康預測（即PHM）應用中具有重要的價值。

和關係表資料相比，它存在以下特點：

1、每條訊號資料內所有資料值均為同一型別數字，通常為浮點數值。

2、訊號資料中數值的次序非常重要，其中包含關鍵資訊。

3、一條訊號資料內可以包含數百萬乃至更多標量值，通常難以用關係型資料庫逐一儲存。

4、針對工業訊號資料存在著大量經典演算法，以數字訊號處理演算法為主，這些演算法與經典資料分析演算法有很大差異。

5、大量機器學習、深度學習方法難以直接應用於原生訊號資料形式。

可見，由於上述原因，面向關係表資料的處理、分析工具難以直接應用工業訊號資料型別。換言之，當前工業訊號分析領域的困境是：

缺少面向工業訊號資料的“資料分析+機器學習” 應用平臺。

面向工業大資料的分析工具

為解決工業大資料分析困境，Tempo大資料分析平臺開發提供了面向工業訊號資料的專用分析工具包，該工具包是TempoAI為工業賦能的專用擴充套件功能之一。

透過該工具包，我們能快速便捷的使用拖曳方式，完成對訊號的各種經典變換處理。更重要的是，本工具打通了主流及前沿的資料分析方法和機器學習技術應和工業訊號類資料之間的壁壘。

現在工業工程師、質量工程師和PHM系統運維的小夥伴們可以將大量優秀的資料分析方法直接應用於工業現場資料探勘。

TempoAI 的訊號處理工具包功能強大，下面我們看一下它具體都能做些什麼吧。

1、支援多種訊號資料儲存形式的輸入與輸出

2、支援多種數字訊號資料預處理操作

支援將訊號資料按照不同的分割方法進行切分，支援按照分幀、分貝、時段、功率、平穩性、自適應分割方法。

3、支援多種數字訊號處理方法拖曳式使用

4、支援多種面向訊號資料的特徵工程方法

透過特徵工程方法，可以將訊號資料轉化為一系列特徵量描述，從而便於使用者經典資料分析方法對其進行分析、建模等研究。

5、支援

訊號資料型別與關係表資料型別的相互轉換

6、支援訊號資料處理與特徵提取功能自定義

訊號處理擴充套件節點支援使用者透過選擇自定義的訊號處理演算法將訊號資料進行處理，使訊號資料處理更靈活更便捷。（自定義功能擴充套件需要管理授權）

工業訊號處理工具包在TempoAI裡的位置是這樣的：

如下圖所示，平臺新增了訊號分析模組，將極大提高平臺對工業資料的相容能力，尤其是工業訊號資料，也為後續工業訊號分析專案的大資料解決方案提供可能。

擴充套件後的技術路線主要包含三個層次：

1、最上層表示機器學習流程

其餘CRISP-DM流程（跨行業資料探勘標準流程）基本保持一致。

2、最下層就是經典數字訊號處理流程

平臺內建了訊號處理、訊號變換、訊號特徵提取、譜分析以及訊號濾波五大核心模組，此外平臺集成了訊號讀入和訊號輸出兩個基本節點，這樣就可以實現經典訊號分析流程端到端解決方法的暢通。

3、訊號分析和機器學習融合

在平臺上體現為S埠（訊號資料）和D埠（關係型資料）的連線。目前融合的核心元件是訊號特徵提取和S轉D。前者透過訊號特徵提取，完成機器學習或深度學習建模中特徵工程的任務。後者完成訊號資料機理分析結果的關係型轉存。

“訊號分析+機器學習”其核心思路是基於訊號分析運算元完成訊號資料的特徵工程的功能。在實際使用訊號分析工具包進行資料分析時，訊號處理演算法節點與資料分析節點的結合一般是下面這個樣子的。（紅框中是訊號處理節點部分）

一個示例

現在我們用一個工業資料分析的例子來實際看一下訊號處理工具包的使用。某風力發電機結構由三相感應發電機、冷卻箱和單級行星齒輪箱組成。齒輪的前後支撐都是深溝球型別的軸承，容易發生故障。現有以下需求：基於發電機組中發電機前軸承的振動訊號實現軸承故障特徵自適應提取和複合特徵提取。

1、軸承故障特徵自適應提取

分析說明：

振動訊號的時域訊號存在在強弱不等的衝擊波形，但由於大量背景噪聲的干擾，使得這些衝擊的規律性和特徵性不明顯。但其頻域訊號中，高頻成分較為豐富。

實現路線：

小波變換+訊號特徵提取

過程簡介：

樣例資料和資料轉訊號節點完成關係型資料向訊號資料的轉變，然後基於離散小波變換，透過指定小波基函式和分解層數，對原訊號資料實現多尺度的細分，最後基於這些細分訊號資料，提取對應的訊號特徵。

2、複合特徵提取

分析說明：

此時的振動訊號頻譜圖很難看到明顯的故障資訊。

實現路線：

經驗模態分解+訊號特徵提取（或小波變換+訊號特徵提取）

過程簡介：

雖然與上述子問題的實現路線一致，但是側重點不同。這裡訊號特徵提取只是輔助驗證，重點在於經驗模態分解（或小波變換）的分解和重構。以經驗模態分解為例：

當前訊號被分成了6個模態函式和1個殘差餘量。從波形圖上我們發現IMF1和MIF2的振動頻率比較相近，IMF3~IMF6比較相近。

所以據此，我們可以將相近的模態函式進行簡單相加（這裡透過希爾伯特黃變換實現）形成新的訊號，這些新訊號的特徵就是我們想要的符合特徵。當分解層數較多時，各IMF分量比較接近時，我們可以選用訊號特徵提取中的特徵幫助實現對其的分組（如以分貝、加速度級等）。

這樣，我們就獲得了這一類風機的典型執行工況特徵。將這些特徵提取出來後，就可以使用統計分析去發現風機執行的規律，或者將大量風機執行資料積累形成訓練資料，構建人工智慧模型，以發現風機的執行異常等。

總而言之，TempoAI的訊號處理工具包解決了工業大資料分析中遇到的資料分析方法難以直接應用的問題，使得深入挖掘工業大資料，發現工業大資料價值變得便捷易行。感興趣的朋友們，請趕快嘗試吧！

掃碼試用產品

開啟工業大資料探勘之旅！

- END -

美林資料技術專家團隊 | 工業大資料分析，怎麼做？

猜你喜歡

推薦文章