選單

資料中臺—元資料主資料治理問題

一、資料治理

系統的資料資料治理工作,應能夠對資料進行儲存、插補、清洗、計算,並統一標準和口徑,形成標準資料,建立基礎模型、融合模型和挖掘模型,實現資料異常規則設定、異常監控告警、資料日誌記錄等,並且進行資料質量評價,形成資料質量報告,實現跨領域資料融合。

資料中臺—元資料/主資料治理問題

現場資料到資料中臺後,資料中臺應能夠同時儲存原始資料及標準化資料,一是確保集控中心等實時監控系統與現場保持一致,二是給其他應用分析系統提供標準化資料;對於其他應用系統資料,資料中臺應能夠利用資料匯聚工具,抽取必要資料,一是可以對重要資料進行異地備份,二是可以進行資料的綜合分析。

資料治理至少應能夠達到以下具體效果:

(1)資料缺陷隨時掌握,及時發現;

(2)缺陷資料能夠得到及時修正;

(3)資料流過程具有詳細的日誌記錄,歷史資料可追溯;

(4)資料修正過程進行標記,實現修正過程可追溯恢復;

(5)資料實現多版本管理,解決統計口徑問題;

(6)方便分析資料缺陷原因,定時提供資料缺陷報告,提出解決方案;

(7)資料治理完成後資料採集、場站端和平臺可用率達到99%以上。

二、資料治理技術框架

資料中臺—元資料/主資料治理問題

以使用者為中心的大資料治理技術架構應該包括五部分:資料資產管理、資料監控管理、資料準備平臺、資料服務匯流排,訊息與流資料管理。

2。1 元資料治理

元資料是儲存關於資料倉庫系統技術細節的資料,是用於開發和管理資料倉庫使用的資料,它應主要包括但不限於以下資訊:資料倉庫結構的描述(包括倉庫模式、檢視、維、層次結構和匯出資料的定義),資料集市的位置和內容,業務系統、資料倉庫和資料集市的體系結構和模式。

元資料治理的建設將貫穿大資料平臺建設、使用、運營、維護的全過程,並應能夠發揮以下作用:

(1)應能夠提供企業級資料字典,便於內外部客戶更好地瞭解企業資料概況;

(2)應能夠提供全域性元資料查詢檢索,便於使用者快速定位元資料;

(3)應能夠提供元資料詳細描述,使使用者瞭解資料組成、結構及資料流向;

(4)應能夠提供血緣/影響分析功能,便於使用者進行分析判斷、問題定位;

(5)應能夠提供元資料介面服務,便於其它系統或模組使用元資料服務;

(6)應能夠提供元資料應用,方便終端使用者使用元資料;

(7)應能夠提供統一的基於元資料描述的API管理產品,集中管理平臺開放的內外部API。

元資料應分為業務元資料、技術元資料、操作元資料、管理元資料等。

2。2 主資料治理

主資料採集至資料中臺後,可能存在資料缺失、資料超限、資料格式錯誤等現象,錯誤的資料會對資料聚合及指標計算結果造成極大影響,導致較大偏差。因此,資料中臺應能夠對接入資料進行校驗、清洗與插補,保證儲存資料的完整性與有效性,實現對資訊化執行系統的高質量資料服務。

資料清洗:應包括但不限於以下內容:

(1)資料時標清洗:在資料傳輸過程中會出現未來時標,需要清洗此種資料;

(2)資料缺失清洗:在資料傳輸過程中會出現由於網路原因導致的資料短時間缺失;

(3)資料跳變清洗:在資料傳輸過程中會出現資料跳變情況,此種情況比較常見;

(4)資料死值清洗:在資料傳輸過程中會出現部分測點壞點或者停止重新整理的情況。

資料插補:能夠對資料進行修正,解決資料丟失和資料跳變的問題,應包括但不限於以下步驟:

(1)對資料跳變的條件進行配置,每個測點應根據其業務特點設定特定的判斷規則。

(2)啟動資料修正服務對跳變資料進行修正,依據的條件是上一條設定的規則。

(3)對跳變資料修正的同時,根據資料的連續性,對丟失的資料進行插補,插補的方式有差值插補、理論值插補等等。資料統計時,如果有修正資料,則應優先使用修正資料,否則應使用原始資料進行彙總

資料中臺—元資料/主資料治理問題