在线炒股配资门户网-杠杆交易软件搜加杠网-【东方资本】,股票杠杆app,今日热股什么意思,预计下周一股市行情展望

提交需求
*
*

*
*
*
立即提交
點擊”立即提交”,表明我理解并同意 《美創科技隱私條款》

logo

    產品與服務
    解決方案
    技術支持
    合作發展
    關于美創

    申請試用
      正式發布|美創科技數據質控解決方案
      發布時間:2021-07-19 閱讀次數: 1024 次

      大數據項目往往涉及多系統間的對接與配合,不同來源數據的質量將直接影響到系統的統計分析結論是否正確。但由于缺乏全面的數據管理機制、各系統的數據產生方式及生產年代不同、缺乏統一的數據標準等原因,往往無法主動輸出高質量的數據,這為數據治理工作帶來了許多難題。



      對此,美創科技從建立數據質量管理體系、優化工作流、產品部署落地以及建立數據質量閉環管理機制等方面入手,形成了一套靈活、可靠的數據質控解決方案。




      本文將從數據質量問題的來源入手,詳細介紹美創數據質控解決方案


      數據質量問題的來源


      為了解中國企業數字化轉型現狀、趨勢和挑戰,德勤曾做了一次145家企業(其中國企占77%)參與的在線問卷調查。調查結果顯示:有六成企業認為,在數字化轉型過程當中,主要面臨的挑戰集中在,原有多個信息化系統的整合、數據質量和可用性、缺乏統一的數字化轉型愿景和目標這三個方面。


      顯然,數據質量對于多數政企機構來說是個棘手問題,因為質量差的數據可能包含錯誤的、誤導性的、不真實的或不完整的信息,利用這些數據做分析可能會導致經營決策的失敗、產品功能的失效、工藝技術的錯誤、營銷方式的差異等后果,直接影響數字化轉型進程。


      找準根源才能解決問題,那么數據質量問題的來源是什么呢?


      首先,數據質量問題的來源可能產生于數據源頭到數據存儲介質的各個環節。


      在信息化建設初期,各類業務系統恣意生長,一些大型機構甚至有上百套的業務系統。這些業務系統在不同時期由不同的團隊開發,技術水平參差不齊,缺乏統一的數據標準,數據特征各不相同。而當機構有了新的業務需求、重大的技術變更、或者需要在不同業務間交叉使用數據時,數據的加工和存儲過程可能會對原始數據做修改,從而可能引發數據的質量問題。


      其次,隨著業務發展,數據也在增量積累。數據類型、數據來源的不斷豐富以及數據量的快速增長,使機構在數據管理和數據流程中面臨越來越多的數據質量問題。


      比如為了更好的利用數據進行分析和決策,需要按照統一的標準和架構把不同系統中的各類數據集成起來,但不同系統中,業務領域的關鍵指標不一致,數據無法共享導致數據孤島,大量數據無法關聯,產生明顯的數據冗余等問題。


      或者有許多業務系統存在濫用縮寫詞、慣用語、數據輸入錯誤、重復記錄、丟失值、拼寫變化、使用不同的計量單位等情況,產生了大量的“臟數據”,這些“臟數據”對實際業務毫無意義,長期輸入導致了系統的統計分析不準確,難以支撐管理者做出正確的決策。


      再次,由于許多機構缺乏數據質量的意識,沒有明確的數據質量目標,缺乏全面、快速的管理機制及人員認責機制等原因,也會引發大量的數據質量問題。特別是在系統建設或數據產生的源頭忽視數據質量問題,將導致基礎數據薄弱,后期數據清洗成本大、治理效果差。


      總的來說,技術、流程、管理等多方面的因素都有可能會影響到數據質量,常見原因可以歸納為以下3類:




      面對上述問題和痛點,通過靈活、可靠的數據質量管理可以為機構提供潔凈、結構清晰的數據,是開發業務系統、提供數據服務、發揮數據價值的必要前提,也是數據資產管理的前提。


      數據質量管理涉及數據標準的制定、規范的落地、生命周期的管理等多個環節,傳統的方法需要投入大量的人員、時間、軟硬件成本,成本相對較高。從收益上來說,數據質量管理項目不像數據分析等項目,短期內的效益和結果并不是十分明顯,這也導致了以往的數據質量管理常常被邊緣化。


      如今,越來越多的政府與企業在利用數字技術提高內部管理效率、降低成本、增加洞察力和競爭力,而數字化轉型的關鍵之一是內外部數據的融合創新,當多個信息化系統的整合、數據的集成融合需求愈加迫切,需要管理的數據量越來越龐大時,數據質量管理就變得十分迫切且重要。


      美創數據質量管理體系


      數據質量管理是一個持續改進的過程,具體包括定義業務需求及相關業務規則、確定數據質量指標、數據質量核驗、質量問題告警、質量問題分析,以及數據標準化、清洗和整合、問題跟蹤等工作。


      為了系統性、持續有效的幫助客戶進行數據質量提升,美創科技設計了整套的數據質量管理體系,主要包括數據質量定量評估體系、數據質控流程及工具、數據質量閉環管理機制三大部分。


      01

      數據質量定量評估體系


      任何改善都需要建立在評估的基礎上“對癥下藥”。數據質量反映的是數據的“適用性”,即數據滿足使用需要的合適程度,對于合適程度通常需通過多種維度進行衡量,目前,較為通用的維度是:完整性、唯一性、一致性、有效性、規范性和及時性。




      評估指標

      完整性:指數據信息是否完整,是否存在缺失情況。包括模型設計的不完整(例如唯一性約束不完整、參照不完整)、數據條目的不完整(例如數據記錄丟失或不可用)、數據屬性的不完整(例如數據屬性空值)。缺乏完整性是數據質量問題最為基礎和常見的一類問題。


      規范性:指記錄是否符合規范,是否按照規定的格式存儲(例如標準編碼規則)。數據規范性審核是數據質量審核中比較重要也是比較復雜的一塊,主要是檢驗數據和數據定義是否一致。


      唯一性:用于識別和度量重復數據、冗余數據。重復數據是導致業務無法協同、流程無法追溯的重要因素,也是數據治理需要解決的最基本的數據問題。


      一致性:指多源數據的數據模型不一致和數據實體不一致。相同的數據有多個副本的情況下的數據不一致、數據內容沖突的問題。數據集內與數據集之間的數據不一致問題。


      及時性:指能否在需要的時候獲到數據,數據的及時性與企業的數據處理速度及效率有直接的關系,是影響業務處理和管理效率的關鍵指標。


      有效性:指數據是否遵循預定的語法規則、是否符合其定義,比如數據的類型、格式、取值范圍等。


      選定維度后,如何量化指標是實現數據質量評估的關鍵步驟。美創從數據屬性業務規則(如字段)、數據實體業務規則(如庫、表)、企業特定業務規則(如行業規范)三個層面,幫助客戶快速創建或提供“開箱即用”的數據質控規則,將數據評估維度與業務流程對應,建立數據質量評價指標,同時根據具體業務場景調整評價體系中各維度的權重,最終以量化形式實現數據質量評估。


      最后需要強調的是,為了保持指標的有效性,指標定義的過程不能在數據質控的最后階段才進行,而是在數據質量戰略/設計和規劃階段就要開始,以便能在組織中實現。


      02

      數據質控流程及工具


      數據質控流程包括從界定數據質控的對象和范圍出發,到確定數據質量評價指標,內置產品生成數據質量評價模型,再到選定數據集和部署實施,生成數據質量報告、提出改善建議的全過程。


      美創通過高效的數據質量管理工具——數據質控平臺,將數據質量管理全工作流串聯,提供標準定義、規則配置、模型管理、異常數據統計、質量分析、質量報告、運行監控、系統管理等功能,幫助客戶實現更快、更有效的數據質量管理。



      `數據質控流程`



      Step1:界定對象和范圍


      一般來說,數據質控主要針對兩類數據:一類是操作型數據,例如主數據、參照數據和交易數據;另一類是分析型數據,例如主題數據和指標數據。


      我們可以通過兩種方式界定數據質控的對象和范圍:一是根據業務部門的需求來界定;二是可以基于元數據、血緣關系等進行量化分析,以框定數據質控的實施范圍。


      Step2:數據評估及指標量化




      在設計數據質量評價指標前,對數據的評估很關鍵。我們采用兩種方法進行數據評估——自底而上或自頂而下:


      對已有數據質量問題進行自下而上的評估,包括對數據集的檢查和評價。方法基于自動流程的處理結果,強調潛在問題,包括出現率分析、重復性分析、跨數據集的依賴關系、“孤兒”數據幾率和冗余分析;


      而自頂而下的數據質量評估需要理解業務流程如何使用數據,以及哪些數據元素對于業務應用的成功至關重要。通過評審報告、記錄和診斷的數據錯誤類型,評估與數據問題相關的業務影響。


      完成評估后,結合實施需要選定指標,由美創數據與行業專家組協助各相關部門對不同的評價對象進行評價指標設計,確定每個指標的閾值和權重,量化數據質量的測量維度。


      Step3:數據質量規則配置


      在部署和使用產品進行數據質量評估之前,需要先將指標內置到產品中,構建數據質量規則庫,形成數據質量評價模型。


      美創數據質控平臺支持采用零編碼方式完成規則定義,通過可視化界面,普通用戶即可完成規則的增-刪-改-查,定義結果清晰易理解,需求變動和人員變動影響甚微。



      `美創數據質控平臺-規則管理`



      平臺支持從數據字段的值、字段類型、字段長度三個維度配置質控規則,支持質控的級別和類型自定義。內置指標調度功能還可以配置指標具體的執行周期,支持單次執行和周期執行,同時也提供調度結果的查詢功能。


      Step4:數據質量稽核



      `數據質控平臺-數據質量稽核邏輯`



      平臺接入各業務系統數據庫完成作業配置后,自動進行數據抽取并執行數據質量評估任務。


      采集引擎結合元數據管理負責對評估數據集進行數據抽取,數據按業務需求進入規則引擎后對數據進行質量稽核,通過規則引擎將不合格的數據篩選出來,統計引擎負責計算每批處理的數據的合格率,及數據質量評分等。監控臺可實時查看數據整體抽取量以及合格數據,展示項目的整體數據質量情況和質量分析趨勢圖。


      `數據質控平臺-任務信息`


      Step5:異常數據統計


      美創數據質控平臺擁有包括質量異常統計和數量異常統計兩大模塊。


      質量異常模塊展示各業務表單的數據總量和異常數據情況。數量異常模塊展示每天數據同步情況,包括數據總量、新增數據量、更新數據量、刪除數據量。同時平臺內置問題告警和通知機制,進一步保證數據同步的及時性和準確性。


      `美創數據質控平臺-質量問題清單(異常數據指沒有通過字段級別質控規則的數據)`


      `美創數據質控平臺-異常數據信息`


      Step6:數據分析與數據質量報告


      美創數據質控平臺提供了全面的數據分析機制,可提供多種問題分析能力,包括血緣分析,影響分析,全鏈分析,幫助用戶診斷問題的類型、快速定位問題產生的根源。


      同時平臺內置了豐富的統計報表圖表及多種質檢結果主題,可以對單條數據的質量進行打分評價,包括批次、指標、具體應用、具體報表的關鍵稽核信息等,以便用戶分析影響數據質量的關鍵因素,進而采取有針對性的質量改進措施。


      通過運行數據質量檢查作業,可以定期或不定期的得到數據質量評估報告,總結系統整體數據質量、以及各層次、外圍系統供數等關鍵因素。


      `美創數據質控平臺-數據質量評估報告-得分信息`


      Step7:解決數據質量問題


      針對不同的數據質量問題,美創提供了多種解決方案,比如系統改進建議、業務流程優化建議(減少誤操作)、對歷史數據進行清洗和矯正等,致力于幫助客戶消除數據質量問題或將數據質量問題帶來的影響降低到最小。


      數據質量閉環管理機制


      數據質量閉環管理機制幫助客戶從問題定義、問題發現、問題整改、問題跟蹤、效果評估5個方面建立相應的管理及認責機制,形成一種可持續運行的數據質量管理機制。


      ① 問題定義與問題發現


      將技術、業務、管理三者進行有機結合,從業務出發進行問題定義。基于美創數據質控平臺,由產品自動、及時發現問題,通過郵件、短信等方式將問題及時通知到責任人。


      ② 問題整改


      問題整改方面,建議對不同時期的數據分類、分優先級進行處理,采用不同的處理方式做到事前預防、事中監控、事后改善。


      `數據質量問題整改(簡版)`


      對于歷史數據問題的處理,主要采用數據清洗的辦法來解決,清洗的過程要綜合使用各類數據源,提升歷史數據的質量。對于當前數據問題的處理,需要通過上述一整套問題定義-效果跟蹤機制來解決。對于未來數據問題的處理,需要從信息化的角度出發,重新規劃統一的數據架構,制定數據標準和數據模型,規范數據定義,在數據流轉過程中建立監控數據轉換質量的流程和體系,在哪發現問題就在哪解決問題,不把問題數據帶到后端。


      ③ 問題跟蹤與效果評估


      基于美創數據質控平臺,跟蹤問題整改進度,結合質量問題解決共享機制,建立知識庫,考核評價,執行獎懲,做為輔助手段。


      數據質量管理是數據治理的一個重要組成部分,美創擁有覆蓋數據治理全過程的產品和解決方案,我們的目標一方面是幫助客戶主動發現數據質量問題,降低對數據分析應用的影響,增加業務使用數據的可信度,同時減少資源投入;另一方面是通過高效、靈活的數據治理和數據管理手段,從采集到交付各階段持續控制和改進數據質量,減少問題發生,全面提升數據的完整性、規范性、及時性、一致性,最終幫助客戶實現在組織內生產、供應和使用高質量的數據。

      免費試用
      服務熱線

      馬上咨詢

      400-811-3777

      回到頂部