国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何建立真正的數據目錄

IBM中國 ? 來源:IBM中國 ? 作者:IBM中國 ? 2022-01-20 10:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者簡介:王積杰目前擔任IBM數據與AI產品線大中華區信息架構產品總監,對AI和信息架構有深刻的理解和認識。擁有20多年的IT從業經驗,從2008年起擔任IBM公司大中華區數據治理產品線產品總監,多年從事企業數據集成和治理的工作。對ETL,實時數據集成,數據治理,數據質量管理和元數據管理和數據目錄都頗有造詣。

數據治理已經發展了 20 多年,從最早的元數據管理,到后來的數據質量管理,很多企業多年前都建設了名為數據治理的項目。但是,如果你去問這些企業,數據治理項目做得怎么樣?發揮了怎樣的業務價值和效益?你得到的答案往往不盡人意。很多企業建設好數據治理項目以后,就荒廢了沒有人使用。為什么會造成這樣的情況呢?究其原因是,其數據治理項目只是面對 IT 人員的,并不是面對業務人員的。如果一個項目不是面對業務人員的,就難以發揮業務價值,業務人員無法使用,往往是不可能獲得成功的。因此,近年來,國外興起了建設數據目錄的熱潮,不只是談數據治理,而是為了解決面向業務人員并體現業務價值的問題。數據目錄就是為了幫助業務人員以及數據科學家,解決尋找數據、了解數據、優化數據以及使用數據的難題。

什么是數據目錄?

很多人還不清楚什么是數據目錄,我來打個比方,我們用書來比喻數據。大家都知道圖書館的圖書目錄,我們過去進到圖書館借書,首先就要去查找圖書目錄。如果一個圖書館那么亂的話,相信就連圖書管理員也無法找到想要的書吧?如果一個企業的數據庫管理得那么亂,那么就連數據庫管理員可能也無法找到數據了。如果一個圖書館 右上角那樣的話,那說明這個圖書館的書,已經分門別類擺放整齊了,就像一個企業的數據,結構化的和非結構化的,都分別在數據庫里或大數據平臺上,放得整整齊齊了。

但是,對于圖書館來說,其主要任務是為讀者服務的,書擺放得整齊,需要借書的讀者就能借到他要的書嗎?我們都知道,那是不夠的,因為缺少一個圖書目錄,就是左邊的小抽屜。那個小抽屜里放的是一張一張的書卡,書卡上寫了一些什么呢?往往有書的名字、書的簡介、書的作者、書的出版年份,還有書的類別,比如是物理類的還是化學類的;書的屬性,比如是工具書類的還是文藝書類的;書適合的年級,比如一年級還是三年級;最重要的是書的具體位置,它是在圖書館的哪一排的哪一層的哪一格里。有了這張書卡,我們就可以輕松地找到這本書并借到這本書了。我曾經和一個大型企業的 CIO 聊天,這家企業 20 年前就建了數據倉庫,十年前又建了大數據平臺和數據湖,類似數據治理的項目都建設過好幾期了。我問 CIO 最近企業在IT方面開展什么項目呢?CIO 回答,最近招進了好幾個數據科學家,打算開展AI項目的建設,但是遇到了困難。數據科學家們在工作中,要花 70% 以上的時間在尋找數據,而不是 AI 建模。CIO 問,為什么我們過去的數據治理項目,幫不了這些數據科學家呢?我就告訴這個 CIO, 你們過去的數據治理項目,都是面向IT用戶的,不是面向業務人員的。如果你真的要幫助數據科學家方便快捷地找到他們要的數據,你就要建設真正的數據目錄。

建立數據目錄的業務準備

要建立真正的數據目錄,前期還是要做好一些業務方面的準備工作的,就像建一張書卡一樣,書卡上的內容,你先要準備好。數據目錄一般有這樣一系列的業務域的元素:

01數據分類(Categories)

這是從業務角度,對業務數據的分類。就像圖書館里的書,按物理、化學、生物、醫學來分類一樣。企業里可以按分公司或部門來分類,也可以按業務類型來分類,如:銷售類、生產類、財務類等等。

02業務術語(Terms)

業務術語就有點像書卡上的書名了,讀者根據書名來找書,那么數據科學家們往往也是根據業務術語來找他要的數據。比如:VIP客戶、日產量、月產量等。也可以是一些業務的指標和維度。

03政策 (Policies)

大到國家小到企業,都有很多政策,會影響數據的性質和使用。比如:個人數據的隱私保護,歐盟有 GDPR,中國也出臺了《個人信息保護法》,對個人信息我們需要打上隱私標簽,進行保護,不能隨意泄露。

04規則(Rules)

數據都有規則,有的是業務規則,有的是數據質量規則。比如:身份證號碼,它的規則是18位的數字,前6位代表地區,中間8位代表生日,后三位是序號,最后一位是校驗碼。有些物料的號碼,第一位是字母代表材質,后四位數字代表序列等等。

05參考數據(Reference Data)

有些數據是代碼,需要通過參考數據來知道真正的數值。

06數據分級(Classification)

就像書卡上會告訴你這本書是給一年級用的還是給四年級用的,數據也是需要分級的。比如:第一級的數據屬于公開數據大家都可以看,第二級的數據只有部門經理才能看,第三級的數據是給高層領導看的,第四級數據只有董事會的成員才能看等等。

07數據類型(Data Class)

我們可以對數據根據它的類型進行分類,比如:姓名、地址、電話、身份證號碼,或者是產品代碼、產品種類或是產量信息等等。我們需要對Data Class的類型進行定義,比如通過正則表達式。Watson Knowledge Catalog 將可以通過AI的方式,根據Data Class的定義,自動的進行數據的分類和識別。

建立數據目錄的技術難點

數據目錄的實現其實并不容易,否則,為什么那么多年來,大多數的客戶還是在普通的數據治理層面,僅能夠面向技術人員,而不能面向業務人員呢?原因是:一個企業的業務域元素可能有幾萬個,而技術域的元數據可能有幾十萬個,幾萬個與幾十萬個的對應關系,可比圖書館的書卡制作要復雜得多了。幾千本書你可以通過書卡,用人工的方法一一對應。但幾萬個業務域元素和幾十萬個技術元數據的對應,全部要靠手工來實現,幾乎是不可能完成的任務。這也是這么多年來,數據目錄沒有很快發展起來的原因,直到最近AI技術機器學習技術的引進,才幫助我們解決了這個問題——針對這個難題,IBM推出了Watson Knowledge Catalog。 Watson是IBM 響當當的AI名片,所以Watson Knowledge Catalog里,采用了大量的IBM企業級AI和機器學習的技術,來幫助我們實現從業務到技術的關聯。

展示了數據目錄各個元素之間的關系。其中,從業務術語到數據資產的那個紅色的箭頭,一直是數據目錄建設的難點。直到 IBM 采用了大量的AI和機器學習的方式,來幫助做自動的關聯,才解決了這個問題。如果業務元數據或者 Data Class 定義了清晰的數據規則,那么,Watson Knowledge Catalog 就可以應用AI的能力,進行自動關聯。如果并沒有定義清晰的規則,那么,我們可以用人工的方式,手工地進行關聯,同時 Watson Knowledge Catalog 會進行機器學習,自動建立規則。當你用手工多關聯幾次,自動建立的規則越來越完善以后,系統就能通過AI實現自動關聯了。

建立數據目錄的技術準備

建立數據目錄,我們要了解企業內部都有哪些數據?這些數據在哪里?數據質量狀況是如何的?這些都可以使用 Watson Knowledge Catalog 的數據自動發現功能去實現。Watson Knowledge Catalog 會自動地發現數據,自動地連接數據源,并導入元數據。它還可以自動地分析數據的質量狀況,進行數據質量的打分,并形成數據質量的圖表或儀表盤。數據質量的打分,可以利用已經定義的數據質量規則,也可以允許業務人員用拼圖的方式,自定義數據質量規則。這種定義方式有點像拼圖游戲,數據科學家可以用一些簡單的規則如大于、小于、等于、AND、OR、包含、不包含等,自己拼出數據質量規則, 并運行,幾分鐘就可以得到數據質量的報告。過去,數據科學家拿到一批數據,為了要了解其數據質量,往往要把需求提給IT部門,IT 部門還要請軟件開發商來寫程序,從而分析這批數據的數據質量。從數據科學家提出需求,到拿到數據質量報告,有的時候要幾周時間。這與我們目前的高效快節奏的社會完全不匹配。而如果數據科學家用拼圖方式,花 5 分鐘定義數據質量規則,然后執行它,15 分鐘后,就能得到結果了。這種自助式的數據質量探索能力,往往是數據科學家最希望的。

另外,元數據管理和血緣分析,也是數據目錄不可或缺的功能,他可以幫助數據科學家了解每一個數據從哪里來,到哪里去,從而更好地理解業務。

數據目錄的使用

本文開頭就提到,數據目錄建設的目的,是為了解決業務人員和數據科學家們發現數據和使用數據的難題。那么,為數據科學家和業務人員提供一個友好的數據發現和使用的界面就尤為關鍵了。Watson Knowledge Catalog 可以將數據目錄,展示成一個知識圖譜。業務人員可以既通過類似 Google 的方式,通過搜索業務詞匯,找到他需要的數據,也可以通過基于知識圖譜的發現和探索,很方便地圖形化地找到他要的數據,并且可以自助地獲取這些數據。Watson Knowledge Catalog 自帶有數據隱私保護的功能。如果某個數據已經被打上了隱私保護的標簽,那么你就看不到這些數據,這些數據會被打上星號或者漂白后再展示。數據科學家獲得了他要的數據后,還可以自助地優化這些數據或者利用 Watson Knowledge Catalog 自帶的數據可視化工具,進行數據圖形化展示,這些功能都極大地方便了數據科學家對數據的處理和分析。如果數據科學家需要進行下一步的AI數據建模,還可以直接將這些數據不落地的送到我們的自動化 AI 建模工具 AutoAI 進行建模或者 BI 平臺 Cognos 進行報表展現,真正實現數據目錄為業務人員服務的功能。

后記

智能數據目錄的建設,可以使業務人員或者數據科學家,隨時找到他們需要的數據,并且可以通過自助的方式,獲取這些數據。這個功能,是實現 Data Fabric 的第一步。建設好了智能的數據目錄,就為今后Data Fabric的建設打下了堅實基礎。Data Fabric 已經成為 Gartner 在 2022 年最熱的IT趨勢的第二名。企業實現 Data Fabric 的架構將是大勢所趨,讓我們先從建設智能的數據目錄開始吧。

原文標題:IBM Watson Knowledge Catalog:邁向智能化數據經緯的第一步

文章出處:【微信公眾號:IBM中國】歡迎添加關注!文章轉載請注明出處。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7335

    瀏覽量

    94778
  • AI
    AI
    +關注

    關注

    91

    文章

    39793

    瀏覽量

    301450
  • 可視化
    +關注

    關注

    1

    文章

    1353

    瀏覽量

    22804

原文標題:IBM Watson Knowledge Catalog:邁向智能化數據經緯的第一步

文章出處:【微信號:IBMGCG,微信公眾號:IBM中國】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    華大半導體入選2024年版中央企業科技創新成果推薦目錄

    近日,國務院國資委正式印發《中央企業科技創新成果推薦目錄(2024年版)》(以下簡稱《目錄》),旨在加快中央企業科技創新成果應用推廣,促進成果轉化落地。本次《目錄》共涵蓋電子元器件、零部件、新材料、儀器儀表等7個領域,收錄了26
    的頭像 發表于 02-25 16:19 ?278次閱讀

    使用Labview建立的TCP Custom Device加載到NI上面后,數據收發不了?

    建立的Custom Device的每個VI組件都能獨立運行,其中RT Driver這個VI組件在使用數據抓包腳本測試的時候,在前面板及腳本的頁面都能看到數據的傳輸。 但是整個Custom Device加載到NI上之后,NI上的接
    發表于 02-09 17:30

    飛凌嵌入式ElfBoard-打開目錄readdir

    ,或者遇到錯誤時可以通過 errno 獲取更多信息。注:流是抽象的一個數據通道,目錄流(DIR 類型的對象)是一個表示打開目錄的抽象數據通道。通過這個流,我們可以按順序讀取
    發表于 01-07 08:47

    艾體寶方案 | 安全不止是“加密”:企業如何真正做到數據可控?

    應對現代數據安全的挑戰。 真正的安全,不僅是防止數據泄露,更是讓數據“可控”:無論它身在何處,企業都能隨時監測、審計、回收或銷毀。 安全困境的根源:
    的頭像 發表于 11-27 16:00 ?418次閱讀

    Linux新手通關!5分鐘掌握文件/目錄管理,告別“找不到北”

    新手入門:Linux?文件?/?目錄管理實操指南 剛上手?Linux?的小伙伴,是不是常陷入這些?“混亂時刻”:想找的文件藏在層層目錄里,翻半天找不到;誤刪文件后慌得手心冒汗,不知道怎么恢復;復制
    的頭像 發表于 11-17 10:42 ?431次閱讀
    Linux新手通關!5分鐘掌握文件/<b class='flag-5'>目錄</b>管理,告別“找不到北”

    南方測繪入選2025年度水利先進實用技術重點推廣指導目錄

    近日,水利部科技推廣中心完成《2025年度水利先進實用技術重點推廣指導目錄》公示,目錄依據《水利先進實用技術重點推廣指導目錄管理辦法》經嚴格篩選形成。
    的頭像 發表于 11-14 17:40 ?3066次閱讀

    飛凌嵌入式ElfBoard ELF 1板卡-Linux系統基礎入門-目錄相關shell命令

    ,權限,時間等信息-t依照建立時間順序列出文件-F按類型列出文件,在文件末尾用不同符號區分斜線(/)表示目錄星號(*)表示可執行文件@符號 表示鏈接文件-r將文件以字母反序顯示示例:cd切換目錄路徑命令
    發表于 09-29 10:12

    如何使用rt-thread studio中,使用 定制化的SDK建立工程?

    步驟: rt-thread bsp n32 n32l40xcl-stb scons --target=eclipse 再 Scons –dist 生成 dist 目錄 進入目錄后 再 scons
    發表于 09-26 06:16

    Linux系統目錄結構全面剖析

    Linux文件系統采用層次化的目錄結構,這種設計遵循了Unix哲學中的"一切皆文件"原則。理解Linux目錄層次架構對于系統管理員、運維工程師和開發人員來說至關重要,它不僅影響系統的組織方式,還直接關系到系統的可維護性、安全性和性能。
    的頭像 發表于 07-21 17:33 ?780次閱讀

    迅為RK3568開發板基本工程目錄-工程級目錄

    FA 模型和 Stage 模型的工程目錄是存在差異的,接下來我們以之前新建的工程—— helloworld 為例,介紹一下 ArkTS 工程目錄結構(Stage 模型)。 工程的目錄結構如下圖所示
    發表于 07-10 10:45

    英威騰入選2024綠色低碳數據中心產品及解決方案推薦目錄

    近日,工信部下屬權威機構賽迪顧問(CCID)正式發布《2024綠色低碳數據中心產品及解決方案推薦目錄》。憑借領先的技術實力及綠色低碳創新方案,英威騰三款數據中心基礎設施解決方案經嚴格評審,成功入選!
    的頭像 發表于 07-09 11:25 ?1263次閱讀

    博鼎彈簧發布數字目錄實現穩定高效且易于操作的技術數據管理

    CADENAS****技術顛覆產品數據提供方式:一種全新的、行業領先的數字目錄 Mollificio Bordignon公司是一家以生產各種高質量彈簧而聞名的公司,為了進一步提高產品數據質量和優化
    發表于 05-23 10:52

    北斗星通入選北京市專精特新出口產品目錄

    近日,在第二十七屆北京國際科技產業博覽會上,專精特新“京品出海”推介交流會暨《北京市專精特新企業出口產品參考目錄》(以下簡稱《出口目錄》)發布會成功舉辦。
    的頭像 發表于 05-13 18:15 ?1135次閱讀

    追溯≠快速查詢!不止是查數據,盤古信息MOM帶你看透真正的“全流程追溯”

    作為深耕制造業數字化轉型多年的資深服務商,盤古信息始終以技術創新驅動價值創造,通過自研IMS數字化智能制造系統,助力企業建立覆蓋產品全生命周期的數字化管理體系,讓數據真正成為驅動質量提升和效率變革的核心生產要素,讓企業產品品質更
    的頭像 發表于 04-25 17:25 ?650次閱讀
    追溯≠快速查詢!不止是查<b class='flag-5'>數據</b>,盤古信息MOM帶你看透<b class='flag-5'>真正</b>的“全流程追溯”

    CubeIDE默認SDK目錄怎么更改?

    CubeIDE默認的SDK目錄與CubeMX目錄不共用,而后者可以修改默認目錄,有人知道CubeIDE默認SDK目錄怎么更改嗎
    發表于 03-11 06:56