国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

將數據湖和數據倉庫評估為機器學習數據倉庫

星星科技指導員 ? 來源:NVIDIA ? 作者:JudyMcConnell ? 2022-10-10 15:42 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

無論你是零售商、金融服務公司還是數字廣告商,數據都是現代企業的生命線。跨行業,組織正在認識到其數據對于業務分析、機器學習人工智能的重要性。

智能企業正在投資于從數據中提取價值的新方法:更好地了解客戶需求和行為,定制新產品和服務,并做出在未來幾年將帶來競爭優勢的戰略決策。

幾十年來,企業數據倉庫已用于所有類型的業務分析,圍繞 SQL 和關系數據庫的強大生態系統。現在,一個挑戰者出現了。

創建數據湖是為了存儲用于訓練人工智能模型和預測分析的大數據。這篇文章涵蓋了每個存儲庫的優缺點:如何使用它們,以及最終為 ML 項目提供最佳結果的方法。

這個難題的關鍵是處理 AI 和 ML 工作流的數據。人工智能項目需要大量數據來訓練模型和運行預測分析。技術團隊必須評估如何捕獲、處理和存儲數據,以使其具有可擴展性、經濟性和易用性。

什么是數據倉庫?

數據倉庫創建于 20 世紀 80 年代,旨在幫助企業組織高數據量,以便做出更好的業務決策。數據倉庫與企業資源規劃( ERP )、客戶關系管理( CRM )軟件、庫存和銷售點系統等遺留資源一起使用。

主要目標是跨業務線、產品分析和商業智能提供運營報告。

數據倉庫使用 ETL (提取、轉換、加載)已有幾十年的歷史,在上傳數據之前,傾向于完成轉換和清理數據。傳統的數據倉庫對數據結構和提前規劃有嚴格的標準,以滿足模式要求。

數據只有在經過處理和優化后才能存儲在數據倉庫中。 ETL 通過首先清理數據,然后上傳到關系數據庫來處理數據。好處是數據狀態良好,可以使用。但是,您需要預先支付處理開銷,如果數據從未使用,則會丟失這些開銷。

數據分析員在運行查詢之前,必須創建預先確定的數據結構和固定模式。這個攔截器對于數據科學家、分析師和其他業務部門來說是一個巨大的痛點,因為運行新的查詢需要幾個月或更長的時間。

通常,倉庫中的數據是只讀的,因此很難添加、更新或刪除數據文件。

優勢:數據質量

對于任何系統,都存在權衡。數據倉庫的優點是,它們的數據在接收時處于良好狀態,并且由于數據倉庫的規則,可能會保持這種狀態 數據清洗 和數據治理。

傳統的數據倉庫可以作為分類賬,提供干凈、結構化和規范化的數據,作為組織的唯一真實來源。通過使用關系數據庫,整個組織的經理和業務分析師可以快速準確地查詢大量企業數據,以指導關鍵業務戰略。

缺點:模式需求

數據倉庫更有可能將 ETL 用于操作分析和機器學習工作負載。

然而,傳統的數據倉庫需要一個固定的模式來構建數據,這可能需要數月或數年的時間才能在所有團隊和業務線經理之間達成一致。當一個模式被實現時,它的用戶有了新的查詢,使他們回到原點。

公平地說,數據倉庫模式引發了人們對數據湖的極大興趣。

為什么使用數據湖?

在 21 世紀初, Apache Hadoop 引入了一種在分布式文件系統( HDF )中存儲數據的新范式,使企業能夠更輕松地挖掘其數據以獲得競爭優勢。數據湖的想法來自 Hadoop ,能夠吸收存儲在低成本 blob 或對象存儲中的各種數據類型。

在過去的十年中,組織紛紛涌向數據湖,以捕獲來自 web 、社交媒體、傳感器物聯網、天氣數據、購買列表等的各種數據類型。隨著大數據變得越來越大,數據湖開始流行使用彈性技術存儲數 PB 的原始數據。

數據湖有兩個主要優點:易于接受廣泛的數據類型和隨時訪問該數據以進行臨時查詢。

使用 ELT (提取、加載、轉換),數據湖可以吸收大多數任何類型的數據:結構化、非結構化、半結構化和二進制圖像和視頻。

進入數據湖的數據在存儲之前不必進行轉換。攝取是高效的,沒有按類型清理和規范化數據的開銷。

數據湖使存儲所有類型的數據( PDF 、音頻、 JSON 文檔)變得很容易,而不知道將來如何使用這些數據。

優勢:即席查詢

數據湖的好處是團隊可以訪問不同的數據,并根據需要運行任意查詢。需要立即提供數據分析是采用數據湖的主要驅動力。

缺點:隨著時間的推移,數據質量會下降

原始數據在數據湖中很快就會壞掉。很少有工具可以馴服原始數據,因此很難進行合并、重復數據消除和數據連續性。

數據倉庫和數據湖有什么共同點?

數據倉庫和數據湖都是大型數據存儲庫,具有共同的特點和缺點,尤其是在成本和復雜性方面。

比例:兩者都可以使用批處理和流式處理來保留大量數據。

高成本:兩者都非常昂貴,每年維護成本超過 100 萬美元。

復雜性:數據中心正在管理數十個獨特的數據源,數據量以每年 50% 或更高的速度快速增長。存儲基礎架構占用了更多的 IT 工時,提高了存儲成本,降低了整體效率。

數據處理:兩者都可以使用 ETL 和 ELT 處理。

共享用例:隨著數據科學家優先考慮 ML 技術以從他們的數據中獲得新的見解,許多組織現在正在充分利用這兩個領域:支持人工智能的數據分析和廣泛的不同數據類型。

數據倉庫和數據湖之間有什么區別?

比較數據倉庫和數據湖有點像比較蘋果和桔子。他們提供不同的東西。

數據倉庫組織、清理和存儲用于分析的數據。

數據湖存儲許多數據類型,并根據需要進行轉換。

隨著團隊越來越專注于人工智能項目,功能性、可管理性和數據質量問題上的差距逐漸顯現,導致這兩種方法不斷發展和改進。

部署

數據倉庫更有可能位于內部或混合云中。數據湖更有可能是基于云的,以利用更實惠的存儲選項。

數據處理

數據倉庫更有可能將 ETL 用于操作分析和機器學習工作負載。數據湖使用原始數據的 ELT 管道接收數據,以備將來需要。數據湖也不需要模式,因此團隊可以毫不延遲地提出臨時查詢。

工具

就功能性編程模型和成熟的、企業級軟件和工具而言,數據湖缺乏數據倉庫的穩健性。數據湖有很多痛點,包括不支持事務、原子性或數據治理。

數據質量

這總是一個問題。對于數據湖來說,這是一個更大的問題。希望對數據湖中的數據進行大量監控和維護。如果不能有效地管理原始數據,最終可能會陷入數據沼澤,性能低下,存儲成本失控。

Gartner 估計,大約 85% 的數據湖由于低質量的數據而失敗。正如諺語所說:數據管道的好壞取決于流經它們的數據。

購買與建造相比

Teradata 、 Oracle 和 IBM 這樣的公司可以以數百萬美元的價格向您出售一個數據倉庫。存儲是最昂貴的組件之一,因為一般公司的數據量每年增長超過 50% 。

為了獲得數據湖,大多數公司使用開源的 Apache Spark 、 Kafka 或 Zookeeper 在免費的 PaaS 上構建自己的數據湖。然而,這并不意味著構建和維護數據湖的成本更低。

據估計,雇傭人員部署帶有云存儲的生產數據湖每年可能會花費超過 100 萬美元。如果你能獲得專業知識,建立一個數據湖可能需要 6 個月到一年的時間。

什么最適合 ML 工作負載?

簡單的答案是兩者都有。大多數公司將在人工智能項目中同時使用數據倉庫和數據湖。原因如下。

數據湖之所以受歡迎,是因為它們可以擴展到 PB 或 EB 級的大數據,而不會破壞數據庫。然而,由于其編程模型中的約束,數據湖并沒有為 ML 工作負載提供端到端的解決方案。

許多組織采用了 Hadoop 范式,卻發現幾乎不可能讓高技能人才使用 MapReduce 從數據湖中提取數據。 Apache Spark 的引入和開發使數據湖得以維持,從而使數據訪問變得更容易。

盡管如此, Hadoop 模型并沒有實現其對 ML 的承諾。 Data lakes 持續的痛點包括缺乏原子性、性能差、缺乏語義更新,以及不斷發展的 SQL Spark 引擎。

將其與數據倉庫進行比較,數據倉庫與整個 SQL 生態系統兼容。任何為 SQL 后端編寫的軟件都可以訪問企業軟件。這些方法從所見即所得前端和拖放界面到自動生成的儀表板,再到進行 Kube 分析和超 Kubes 的全自動方法等等。

過去 30 年的所有商業智能和數據分析工作都是在 SQL 數據庫中繼承的。這些都不適用于 Hadoop 或數據湖。

越來越多的數據倉庫支持數據湖常用的 ELT 。數據湖的一個主要用例是將數據攝取到數據倉庫中,以便可以為 ML 項目提取和構造數據。 ELT 使數據科學家能夠定義一種結構數據和查詢數據的方法,同時將原始數據作為真理的來源。

數據湖之家的前景

對于尋求更強健的數據解決方案以滿足其大數據需求的數據工程師來說,一個 數據湖屋 (數據湖和數據倉庫的組合)有望解決數據湖的缺點。

在一個名為 三角洲湖 。

混合云選項

如果你剛剛開始人工智能數據架構,像 Amazon 和谷歌這樣的公司正在提供基于云的數據倉庫 ( Amazon 紅移 , Google BigQuery ) 幫助降低存儲和部署成本。

核心數據庫 是一種開源數據庫服務,作為 Apache 許可證下的一項服務,其功能相當于數據湖。

結論

數據倉庫和數據湖都是馴服大數據和推進高級 ML 分析的有用方法。數據湖是最近在商業云中存儲大量數據的一種方法,例如 Amazon S3 和 Azure Blob 。

數據倉庫和數據湖的定義正在演變。每種方法都在為新的用例測試新的數據過程和模型。展望未來,優化性能的技術對于管理成本和監控大型存儲庫中的數據衛生至關重要。

數據湖為數據分析提供了更靈活的解決方案,可以以較低的價格處理和存儲數據。然而, Hadoop 數據湖范式目前并沒有為大規模機器學習提供全功能解決方案。許多組織正在制定新策略并嘗試新工具,以便在不久的將來為數據倉庫和數據湖提供更好的功能。

關于作者

JudyMcConnell 為 NVIDIA 撰寫了關于企業數據中心和網絡安全的文章。在過去的 15 年里,她在硅谷的多家公司工作,之前她是一名技術記者。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    39756

    瀏覽量

    301366
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136931
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    1688庫存API:多倉庫同步,庫存周轉快!

    ? 在電商和供應鏈管理中,高效的庫存管理是企業成功的關鍵。1688平臺提供的庫存API,支持多倉庫同步功能,能顯著提升庫存周轉效率。本文逐步介紹其技術實現和優勢,幫助開發者理解如何利用API優化
    的頭像 發表于 01-08 14:47 ?245次閱讀
    1688庫存API:多<b class='flag-5'>倉庫</b>同步,庫存周轉快!

    BI決策分析系統的關鍵組成部分:業務數據整合有何意義

    從業者不可掉以輕心;一旦設計執行不得當,策略很容易就會出現漏洞。 ?美國Intelligent Solutions咨詢公司的總裁Claudia Imhoff說,數據必須及時上傳到數據倉庫bi決策分析系統所使用,若時機不當,所有
    的頭像 發表于 12-18 13:16 ?235次閱讀

    機房/倉庫/實驗室專屬:網絡溫濕度傳感器,環境安全一手握

    網絡溫濕度傳感器通過實時監測與智能調控,機房、倉庫和實驗室等特殊場景提供精準環境管理。在機房中,傳感器聯動空調系統可降低設備故障率42%;醫藥倉庫應用滿足GxP合規要求,取代人工記錄;實驗室高精度
    的頭像 發表于 12-15 15:41 ?1108次閱讀

    Next Pathway成為Snowflake最高級別合作伙伴

    的持續投入。 Next Pathway始終展現出卓越的專業能力,以無可匹敵的效率幫助全球客戶復雜的數據倉庫和數據遷移至Snowflake AI
    的頭像 發表于 12-04 18:08 ?1072次閱讀
    Next Pathway成為Snowflake最高級別合作伙伴

    rfid倉儲方案在倉庫管理中如何應用

    在現代倉儲管理領域,傳統人工管理模式易出現盤點效率低、物料追蹤難、信息滯后等問題,而rfid倉儲方案的出現,倉庫管理帶來了革命性的變革。作為高度自動化、智能化的無人值守倉庫管理解決方案,rfid
    的頭像 發表于 10-23 15:13 ?410次閱讀
    rfid倉儲方案在<b class='flag-5'>倉庫</b>管理中如何應用

    從“傳統倉庫”到“智能倉庫”,企業能獲得哪些顛覆性改變?

    對于許多制造企業而言,倉庫曾是成本中心和數據黑洞——依賴手工記賬、尋找貨物困難、庫存不準、效率瓶頸突出。而向智能倉庫的轉型,絕非僅僅是引入一些新技術,而是對企業物流與信息流的一次徹底重塑,能帶來多維
    的頭像 發表于 09-28 15:02 ?382次閱讀

    倉庫物品計數遠程監控系統方案

    庫存已滿時現場紅燈常亮,但仍需員工現場值守。 對此,物通博聯提供倉庫物品數據采集到ERP系統的解決方案,以實現倉儲的遠程管理與智慧升級。物通博聯工業智能網關通過接入計數傳感器,能夠實時采集物品數據對接到ERP系統中
    的頭像 發表于 09-16 14:11 ?590次閱讀
    <b class='flag-5'>倉庫</b>物品計數遠程監控系統方案

    ERP倉庫管理軟件如何贏得企業的信賴

    在制造、貿易乃至電商領域,倉庫早已不只是“堆放貨物的地方”。從原材料入庫到成品出庫,每一個環節的數據準確性,都直接影響著生產安排、客戶交付和財務結算。正因如此,越來越多企業開始關注ERP中的倉庫管理
    的頭像 發表于 08-29 09:40 ?564次閱讀
    ERP<b class='flag-5'>倉庫</b>管理軟件如何贏得企業的信賴

    更智能的移動倉庫機器人提供動力

    在 全球 各地的倉庫中,自主機器人 正在 與人類 協同作業 , 實現比以往更快速 的貨物 配送—— 而對速度的 需求也在持續 上升。 ?在許多零售商承諾兩天送達,且訂單量龐大的背景下,倉庫能在多大
    的頭像 發表于 07-21 16:29 ?3422次閱讀
    <b class='flag-5'>為</b>更智能的移動<b class='flag-5'>倉庫</b><b class='flag-5'>機器</b>人提供動力

    倉庫人車定位系統的優選之解

    融合亮點,倉庫運營提供了創新性的解決辦法,成功攻克了傳統管理模式下的不少難題。 一、倉庫人車定位面臨的難題 信號受干擾明顯 倉庫內部構造繁雜,高大的金屬貨架隨處可見,各種重型搬運設備
    的頭像 發表于 07-04 16:54 ?527次閱讀
    <b class='flag-5'>倉庫</b>人車定位系統的優選之解

    工業路由器賦能倉庫消防預警,智慧消防物聯網解決方案

    在現代物流與倉儲行業蓬勃發展的當下,倉庫的規模與存儲密度不斷攀升,消防預警的重要性愈發凸顯。傳統消防系統在應對復雜倉庫環境時,預警滯后、設備聯動不暢、數據管理困難等弊端逐漸暴露。為了有效解決這些
    的頭像 發表于 06-10 17:47 ?1118次閱讀
    工業路由器賦能<b class='flag-5'>倉庫</b>消防預警,智慧消防物聯網解決方案

    Helm倉庫管理常用配置

    Helm 倉庫(Repository)是存儲 Helm 圖表(Chart)的地方,類似于軟件包管理器的倉庫(如 apt、yum 倉庫)。
    的頭像 發表于 06-07 09:27 ?1299次閱讀

    部隊倉庫管理模式革新,RFID技術讓倉庫管理更高效

    在風雷激蕩的現代戰場,從彈藥油料到被裝口糧,每一件物資都關乎前線士兵的生命與戰斗的成敗。軍用倉儲管理系統正是這復雜物資生命線的神經中樞,昔日沉寂的倉庫轉變為戰場最敏銳的神經末梢。它超越傳統倉庫
    的頭像 發表于 06-03 17:44 ?593次閱讀
    部隊<b class='flag-5'>倉庫</b>管理模式革新,RFID技術讓<b class='flag-5'>倉庫</b>管理更高效

    PolarDB×ADB雙擎驅動 華鼎冷鏈打造冷鏈數據智能反應堆

    完成從自建分布式數據庫到云原生數據庫PolarDB MySQL,再到云原生數據倉庫AnalyticDB MySQL(ADB MySQL)的全鏈路升級,實現了事務處理和數據分析一體化。
    的頭像 發表于 04-15 15:13 ?547次閱讀
    PolarDB×ADB雙擎驅動 華鼎冷鏈打造冷鏈<b class='flag-5'>數據</b>智能反應堆

    注塑機數據采集網關和數據中臺有哪些聯系特點

    。它將這些分散的、來自不同注塑機的數據進行收集和整理,數據中臺提供原始數據來源。 數據中臺實現集中存儲:
    的頭像 發表于 03-25 15:38 ?665次閱讀
    注塑機<b class='flag-5'>數據</b>采集網關<b class='flag-5'>和數據</b>中臺有哪些聯系特點