国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Google Cloud AI Lakehouse如何構建企業數據未來

谷歌開發者 ? 來源:谷歌開發者 ? 2025-11-06 10:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

以下文章來源于谷歌云服務,作者 Google Cloud

陸鋒

Google Cloud 亞太區數據分析架構師

AI 時代,數據是引擎,但對大多數企業而言,這個引擎正被數據孤島、復雜的工具鏈和緩慢的洞察周期所拖累。數據工程師在繁瑣的 ETL 中筋疲力盡,數據科學家因數據準備不足而束手無策,業務團隊則因報表延遲而錯失良機。這使得 AI 計劃往往雷聲大雨點小,難以規模化。正如一句老話所說,"你無法在一個破碎的數據地基上,構建一個可靠的 AI 未來。"

為了應對這一挑戰,Google Cloud 推出了下一代 AI Lakehouse 解決方案。它不僅僅是一個數據倉庫或數據湖的簡單組合,而是一個專為 AI 時代設計的,集開放性、高性能、統一治理和原生智能于一體的綜合數據平臺。本文將深入探討 Google Cloud AI Lakehouse 的核心理念、關鍵組件及其如何幫助企業將數據雄心轉化為業務現實。

核心理念: 一個為 AI 而生的開放式數據湖倉 (Open Data Lakehouse)

傳統的分析架構往往在數據倉庫 (用于結構化數據分析) 和數據湖 (用于存儲海量原始數據) 之間形成壁壘。這種分離導致了數據冗余、治理復雜和分析效率低下,嚴重阻礙了 AI 應用的開發。當數據被鎖在特定的格式或工具中時,團隊協作變得困難,創新也因此受到束縛。

Google Cloud 的 AI Lakehouse 旨在徹底打破這些壁壘,其核心理念根植于三大支柱:

●打破數據邊界:無論數據存儲在 BigQuery 原生存儲中,還是以 Apache Iceberg 等開放格式存在于 Google Cloud Storage (GCS) 上,都能通過統一的平臺進行訪問和管理,無需數據遷移或復制。這意味著數據可以 "原地" 被分析,從而形成一個無摩擦的協作環境和企業級的單一事實來源。

●激活數據全部潛力:提供無與倫比的性能,讓企業能夠無限制地進行分析、運營和創新。這不僅關乎查詢速度,更關乎處理海量多模態數據 (文本、圖片、音視頻) 并從中實時提取價值的能力,從而驅動更智能的業務決策。

●普及 AI 驅動的洞察:將 Gemini 等前沿 AI 模型深度集成到數據生命周期的每個環節,讓從數據工程師到業務用戶的每個人都能輕松使用 AI。目標是讓 AI 像 SQL 一樣,成為數據工作者觸手可及的基礎能力,將他們的工作從 "做什么" 提升到 "為什么做"。

架構概覽: 統一與開放的完美結合

Google Cloud AI Lakehouse 的架構設計巧妙地將各個功能層協同起來,充分體現了其開放性和統一性。

cccace6a-b89d-11f0-8c8f-92fbcf53809c.png

Google Cloud AI Lakehouse 架構圖

●存儲層 (Storage):底層由BigQuery Native Storage和基于 GCS 的Iceberg Native Cloud Storage構成,支持托管和自管理的開放格式,為數據提供了靈活且經濟高效的存儲選項。

●統一管理層 (Unified Management):BigLake是整個架構的核心,它作為一個統一的控制平面,允許用戶以一致的方式管理和訪問所有數據,無論其物理位置或格式如何。

●多引擎處理層 (Multi-Engine Processing)平臺支持多樣化的計算引擎,包括BigQuery SQL、Google Cloud Serverless for Apache Spark(搭載革命性的Lightning Engine)、Dataproc和AlloyDB SQL,確保用戶可以使用最適合其工作負載的工具。

●統一治理層 (Unified Governance):Dataplex Universal Catalog為從數據到 AI 模型的整個生命周期提供全面的治理能力,確保數據的可信、安全和合規。

●體驗層 (Experience):面向不同角色提供豐富的工具,包括BigQuery Notebook、Vertex AI Workbench、Looker以及創新的Data Agents,極大地提升了數據團隊的生產力。

這些層次的無縫集成,確保了數據在整個平臺內能夠自由、安全、高效地流動,為上層 AI 應用提供了堅實可靠的保障。

三大核心引擎: 解鎖極致性能、原生智能與無限開放性

BigLake: 數據湖倉的 "通用護照"

BigLake 是實現開放式湖倉的關鍵。您可以把它想象成一本數據的 "通用護照",讓數據可以在不同的計算引擎 (國家) 之間自由穿行,而無需繁瑣的數據復制和 ETL (簽證) 流程。它創建了一個虛擬層,將 BigQuery 強大的企業級功能 (如精細的權限控制、高性能查詢和 AI/ML 集) 擴展到 GCS 上的開放數據格式 (如 Iceberg、Delta Lake、Parquet)。這意味著:

●真正的互操作性:數據只需存儲一次,就可以被 BigQuery、Spark、Trino 等多種引擎無縫訪問和分析。這不僅節省了大量的存儲成本,也杜絕了因數據副本不一致而導致的分析錯誤。

●一致的治理:通過與 Dataplex 的集成,所有訪問請求都遵循統一的安全和治理策略。無論您使用哪種工具,數據的訪問權限和審計日志都集中管理,大大簡化了合規工作。

● 避免廠商鎖定:企業可以自由選擇最適合的工具,同時保留對數據的完全控制權。您的數據以開放格式存儲,未來可以輕松接入任何支持這些格式的新技術,確保了技術棧的靈活性和未來發展的可持續性。

BigQuery: 不僅僅是數據倉庫,更是 AI 平臺

作為 Google Cloud 數據戰略的核心,BigQuery 已經進化為一個集分析與 AI 于一體的超級平臺。

●內置 AI,而非 "外掛":

○BigQuery ML:允許用戶使用簡單的 SQL 語句直接在 BigQuery 中訓練和部署預測性和生成式 AI 模型。例如,營銷團隊無需數據科學家的幫助,僅用幾行 SQL 就能構建一個客戶流失預測模型。

○多模態向量搜索 (Vector Search):支持對文本、圖像等非結構化數據的向量嵌入進行高效的相似性搜索,是構建高級 RAG (檢索增強生成) 應用的基礎。這使得您可以構建能夠理解產品手冊、客戶評論甚至設計圖紙的智能客服或搜索應用。

○AI Query Engine (預覽版):由 Gemini 驅動,讓用戶可以在 SQL 查詢中使用自然語言來處理和分析多模態數據,例如直接提問 "這張廣告圖片中包含了哪些產品?" 或者 "總結一下上個季度所有關于 '電池續航' 的負面客戶評論"。

●為性能而生的多引擎架構:

○BigQuery Advanced Runtime:通過先進的運行時優化,能夠在無需用戶干預的情況下,將復雜分析查詢的性能提升高達 200 倍。

○Serverless Spark with Lightning Engine:Google Cloud 的下一代 Spark 性能引擎Lightning Engine,通過向量化查詢執行和智能緩存,實現了比開源 Apache Spark 快4.3 倍的驚人性能,同時顯著降低了資源消耗。這不僅僅是速度的提升,更意味著過去需要數小時才能完成的復雜分析任務,現在可以在幾分鐘內完成,從而極大地加速了從數據到決策的周期。

Dataplex: 從 "數據治理" 到 "AI 治理"

隨著 AI 模型的廣泛應用,治理的范疇也從傳統的數據表擴展到了 AI 特征、模型和 Notebook。Dataplex Universal Catalog 正是為應對這一 "治理危機" 而生,它將治理從被動的 "規則手冊" 轉變為主動的 "智能向導"。

●通用性 (Universal):自動發現和編目 Google Cloud 內外的所有數據和 AI 資產,包括基于 Iceberg 的開放湖倉,消除治理盲點。

●AI 賦能 (AI-powered):利用 AI 自動生成元數據 (如表和列的描述)、提供自然語言搜索能力 (例如,搜索 "顯示中國地區包含 PII 的客戶表"),并主動推薦數據洞察。

●智能化 (Intelligent):Dataplex 不僅僅是元數據的存儲庫,它通過構建一個 "知識引擎" (Knowledge Engine),分析查詢歷史、元數據和數據剖析結果,自動推斷數據間的關系和業務語義。這為 AI Agent 提供了可靠的上下文,確保其生成的結果既準確又可信。

Agentic AI: 開啟數據交互的新紀元

為了進一步解放數據團隊的生產力,并讓數據洞察惠及企業中的每一個人,Google Cloud 引入了 "Agentic AI" 的理念,推出了一系列Data Agents。您可以將這些智能體想象成一個為您每個數據角色配備的 "智能副駕" 或 "數字專家團隊"。他們不是簡單地執行命令,而是能理解您的意圖,主動協作并自動化完成整個數據生命周期中的復雜工作。

這些強大 Agent 的背后,是 Dataplex 中一個關鍵的大腦——知識引擎 (Knowledge Engine)。這是 Dataplex Universal Catalog 中的一個核心模塊,其根本任務是將靜態的元數據記錄,轉變為一個動態的、具備上下文感知的 "知識網絡" (living, context-aware knowledge fabric)。

它不再是被動地存儲元數據,而是主動地分析和連接來自整個 Google Cloud 數據與 AI 技術棧的信號。它所 "消化" 的輸入包括:

●來自Data Profile的模式分布和統計數據。

●來自Data Quality的有效性和新鮮度結果。

●來自Business Glossary的企業術語定義。

●以及數據血緣 (Lineage)、查詢日志 (Usage histories)和元數據注解。

知識引擎將來自BigQuery、Spanner、AlloyDB、Cloud SQL、Vertex AI 和 Looker的信息編織在一起,構建了一個覆蓋從事務型數據庫到分析型倉庫,再到 AI 模型的全景圖。

最終,它構建出一個動態的企業 "知識圖譜"。這使 Dataplex 從一個靜態的資產注冊表 (static registry)進化為一個動態的關系構建者 (dynamic relationship builder)。這個知識圖譜的核心目的,就是為 Agentic AI 提供必要的 "錨定" 上下文 (grounding context)。

知識引擎通過以下方式,將 Data Agents 從 "工具" 提升為 "伙伴":

●提供準確的上下文:當 Agent 接收到一個模糊的請求,如 "分析上季度的客戶流失情況" 時,知識引擎會提供必要的上下文: 它知道哪些表是 "客戶主數據",哪個字段代表 "最后活躍日期",以及業務上如何定義 "流失"。這為 Agent 的行動提供了堅實的基礎,有效避免了 AI 模型常見的 "幻覺" 問題,確保其響應是基于事實的。

●實現復雜的推理:基于知識圖譜,Agent 能夠理解并執行跨領域、多步驟的復雜任務。例如,用戶可以提出 "找出在最近一次營銷活動中,對高利潤產品反應最積極的客戶群體,并分析他們的共同特征",Agent 能夠自主地關聯營銷、銷售和產品數據,完成這一系列復雜的分析。

●確保內置的安全性與合規性:由于知識引擎本身就是 Dataplex 治理框架的一部分,它對所有數據安全策略 (如 IAM 策略、PII 標識) 都有全面的認知。因此,當一個業務分析師嘗試查詢包含敏感客戶信息的字段時,即使他沒有明確意識到,Agent 也會在生成結果前自動應用數據脫敏規則,只展示聚合后的、符合隱私政策的數據。這實現了安全于無形,讓數據民主化與合規性并行不悖。

有了知識引擎的加持,Data Agents 才能真正發揮其潛力:

●Data Engineering Agent:過去,數據工程師可能需要幾天時間編寫和調試復雜的 Spark 作業。現在,他們只需告訴 Agent: "將 Salesforce 的客戶數據和 SAP 的訂單數據進行合并,按季度聚合銷售額,并將結果加載到 BigQuery 的 'quarterly_sales' 表中",Agent 就能自動生成、優化并執行整個數據管道。

●Data Science Agent:數據科學家不再需要手動進行繁瑣的探索性數據分析 (EDA) 和特征工程。他們可以指示 Agent: "針對這份客戶數據,進行 EDA 分析,找出與客戶流失最相關的特征,并構建一個初步的預測模型",Agent 將自動完成數據可視化、特征選擇和模型訓練,并返回一份詳盡的報告。

●Conversational Analytics Agent:業務用戶能以對話的方式探索數據、獲取洞察、進行根本原因分析甚至預測未來趨勢,真正實現數據的全民化。例如,銷售總監可以直接在聊天界面中提問: "對比上個季度,我們哪個產品的銷售額增長最快?根本原因是什么?"Agent 會自動查詢數據、分析趨勢并給出基于數據的合理解釋。

這些植根于可信知識的 Agent,標志著人與數據交互方式的一次革命性飛躍。

結論: 構建面向未來的數據戰略

Google Cloud AI Lakehouse 提供了一個清晰的藍圖,幫助企業應對 AI 時代的復雜數據挑戰。它通過一個統一、開放、智能和 Agentic的平臺,不僅解決了當前的數據孤島和治理難題,更為未來的創新奠定了堅實的基礎。

在這個 AI 決定未來的時代,您的數據戰略就是您的 AI 戰略。選擇正確的平臺,將不再是讓數據服務于工具,而是讓智能服務于業務的每一個角落。選擇 Google Cloud AI Lakehouse,意味著您選擇的不僅是一個解決當下數據問題的平臺,更是一個能夠與您的 AI 雄心共同成長、不斷進化的智能基礎。它將幫助您在 AI 時代,始終領先一步。與其讓數據復雜性定義您的業務邊界,不如讓 Google Cloud AI Lakehouse 成為您創新的起點。是時候打破壁壘,擁抱智能,與我們一起構建您的 AI 未來。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • Google
    +關注

    關注

    5

    文章

    1807

    瀏覽量

    60510
  • AI
    AI
    +關注

    關注

    91

    文章

    39755

    瀏覽量

    301350
  • 模型
    +關注

    關注

    1

    文章

    3751

    瀏覽量

    52099

原文標題:超越孤島,賦能智能: Google Cloud AI Lakehouse 如何重塑您的數據未來

文章出處:【微信號:Google_Developers,微信公眾號:谷歌開發者】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    昆侖天工Skywork與Google Cloud深度合作發布桌面級Agent

    天工 Skywork 如何通過 Google 的 Gemini 3 模型家族,并結合 Google Distributed Cloud (GDC) 混合云架構,成功構建面向 Windo
    的頭像 發表于 02-25 10:17 ?434次閱讀

    NVIDIA Nemotron如何助力企業構建專業AI智能體

    隨著代理式 AI 的日益普及,開源模型與工具日趨成熟,各行業企業都在思考:我們該構建怎樣的 AI 智能體來解決自身獨特的業務挑戰?
    的頭像 發表于 12-13 09:14 ?803次閱讀

    Anthill Cloud:以AI、模塊化內容與全渠道互動重塑醫藥營銷

    ? 丹麥哥本哈根2025年11月3日 /美通社/ -- 生命科學行業領先的卓越內容與技術合作伙伴Anthill宣布推出Anthill Cloud?,這一創新平臺將AI、模塊化內容與個性化互動融合
    的頭像 發表于 11-03 20:14 ?677次閱讀
    Anthill <b class='flag-5'>Cloud</b>:以<b class='flag-5'>AI</b>、模塊化內容與全渠道互動重塑醫藥營銷

    vivo攜手Google Cloud推動智能手機邁入AI新時代

    在人們期待更智能、更前瞻手機的時代,vivo 攜手 Google Cloud,迅速推出更安全、更前沿的 AI 功能,共同加速創新,推動智能手機邁入智能、無縫、以人為本的 AI 新時代。
    的頭像 發表于 09-23 16:54 ?1451次閱讀

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI未來:提升算力還是智力

    、浪費資源與破壞環境 二、用小模型代替大模型 1、強化學習 2、指令調整 3、合成數據 三、終身學習與遷移學習 1、終身學習 終身學習是一種模仿人類行為的AI算法,旨在構建一種能不斷適應新環境、在不斷接收
    發表于 09-14 14:04

    Google Cloud展示一系列前沿技術更新

    在 2025 Google 谷歌開發者大會上,Google Cloud 展示了一系列前沿技術更新——不僅是模型升級,更是智能體、創意、行業應用的全面進化。這些前沿技術,正為出海開發者提供強大的技術支撐,助力他們打造面向全球用戶的
    的頭像 發表于 08-29 09:38 ?1136次閱讀

    加速AI未來,睿海光電800G OSFP光模塊重構數據中心互聯標準

    在人工智能算力需求呈指數級增長的2025年,數據傳輸效率已成為制約AI發展的關鍵瓶頸。作為全球AI光模塊領域的標桿企業,深圳市睿海光電憑借技術領先的800G OSFP光模塊解決方案,正
    發表于 08-13 16:38

    AI未來,屬于那些既能寫代碼,又能焊電路的“雙棲人才”

    AI未來,屬于那些既能寫代碼,又能焊電路的“雙棲人才”——來自WAIC 2025的一線觀察2025年7月,上海世博中心,**第七屆世界人工智能大會(WAIC 2025)**上,我們看到一個格外清晰
    發表于 07-30 16:15

    【書籍評測活動NO.64】AI芯片,從過去走向未來:《AI芯片:科技探索與AGI愿景》

    問題請咨詢工作人員(微信:elecfans_666)。 AI芯片,從過去走向未來 四年前,市面上僅有的一本AI芯片全書在世界范圍內掀起一陣求知熱潮,這本暢銷書就是《AI芯片:前沿技術
    發表于 07-28 13:54

    NVIDIA推出AI平臺DGX Cloud Lepton

    CoreWeave、Crusoe、Firmus、Foxconn、GMI Cloud、Lambda、Nebius、Nscale、SoftBank Corp. 和 Yotta Data Services 為 DGX Cloud Lepton Marketplace 提供數以萬
    的頭像 發表于 05-22 09:42 ?979次閱讀

    Google推出全新Cloud WAN解決方案

    超過 25 年來,Google 一直在推動網絡技術的邊界,其創新連接了全球數十億用戶使用 Gmail、YouTube 和 Search 等核心服務。這一切的基礎是 Google 龐大的骨干網絡。憑借
    的頭像 發表于 05-14 16:48 ?1428次閱讀

    NetApp與Google Cloud合作,簡化云端高性能工作負載的擴展

    降低了云端存儲工作負載的復雜性并提升了其性能,同時還能完全集成到Google Cloud服務生態系統中。客戶將能夠輕松擴展高性能的企業應用程序和數據庫,包括擁有PB級
    的頭像 發表于 04-10 16:48 ?635次閱讀

    是德科技推出AI數據中心構建

    是德科技(NYSE:KEYS)推出Keysight AI (KAI)數據中心構建器,這是一款先進的軟件套件,通過模擬真實工作負載來評估新算法、組件和協議對AI訓練性能的影響。KAI
    的頭像 發表于 04-07 11:06 ?997次閱讀

    Oracle 與 NVIDIA 合作助力企業加速代理式 AI 推理

    Oracle 數據庫與 NVIDIA AI 相集成,使企業能夠更輕松、快捷地采用代理式 AI ? ? ? 美國加利福尼亞州圣何塞 —— GTC? —— 2025 年 3 月 18 日
    發表于 03-19 15:24 ?577次閱讀
    Oracle 與 NVIDIA 合作助力<b class='flag-5'>企業</b>加速代理式 <b class='flag-5'>AI</b> 推理

    請問NanoEdge AI數據集該如何構建

    我想用NanoEdge來識別異常的聲音,但我目前沒有辦法生成模型,我感覺可能是數據集的問題,請問我該怎么構建數據集?或者生成模型失敗還會有哪些原因?
    發表于 03-10 08:20