實現更快的數據湖分析及簡化數據發現和洞察
Amazon S3 Tables為分析工作負載提供了快達3倍的查詢性能,高達10倍的每秒事務處理量;Amazon S3 Metadata提供可查詢的對象元數據,實現近乎實時的搜索、管理和增強數據,加速數據發現。
北京2024年12月17日 /美通社/ -- 亞馬遜云科技在2024 re:Invent全球大會上,宣布推出Amazon Simple Storage Service(Amazon S3)新功能,使Amazon S3成為首個完全托管的支持Apache Iceberg云上對象存儲,進一步提升了數據分析速度,并提供存儲和管理任何規模表格數據的極簡單方式。新功能還包括自動生成可查詢的元數據,簡化數據發現與理解,助力客戶充分挖掘Amazon S3中的數據價值。
Amazon S3 Tables是首個內置Apache Iceberg表支持的云上對象存儲,推出了一種新型存儲桶,以Iceberg表的形式優化存儲和表數據查詢,查詢速度最高可提升3倍,每秒事務處理量(TPS)可提高10倍,并自動化分析工作負載的表格維護。
Amazon S3 Metadata通過自動捕獲可查詢的對象元數據以及使用對象標簽的自定義元數據,將其存儲于Amazon S3 Tables中來加速數據湖分析,可實現近乎實時的數據發現。
亞馬遜云科技存儲部門副總裁兼杰出工程師Andy Warfield表示:"Amazon S3作為領先的對象存儲,存儲了超過400萬億個對象,成為數百萬客戶的選擇。我們致力于不斷創新,以前所未有的規模消除處理數據的復雜性。隨著表格數據的快速增長,眾多客戶希望實現跨表查詢并提升查詢性能,更好地理解和組織大量數據,以便輕松找到他們所需要的信息。Amazon S3 Tables和Amazon S3 Metadata消除了在對象上組織和操作表格及元數據存儲的復雜性,使客戶能夠專注于數據構建。"
Amazon S3 Tables和Amazon S3 Metadata現已與Apache Iceberg表兼容,客戶可以使用亞馬遜云科技分析服務以及開源工具,包括Amazon Athena、Amazon QuickSight和Apache Spark,輕松查詢他們的數據。
Amazon S3 Table:以簡便快捷的方式執行Amazon S3中的Apache Iceberg表分析
如今,許多客戶都以表格數據來組織他們用于分析的數據,這些數據通常存儲在Apache Parquet 中,這是一種針對數據查詢進行優化的文件格式。Parquet已成為Amazon S3中增速最快的數據類型之一。客戶越來越多地希望能夠查詢這些不斷增長的表格數據集,他們通常會使用開放表格式(open table formats,OTF),這是一種以表格存儲數據的開源標準,有助于更有效地管理、更新和跟蹤大量數據的變化。Iceberg管理Parquet文件,已成為最流行的OTF??蛻羰褂肐ceberg處理包含PB乃至EB級數據的數十億文件。但隨著客戶規模的擴大,客戶管理Iceberg極具挑戰,往往需要專業的團隊來構建和維護系統,進行表維護、數據壓縮以及管理訪問控制。這些外部系統不僅成本高昂和復雜,同時還需要專業的團隊來維護,占用了企業諸多寶貴資源。
Amazon S3 Tables專為管理數據湖中的Apache Iceberg表構建。Amazon S3 Tables專門針對分析工作負載進行優化,與通用Amazon S3存儲桶相比,提供了高達3倍的查詢性能和10倍的每秒事務處理量(TPS)。Amazon S3 Tables能夠自動管理表維護任務,包括為更好的查詢性能而進行的壓縮,以及快照管理,隨著客戶數據湖的不斷擴展和演進,實現對查詢性能和存儲成本進行的持續優化??蛻魞H需創建一個表存儲桶,即可使用S3 Tables優化存儲和查詢完全托管的Iceberg表中的數據。借助Amazon S3 Tables,客戶可受益于Iceberg的諸多功能,如行級事務處理、通過時間旅行功能查詢快照以及模式演進等。此外,Amazon S3 Tables還提供了表級訪問控制,讓客戶精準能夠定義數據訪問權限。
Genesys是全球領先的AI驅動體驗編排服務商,正計劃使用Amazon S3構建數據湖。借助Amazon S3 Tables對托管Iceberg的支持,Genesys希望為其多元化的數據分析需求構建一個材料化視圖層。Amazon S3 Tables內置對Iceberg表的支持將極大簡化復雜的數據工作流程,通過自動執行關鍵維護任務,如表壓縮、快照管理以及未引用文件的清理等。Genesys期待能從兼容Iceberg的分析工具中獲得性能提升和廣泛支持,這些工具可直接從Amazon S3中讀寫Iceberg表。Amazon S3 Tables將成為Genesys未來數據戰略的基石,幫助Genesys提供更快、更靈活、更可靠的數據洞察,以支持其AI驅動的客戶和員工體驗解決方案。
Amazon S3元數據:更輕松、快捷地探索和理解Amazon S3中的數據
隨著越來越多的客戶將Amazon S3作為其中央數據存儲庫,數據量與數據種類呈指數級增長。元數據作為理解和組織海量數據的一種方式變得越來越重要,以便客戶能夠找到他們所需的確切對象。為有效應對這一挑戰,許多客戶不得不構建并維護復雜的元數據獲取與存儲系統,來深化他們對數據的認知。但這些元數據系統不但成本高昂、耗時,而且資源密集,通常需要數據工程師在元數據流經處理管道時,手動跟蹤和更新元數據;同時,還要求數據分析師手動遍歷海量的對象存儲,以找到用于分析和AI/ML數據處理工作流所需的特定數據。
Amazon S3 Metadata能夠近乎實時地自動生成可查詢的對象元數據,從而加速數據發現并提升數據理解能力,幫助客戶消除構建和維護復雜元數據系統的負擔。借助Amazon S3 Metadata,客戶可以查詢、發現并使用數據,以支持業務分析、實時推理應用等。Amazon S3 Metadata能夠自動生成對象元數據,包括系統定義的詳情,如對象的大小和來源,并可通過新的Amazon S3 Tables進行查詢。隨著對象的增加或刪除,Amazon S3 Metadata會實時更新Amazon S3 Tables中的對象元數據,確??蛻臬@得最新的數據視圖。客戶還可以使用對象標簽添加自定義元數據,為對象注釋特定的業務信息,如產品SKU、交易ID、內容評級或客戶詳細信息。客戶還可以通過簡單的SQL查詢輕松檢索元數據,快速查找和準備數據,以支持業務分析、實時推理應用、基礎模型微調、檢索增強生成(RAG)、數據倉庫與分析工作流集成,以及執行有針對性的存儲優化任務等。
各種規模的企業都將受益于Amazon S3 Metadata的數據發現和理解。領先的生物技術公司羅氏(Roche),計劃借助Amazon S3 Metadata加速其未來生成式AI計劃。隨著羅氏對先進大型語言模型(LLM)應用的開發,如復雜的內部聊天機器人,羅氏預計其用于檢索增強生成(RAG)的非結構化數據量將面臨成倍增長。Amazon S3 Metadata將簡化可擴展元數據系統的構建,自動為新數據的攝入生成并更新元數據。Roche期望通過定制的Lambda函數提取復雜的、特定于業務的元數據,并將其與Amazon S3 Metadata無縫集成到綜合Amazon Glue目錄中。這將讓企業更有效率,并快速識別可為前沿AI應用提供支持的相關數據集,讓羅氏聚焦于個性化醫療領域的突破性創新。
Cambridge Mobile Telematics (CMT) 是全球最大的遠程信息處理服務提供商。該公司從設備收集傳感器數據,并使用上下文數據對其進行增強,從而創建車輛與駕駛員行為統一的視圖,供汽車保險公司、汽車制造商、商業移動公司以及公共部門用于支持風險評估、安全、理賠和駕駛員改進計劃。CMT存儲并分析來自全球數百萬物聯網設備的多PB級數據。隨著公司規模的擴大,為提出新見解和開發新模型而定位特定數據變得越來越有挑戰性。借助Amazon S3 Metadata(包括系統元數據和自定義元數據),CMT能夠查詢PB級元數據,使查找相關數據變得簡單且經濟高效。
Amazon S3 Tables現已正式可用,Amazon S3 Metadata現推出預覽版。Amazon S3 Tables與Amazon Glue Data Catalog集成現已預覽可用,客戶可使用亞馬遜云科技的分析服務(如Amazon Athena、Amazon Redshift、Amazon EMR 和Amazon QuickSight)對包括Amazon S3 Metadata Tables在內的數據進行查詢和可視化操作。
審核編輯 黃宇
-
AI
+關注
關注
91文章
40579瀏覽量
302213 -
對象存儲
+關注
關注
0文章
69瀏覽量
12485 -
亞馬遜
+關注
關注
8文章
2733瀏覽量
85856
發布評論請先 登錄
亞馬遜云科技推出兩項Amazon Lambda新功能 進一步應對復雜應用場景
亞馬遜云科技Amazon S3重磅更新 引領企業云存儲未來方向
亞馬遜云科技擴展模型選擇 Amazon Bedrock新增18款開放權重模型
亞馬遜云科技推出全新的Amazon AI Factories 將客戶現有基礎設施轉化為高性能AI環境
Amazon Connect發布多項Agentic AI新功能 打造無縫客戶體驗
亞馬遜云科技上線Amazon Nova多模態嵌入模型
亞馬遜云科技Amazon Bedrock AgentCore正式可用,引領Agent走向全面落地
亞馬遜云科技推出Amazon Quick Suite,引領Agentic AI驅動的工作新范式
亞馬遜云科技在中國區域推出Amazon Graviton4實例 以自研芯片驅動企業算力升級
亞馬遜云科技推出Amazon DocumentDB Serverless,簡化數據庫管理并大幅節省成本
亞馬遜云科技現已上線OpenAI開放權重模型
亞馬遜云科技推出Amazon Nova Act SDK預覽版,加速瀏覽器自動化Agent落地
NVIDIA Dynamo新增對亞馬遜云科技服務的支持
亞馬遜云科技在2025紐約峰會發布多項AI agent創新
亞馬遜功能最強模型Amazon Nova Premier現已正式可用
亞馬遜云科技推出Amazon S3新功能
評論