借助適用于 Apache Spark 的 NVIDIA RAPIDS 加速器,團隊能夠更快處理數萬億條記錄,在降低成本的同時優化網絡并提高客戶滿意度。
AT&T 通過無線網絡連接了從阿留申群島到佛羅里達礁島群的 1 億多名用戶,催生出一片大數據海洋。
Abhay Dabholkar 管理著一個研究小組,他們如同閃耀的燈塔,在數據海洋中尋找最佳導航工具。
作為在 AT&T 工作十余年的杰出 AI 架構師,Dabholkar 表示:“我們可以使用新工具來改變在 AT&T 的日常工作,這一過程十分有趣,并且當我們為員工提供最新的核心工具時,他們會對自己的工作感到更滿意?!?/p>
近期,該團隊在 GPU 助力的服務器上測試了適用于 Apache Spark 的 NVIDIA RAPIDS 加速器,該軟件可將工作分配到集群中的各節點。
在本次測試中,僅 5 小時便處理完一個月的移動數據 - 2.8 萬億行信息。相較于先前的測試,速度提升 3.3 倍,而成本則降低 60%。
驚嘆時刻
Dabholkar 表示:“這真是令人驚嘆,因為在 CPU 集群上,僅處理 7 天的數據我們就需要耗費超過 48 小時的時間。過去盡管我們擁有數據,但卻無法充分利用,因為處理這些數據需要很長時間?!?/p>
具體而言,該測試對所謂的 ETL(即提取、轉換和加載流程)進行了基準測試,以便篩選出無用數據,然后再用篩選后的數據訓練 AI 模型,發現全新見解。
他還表示:“目前我們認為 GPU 可用于 ETL 以及我們在 Spark 中執行的所有批處理工作負載,因此我們正在探索其他 RAPIDS 庫,將工作從特征工程擴展到 ETL 和機器學習。”
目前 AT&T 在 CPU 服務器上運行 ETL,然后將數據轉移至 GPU 服務器進行訓練。他補充道,在單個 GPU 工作流中完成所有工作可以節省時間和成本。
提高客戶滿意度,加速網絡設計
時間和成本的節省在眾多用例中都有所體現。
例如,用戶可以更快獲取最佳連接,從而提高客戶滿意度并減少客戶流失率。Dabholkar 表示:“我們還能更快確定 5G 信號塔和天線的參數?!?/p>
負責監督 RAPIDS 測試的團隊高級成員 Chris Vo 表示,要確定在哪些 AT&T 光纖覆蓋區域推出支持卡車,需要進行耗時的地理空間計算,而 RAPIDS 和 GPU 可以加速這一過程。
Dabholkar 說:“這項技術給我們帶來極大影響,我們每天可能會收到 300-400TB 的新數據,先前需要耗費兩三周以上的時間制作報告,而現在只需幾小時便可完成?!?/p>
三個用例和統計結果
研究人員正在與 AT&T 數據平臺團隊成員分享他們的研究成果。
他說:“如果作業時間過長,且您擁有大量數據,我們建議您開啟 GPU ,并借助 Spark,讓在 CPU 上運行的代碼也可以在 GPU 上運行?!?/p>
目前為止,各個團隊在三個不同的用例中各有收獲;其他團隊也計劃著測試其工作負載。
Dabholkar 樂觀地表示,業務部門會將其測試結果引入生產系統中。
他說:“我們是一家擁有各類數據集的電信公司,每天都需要處理 PB 級數的數據,這種方法可以大大節省我們的時間和成本?!?/p>
此外,包括美國國家稅務局在內的其他企業用戶也紛紛選擇使用這項技術。現有超過 13000 家公司(包括 400 家《財富》500 強公司)使用 Apache Spark,這表明大多數公司都愿意選擇這種方式。
-
加速器
+關注
關注
2文章
839瀏覽量
40105 -
NVIDIA
+關注
關注
14文章
5594瀏覽量
109732 -
無線網絡
+關注
關注
6文章
1515瀏覽量
69019
發布評論請先 登錄
邊緣計算中的AI加速器類型與應用
NVIDIA推出NVQLink高速互連架構
亞馬遜云科技第三期創業加速器圓滿收官 助力初創釋放Agentic AI潛力 加速全球化進程
航裕電源以大電流技術為國內外超導加速器項目提供優質方案
NVIDIA RAPIDS 25.06版本新增多項功能
創客總部加入MathWorks加速器計劃
Microchip推出Adaptec? SmartRAID 4300 系列加速器 提供安全的可擴展 NVMe? RAID 存儲解決方案
高壓放大器在粒子加速器研究中的應用
面向半定制AI基礎架構的NVIDIA NVLink Fusion技術
NVIDIA加速的Apache Spark助力企業節省大量成本
小型加速器中子源監測系統解決方案
NVIDIA RAPIDS加速器可將工作分配集群中各節點
評論