国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

使用NVIDIA RAPIDS cuDF加速預處理工作流

NVIDIA英偉達 ? 來源:NVIDIA英偉達 ? 2024-11-19 15:58 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文屬于《解碼 AI》系列欄目,該系列的目的是讓技術更加簡單易懂,從而解密 AI,同時向 RTX 工作站和 PC 用戶展示全新硬件、軟件、工具和加速特性。

AI 正幫助各行各業推動創新和提高效率,但要充分發揮其潛力,必須基于海量的高質量數據對各種模型進行訓練。數據科學家在準備這類數據方面發揮著關鍵作用,在專業數據(通常為專有數據)對于增強 AI 功能至關重要的特定領域尤其如此。

為了幫助數據科學家應對日益增長的工作負載需求,NVIDIA 發布了 RAPIDS cuDF 庫,以便用戶更輕松地處理數據,并且無需更改代碼即可加速 pandas 軟件庫。Pandas 是面向 Python 的一個靈活、功能強大的熱門數據分析和處理庫。借助 cuDF,數據科學家現在可以在他們首選的代碼庫上全速運行數據處理。

NVIDIA RTX AI 硬件和技術也可以加速數據處理。這包括強大的 GPU,可提供在各個層面快速高效地加速 AI 所需的計算性能 — 從數據科學工作流到 PC 和工作站上的模型訓練和定制。

數據科學的瓶頸

最常用的數據格式是按行和列組織的表格數據。小型數據集可以使用 Excel 等電子表格工具進行管理,但是,包含數千萬行的數據集和建模工作流通常依賴于采用了例如 Python 等編程語言的 DataFrame 程序庫。

Python 是進行數據分析時的熱門選擇,主要是因為 pandas 庫采用易于使用的應用編程接口(API)。然而,隨著數據集的規模不斷增長,pandas 在純 CPU 系統中難以實現理想的處理速度和效率。該庫在處理文本密集型數據集時的性能也為人所詬病,而對大語言模型來說,這是一種重要的數據類型。

當數據需求超出 pandas 的能力時,數據科學家會面臨兩難境地:要么忍受緩慢的處理速度,要么采取復雜且成本高昂的措施,即轉而采用更高效但對用戶不夠友好的工具。

使用 RAPIDS cuDF加速預處理工作流

RAPIDS cuDF 配合 RTX AI PC 和工作站,可為熱門的 pandas 軟件庫提供最高達 100 倍加速

借助 RAPIDS cuDF,數據科學家現在可以在他們首選的代碼庫上全速運行數據處理。RAPIDS 是一套開源 GPU 加速的 Python 庫,旨在改進數據科學和分析工作流。cuDF 是一個 GPU DataFrame 庫,可提供類似于 pandas 的 API 來加載、過濾和操作數據。

使用 cuDF 的“pandas 加速器模式”,數據科學家可以在 GPU 上運行現有的 pandas 代碼,充分利用強大的并行處理功能,并可放心的將代碼在必要時移植到 CPU 上。這種互通性提供了出色、可靠的性能。

最新版本的 cuDF 支持更大規模的數據集和數十億行的表格文本數據。這樣,數據科學家就能夠使用 pandas 代碼來預處理生成式 AI 的數據。

在 NVIDIA RTX 加持的 AI 工作站

和 PC 上加速數據科學

最近的一項研究表明,57% 的數據科學家使用 PC、臺式機或工作站等本地資源來執行數據科學任務。

從 NVIDIA GeForce RTX 4090 GPU 開始,數據科學家可以實現顯著的速度提升。隨著數據集規模不斷增長,處理工作占用更多內存,相比于基于傳統 CPU 的解決方案,在工作站中配合使用 cuDF 和 NVIDIA RTX 5880 Ada 架構 GPU,可以將性能提升多達 100 倍。

ea062c2c-9ffd-11ef-93f3-92fbcf53809c.png

y 軸表示兩種常見的數據科學操作—“join”和“groupby”,而 x 軸顯示運行每項操作所需的時間

數據科學家可以在 NVIDIA AI Workbench 上輕松開始使用 RAPIDS cuDF。利用這個基于容器的免費開發者環境管理器,數據科學家和開發者可以跨 GPU 系統創建、遷移 AI 和數據科學工作負載并進行協作。用戶可以從 NVIDIA GitHub 倉庫中提供的幾個示例項目開始,例如 cuDF AI Workbench 項目。

HP AI Studio 也默認支持 cuDF,這是一個集中式數據科學平臺,旨在幫助 AI 開發者將其開發環境從工作站無縫復制到云端。這便于他們創建、開發項目并進行協作,而無需管理多個環境。

在 RTX 加持的 AI PC 和工作站上,cuDF 的優勢并不僅限于提升原始性能。還包括:

在強大的 GPU 上進行固定成本的本地開發,并可以無縫復制到本地部署的服務器或云實例,從而節省時間和支出。

加快數據處理以實現更快迭代,以便數據科學家以交互式的速度進行實驗、優化并從數據集中產生洞察。

實現更有效的數據處理,以在后續工作流獲得更好的模型結果。

數據科學的新時代

隨著 AI 和數據科學的不斷發展,快速處理和分析大量數據集的能力將成為各行業實現突破的關鍵差異化因素。無論是開發復雜的機器學習模型、執行復雜的統計分析還是探索生成式 AI,RAPIDS cuDF 都可為新一代數據處理奠定基礎。

NVIDIA 正通過增加對最熱門的 DataFrame 工具的支持來鞏固這一基礎,其中包括 Polars,它是增長最快的 Python 庫之一,與其他開箱即用的純 CPU 工具相比,可幫助顯著加速數據處理。

Polars 本月宣布推出由 RAPIDS cuDF 提供支持的 Polars GPU 引擎公開測試版。Polars 用戶現在可以將本已極快的 DataFrame 庫性能提升多達 13 倍。

RTX AI 為未來的工程師創造無限可能

無論在大學數據中心、GeForce RTX 筆記本電腦還是 NVIDIA RTX 工作站上運行,NVIDIA GPU 都可加速學習過程。數據科學領域及其他領域的學生將增強其學習體驗,并通過廣泛應用于現實世界應用的硬件獲得實戰經驗。

生成式 AI 正在深入改變游戲、視頻會議和各種交互體驗。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5594

    瀏覽量

    109754
  • AI
    AI
    +關注

    關注

    91

    文章

    39793

    瀏覽量

    301446
  • 工作流
    +關注

    關注

    0

    文章

    45

    瀏覽量

    12906

原文標題:解密 AI 如何加速數據科學工作流

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    虛幻引擎5在建筑可視化中的應用:趨勢、挑戰與基于Perforce P4的工作流

    UE5正在重塑建筑可視化:實時交互、AI輔助、BIM聯動......技術紅利已來,工作流卻拖了后腿?這篇干貨解析了趨勢和痛點,更揭秘了如何用Perforce P4打造高效的UE5工作流
    的頭像 發表于 02-27 15:26 ?262次閱讀
    虛幻引擎5在建筑可視化中的應用:趨勢、挑戰與基于Perforce P4的<b class='flag-5'>工作流</b>程

    利用NVIDIA Nemotron開放模型構建智能文檔處理系統

    基于 NVIDIA Nemotron 開放模型的 AI 驅動文檔智能,增強科學研究、金融和法律等領域工作流
    的頭像 發表于 02-25 11:21 ?405次閱讀

    生命科學領先企業采用 NVIDIA BioNeMo 平臺加速 AI 驅動的藥物研發

    —— NVIDIA 近日宣布對 NVIDIA BioNeMo? 進行重大擴展, 將通過一個開放式開發平臺支持實現實驗室閉環(lab-in-the-loop)工作流,以推動 AI 驅動的
    的頭像 發表于 01-14 11:40 ?476次閱讀
    生命科學領先企業采用 <b class='flag-5'>NVIDIA</b> BioNeMo 平臺<b class='flag-5'>加速</b> AI 驅動的藥物研發

    NVIDIA RTX PRO 5000 Blackwell GPU的深度評測

    NVIDIA RTX PRO 5000 Blackwell 是 NVIDIA RTX 5000 Ada Generation 的升級迭代產品,其各項核心指標均針對 GPU 加速工作流
    的頭像 發表于 01-06 09:51 ?2330次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 Blackwell GPU的深度評測

    數據預處理軟核加速模塊設計

    數據拼接操作,其預處理模塊結構框圖如下圖 模塊最后得到的信號為ddr_q、ddr_clk和ddr_wrreq。ddr_q是并行128bits圖像數據,ddr_clk是RAM的出口時鐘,同時引出作為下一模塊的數據時鐘,ddr_wrreq置高時代表有效數據。
    發表于 10-29 08:09

    NVIDIA RAPIDS 25.06版本新增多項功能

    RAPIDS 是一套面向 Python 數據科學的 NVIDIA CUDA-X 庫,最新發布的 25.06 版本引入了多項亮眼新功能,其中包括 Polars GPU 執行引擎——這是一種面向圖
    的頭像 發表于 09-09 09:54 ?1067次閱讀

    MATLAB 助力香港中文大學解決生物醫學圖像處理挑戰

    Processing Toolbox? 加速了生物醫學圖像處理工作流程。借助 MathWorks 的軟件,研究人員高效地對萬億體素級別的圖像進行了分割和分析,以往這些任務需要高端計算基礎設施和大量手動編程
    的頭像 發表于 08-28 15:07 ?610次閱讀

    NVIDIA在Hot Chips 2025大會展示創新技術

    本周在加利福尼亞州帕洛阿爾托(Palo Alto)舉行的 Hot Chips 大會上,NVIDIA 專家詳細介紹了 NVIDIA NVLink 和Spectrum-X 以太網技術、Blackwell 以及 CUDA 如何為全球數百萬的 AI
    的頭像 發表于 08-27 12:52 ?1925次閱讀

    鋰電池制造 | 電芯預處理工藝的步驟詳解

    電芯預處理是鋰電池包制造的首要工序,無論是新能源汽車的續航穩定性,還是儲能系統的循環壽命,其根基都可追溯至預處理工序對電芯一致性的把控,其核心在于通過系統檢測與篩選消除量產電芯的性能差異,為后續組裝
    的頭像 發表于 08-11 14:53 ?1541次閱讀
    鋰電池制造 | 電芯<b class='flag-5'>預處理工</b>藝的步驟詳解

    使用NVIDIA Cosmos模型提高未來智能汽車安全性

    本文是洞悉 Omniverse 系列文章。“洞悉 Omniverse” 重點介紹開發者、3D 從業者與企業如何使用 OpenUSD 和 NVIDIA Omniverse 的最新進展深入改變他們的工作流
    的頭像 發表于 07-14 11:46 ?1170次閱讀

    高效地擴展Polars GPU Parquet讀取器

    處理大型數據集時,數據處理工具的性能至關重要。Polars 作為一個以速度和效率著稱的開源數據處理庫,它提供了由 cuDF 驅動的 GPU 加速
    的頭像 發表于 04-21 17:12 ?910次閱讀
    高效地擴展Polars GPU Parquet讀取器

    非技術人員如何用n8n + DeepSeek打造AI自動化工作流

    作者:算力魔方創始人/英特爾創新大使劉力 本文從零開始介紹使用n8n和DeepSeek快速實現一個AI Agent,全自動實現一個Python代碼的生成和執行工作流。 一,什么是n8n? n8n
    的頭像 發表于 04-09 14:28 ?8440次閱讀
    非技術人員如何用n8n + DeepSeek打造AI自動化<b class='flag-5'>工作流</b>?

    NVIDIA虛擬GPU 18.0版本的亮點

    生產力、安全性和性能。新版軟件可幫助企業和開發者進一步推動創新、改變工作流并更大限度地發揮加速計算的潛力。
    的頭像 發表于 04-07 11:28 ?1436次閱讀

    FPGA Verilog HDL語法之編譯預處理

    Verilog HDL語言和C語言一樣也提供了編譯預處理的功能。“編譯預處理”是Verilog HDL編譯系統的一個組成部分。Verilog HDL語言允許在程序中使用幾種特殊的命令(它們不是一般
    的頭像 發表于 03-27 13:30 ?1438次閱讀
    FPGA Verilog HDL語法之編譯<b class='flag-5'>預處理</b>

    NVIDIA加速的Apache Spark助力企業節省大量成本

    隨著 NVIDIA 推出 Aether 項目,通過采用 NVIDIA 加速的 Apache Spark 企業得以自動加速其數據中心規模的分析工作
    的頭像 發表于 03-25 15:09 ?1166次閱讀
    <b class='flag-5'>NVIDIA</b><b class='flag-5'>加速</b>的Apache Spark助力企業節省大量成本