黑人精品伊人久久久大香线蕉,99久久国产精品永久免费,亚洲国产精品日韩一区二区

Polars 近日發(fā)布了一款由 RAPIDS cuDF 驅(qū)動的全新 GPU 引擎，該引擎可將 NVIDIA GPU 上的 Polars 工作流速度最高提速 13 倍，使數(shù)據(jù)科學家僅在一臺機器上就能實現(xiàn)在數(shù)秒內(nèi)處理數(shù)億行數(shù)據(jù)。

日新月異的數(shù)據(jù)挑戰(zhàn)

Pandas 等傳統(tǒng)數(shù)據(jù)處理庫均為單線程，當處理數(shù)據(jù)超過數(shù)百萬行時就會顯得“力不從心”。分布式數(shù)據(jù)處理系統(tǒng)雖然可以處理數(shù)十億行數(shù)據(jù)，但又會增加處理中小型數(shù)據(jù)集的復雜程度和經(jīng)費開支。

在高效處理數(shù)千萬至數(shù)億行數(shù)據(jù)的工具之間一直存在著差距。這類工作負載常見于金融、零售、制造等行業(yè)的模型開發(fā)、需求預測和物流中。

在面向數(shù)據(jù)科學家和工程師的 Python 庫中，Polars 的增長速度位居前列，其設計初衷就是為了應對這些挑戰(zhàn)。該程序庫使用了先進的查詢優(yōu)化技術(shù)，以減少不必要的數(shù)據(jù)移動和處理，使數(shù)據(jù)科學家可以僅用一臺機器就能流暢地處理數(shù)億行規(guī)模的工作負載。Polars 彌補了單線程解決方案速度過慢和分布式系統(tǒng)會增加非必要復雜性的缺陷，提供了一個極具吸引力的“中等規(guī)模”數(shù)據(jù)處理解決方案。

將 NVIDIA 加速計算引入 Polars

與其他僅使用 CPU 的數(shù)據(jù)處理工具相比，Polars 利用多線程執(zhí)行、高級內(nèi)存優(yōu)化和惰性求值（lazy evaluation）功能，可顯著提升開箱即用的加速性能。

但由于各行各業(yè)的企業(yè)面臨日益增長的數(shù)據(jù)處理需求，例如需要分析數(shù)十億筆金融交易、管理復雜的庫存系統(tǒng)等，都需要更加強大的性能。這時就該輪到加速計算發(fā)揮作用了：

cuDF 是 NVIDIA CUDA-X 加速庫中的 RAPIDS 套件的一部分，它是一個由 GPU 提供加速的 DataFrame 程序庫，能夠利用 GPU 的大規(guī)模并行處理能力顯著提高數(shù)據(jù)處理性能。

Polars 團隊與 NVIDIA 一起將 cuDF 的速度與 Polars 的效率相結(jié)合，使性能最高提速至在 CPU 上 Polars 的 13 倍。如此，即便用戶的數(shù)據(jù)處理工作量增長到數(shù)億甚至數(shù)十億行數(shù)據(jù)，依然能夠保持交互。

圖 1.圖中所示的是 PDS-H 基準測試 22 個查詢中加速幅度最大的 4 個查詢。在運行包含眾多復雜分組和連接操作的查詢時，RAPIDS cuDF 驅(qū)動的 Polars GPU 引擎的速度提速至 CPU 上 Polars 的 13 倍。

PDS-H基準測試規(guī)模系數(shù) 80 | GPU：NVIDIA H100 | CPU：英特爾 Xeon W9-3495X（Sapphire Rapids） | 存儲：本地NVMe。備注：PDS-H 源自 TPC-H，但這些結(jié)果與 TPC-H 的結(jié)果不具有可比性。

由于 Polars GPU 引擎直接內(nèi)置在 Polars Lazy API 中，用戶只需通過 pip 安裝 polars[gpu] 并將 [engine=”gpu”] 發(fā)送至 collect 操作，即可將 GPU 加速應用于他們的工作流。在后臺，Polars 會嘗試首先在 GPU 上執(zhí)行操作，必要時再返回 CPU。這種方法可確保：

通過使用 Polars 的查詢優(yōu)化器，實現(xiàn)高效執(zhí)行和最低內(nèi)存使用

用戶無須修改現(xiàn)有 Polars 代碼，即可訪問 GPU 引擎

完全兼容 Polars 不斷發(fā)展的數(shù)據(jù)可視化、I/O 和機器學習庫生態(tài)系統(tǒng)

pip install polars[gpu] --extra-index-url=https://pypi.nvidia.com
 
import polars as pl
 
(transactions
 .group_by("CUST_ID")
 .agg(pl.col("AMOUNT").sum())
 .sort(by="AMOUNT", descending=True)
 .head()
 .collect(engine="gpu"))

結(jié)語

RAPIDS cuDF 驅(qū)動的 Polars GPU 引擎現(xiàn)已發(fā)布公測版，為各行各業(yè)的數(shù)據(jù)科學家和工程師提供了一種適用于中等規(guī)模數(shù)據(jù)處理的強大工具。該引擎最高能夠?qū)?NVIDIA GPU 上的 Polars 工作流速度提速 13 倍，可以在不產(chǎn)生分布式系統(tǒng)開銷的情況下，高效處理數(shù)億行規(guī)模的數(shù)據(jù)集。Polars GPU 引擎直接內(nèi)置在 Polars API 中，使所有用戶都能輕松訪問。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴