国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

能夠0.052秒打開100GB數據的一個高性能Python庫

人工智能與大數據技術 ? 來源:開源最前線 ? 作者:開源最前線 ? 2021-05-20 11:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

當今的數據集越來越大,臺式機的內存甚至都裝不下,更不用說你的筆記本電腦了,盡管如此,在大數據時代,我們總是避免不了要使用大數據集,于是Vaex誕生了。

什么是Vaex?

Vaex是一個高性能Python庫,可以可視化和探索大型表格數據集,它可以在 N 維網格上計算每秒超過十億(10^9)個對象 / 行的統計信息,例如均值、總和、計數、標準差等, 磁盤上大小超過100GB的數據,用Vaex只需要0.052秒就可以打開。

使用直方圖、密度圖和三維體繪制完成可視化,從而可以交互式探索大數據。Vaex 使用內存映射、零內存復制策略獲得最佳性能(不浪費內存)。

Vaex具有以下功能特性:

基于Python數據科學站(例如Panda、Scikit-Learn、arrow、xgboost、lightgbm),標準API易于采用。為Jupyter環境量身定制。

電腦運算,結合了內存映射,復雜的表達系統和快速核外算法。有效地可視化和探索大型數據集,并在一臺機器上構建機器學習模型。

基準測試,每秒可視化10億個樣本。與標準實現相比,PCA轉換速度提高了10倍,可在2分鐘內處理10億個樣本。完全超出核心。

高效

Vaex不僅僅是Panda的替代品。盡管在執行諸如的表達式時,它具有類似于panda的API用于列訪問np.sqrt(ds.x**2 + ds.y**2),但不會進行任何計算。而是創建一個vaex表達式對象,并在打印輸出時顯示一些預覽值。

058df76e-b48d-11eb-bf61-12bb97331649.png

使用表達式系統,vaex僅在需要時執行計算。同樣,數據也不必是本地的:表達式可以通過發送的方式,統計信息可以遠程計算,這是vaex-server程序包提供的。

虛擬列

我們還可以將表達式添加到DataFrame中,從而生成虛擬列。虛擬列的行為類似于常規列,但不占用任何內存。Vaex在實列和虛列之間沒有區別,

059f9dca-b48d-11eb-bf61-12bb97331649.png

如果表達式在運行時真的很復雜怎么辦?通過使用Pythran或Numba,我們可以使用手動實時(JIT)編譯來優化計算。

05d81e48-b48d-11eb-bf61-12bb97331649.png

遠程數據幀甚至支持JIT版本的表達式,擔心RAM不夠?你還可以選擇以RAM為代價擠出額外的性能。

05e23234-b48d-11eb-bf61-12bb97331649.png

可視化

進行有意義的繪圖和可視化是了解數據的最佳方法。。但是,當你的DataFrame包含10億行時,制作標準散點圖不僅會花費很長時間,而且會導致毫無意義且難以理解的可視化。

讓我們看看這些想法的一些實際例子。我們可以使用直方圖可視化單個列的內容。

05ede08e-b48d-11eb-bf61-12bb97331649.png

可以將其擴展為兩個維度,從而生成熱圖。我們可以像典型的熱圖那樣簡單地計算落入每個樣本中,而不是計算平均值,取總和的對數或幾乎任何自定義統計量。

我們甚至可以使用ipyvolume進行3維體積渲染。

原文標題:0.052秒打開100GB數據!這個Python開源庫牛X了

文章出處:【微信公眾號:人工智能與大數據技術】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • python
    +關注

    關注

    57

    文章

    4876

    瀏覽量

    90041
  • 大數據
    +關注

    關注

    64

    文章

    9063

    瀏覽量

    143761

原文標題:0.052秒打開100GB數據!這個Python開源庫牛X了

文章出處:【微信號:TheBigData1024,微信公眾號:人工智能與大數據技術】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    高性能ADL5243:100 MHz至4000 MHz RF/IF數字控制VGA的設計與應用

    高性能ADL5243:100 MHz至4000 MHz RF/IF數字控制VGA的設計與應用 在當今高速發展的無線通信和射頻技術領域,高性能的可變增益放大器(VGA)是不可或缺的關鍵組件。今天,我們
    的頭像 發表于 01-15 09:10 ?241次閱讀

    國產高性能ONFI IP解決方案全解析

    )時代,數據存儲的吞吐量瓶頸日益凸顯,高性能的ONFI IP能夠確保大規模數據的高效存取,是SSD及先進存儲系統的核心技術基石。2. 奎芯科技 ONFI IP 的核心技術規格奎芯科技提
    發表于 01-13 16:15

    深度剖析LM5107:高性能100V/1.4 - A峰值半橋柵極驅動器

    深度剖析LM5107:高性能100V/1.4 - A峰值半橋柵極驅動器 在電源管理和功率轉換領域,柵極驅動器是至關重要的組件。今天我們要深入探討的是德州儀器(TI)的LM5107,
    的頭像 發表于 01-11 18:05 ?1093次閱讀

    加載”背后:場鴻蒙發起的“性能革命”

    最近,不少手持幾年前舊款華為設備的用戶驚訝地發現,次系統升級后仿佛被注入了新的活力:應用點就,頁面滑動流暢跟手,甚至快速下拉信息流時惱人的“小白塊”和轉圈等待的時間也大大減少。 日前
    的頭像 發表于 12-30 14:28 ?376次閱讀
    “<b class='flag-5'>秒</b>啟<b class='flag-5'>秒</b><b class='flag-5'>開</b><b class='flag-5'>秒</b>加載”背后:<b class='flag-5'>一</b>場鴻蒙發起的“<b class='flag-5'>性能</b>革命”

    炎核開源開放平臺上架推出OpenSparseBlas高性能稀疏計算

    在科學計算與工程仿真領域,高效處理大規模稀疏矩陣運算是提升整體計算效能的關鍵。為此,我們在炎核開源開放平臺上架推出 OpenSparseBlas——專為稀疏矩陣/向量計算而打造的高性能稀疏計算
    的頭像 發表于 12-15 15:18 ?639次閱讀

    文了解Mojo編程語言

    Mojo 是種由 Modular AI 公司開發的編程語言,旨在將 Python 的易用性與 C 語言的高性能相結合,特別適合人工智能(AI)、高性能計算(HPC)和系統級編程場景。
    發表于 11-07 05:59

    數據全復用高性能池化層設計思路分享

    大家好,本團隊此次分享的內容為可實現數據全復用高性能池化層設計思路,核心部分主要由以下3部分組成; 1.SRAM讀取模塊;——池化使用的存儲為SRAM 基于SRAM讀與寫時序,約束池化模塊讀與寫
    發表于 10-29 07:10

    華納云為游戲數據庫選擇高性能NVMe SSD存儲

    游戲數據庫對速度、可靠性和可擴展性有極高要求。隨著在線游戲的發展,開發者越來越依賴NVMe SSD存儲來提供服務器租用和服務器托管解決方案。本文將指導您了解為游戲數據庫選擇高性能NVMe SSD存儲
    的頭像 發表于 09-30 16:03 ?1078次閱讀

    RT-Thread Studio v2.2.9打開時無法選擇工作空間怎么解決?

    重新打開,依舊進入了軟件安裝目錄下的工作空間。 我在網絡上尋求這個問題的解決辦法,但是與當前版本的可配置選項完全不致,如果致則配置不生效,如修改文件內容的配置項。 需求總結 需要能夠
    發表于 09-29 07:46

    知乎開源“智能預渲染框架” 幾行代碼實現鴻蒙應用頁面“

    ,交互延遲等核心痛點,通過智能預測用戶瀏覽目標進行提前渲染,只需幾行代碼即可顯著提升復雜頁面的加載性能,實現“頁面”的高效體驗,為鴻蒙開發者帶來開發效率和用戶體驗的雙重飛躍。 隨著鴻蒙生態快速發展,應用開發者難免會遇到
    的頭像 發表于 08-29 14:32 ?629次閱讀
    知乎開源“智能預渲染框架” 幾行代碼實現鴻蒙應用頁面“<b class='flag-5'>秒</b><b class='flag-5'>開</b>”

    數據庫性能優化指南

    作為名在大廠摸爬滾打多年的運維老兵,我見過太多因為數據庫性能問題導致的生產事故。今天分享套完整的數據庫優化方法論,從SQL層面到硬件配置
    的頭像 發表于 08-18 11:21 ?749次閱讀

    GB10超級芯片賣!正式殺入AI PC

    GPU 和Grace CPU 組成,并配備了128GB LPDDR5X 內存和1TB/4TB NVMe SSD,能夠運行超過2,000億參數的大型語言模型。 ? GB10 Grac
    的頭像 發表于 07-09 01:21 ?4099次閱讀

    快手上線鴻蒙應用高性能解決方案:數據反序列化性能提升90%

    了其數據反序列化性能,在典型場景下能夠降低約90%的數據轉換耗時,為鴻蒙應用帶來了更流暢的用戶體驗和更敏捷的交互響應。 在鴻蒙應用開發過程中,“class-transformer”三方
    發表于 05-15 10:01

    搭載天璣9400+旗艦AI芯片的真我GT7性能超能

    ? ? ? 游戲神機真我GT7 登場: 真我 GT7?搭載天璣 9400+ 旗艦芯, 性能超能 適配多款主流游戲的原生 144 幀模式,游戲超能 100W 光速
    的頭像 發表于 05-12 18:28 ?1478次閱讀

    移動工作站是什么?為什么工程師說它能省40%成本?

    你見過在沙漠里處理100GB地形數據的工程師嗎?或者在飛機上實時渲染4K視頻的設計師?普通筆記本遇到這些場景,要么卡成“磚頭”,要么扛不住沙塵、高溫直接“罷工”。而移動工作站,就像給專業人士配了“超能
    的頭像 發表于 04-07 15:11 ?2707次閱讀
    移動工作站是什么?為什么工程師說它能省40%成本?