国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

2018年為數據科學領域中豐富的Python庫集合

電子工程師 ? 來源:未知 ? 作者:李倩 ? 2018-06-24 09:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Python 在解決數據科學任務和挑戰方面繼續處于領先地位。去年,我們曾發表一篇博客文章Top 15 Python Libraries for Data Science in 2017,概述了當時業已證明最有幫助的Python庫。今年,我們擴展了這個清單,增加了新的 Python 庫,并重新審視了去年已經討論過的 Python 庫,重點關注了這一年來的更新。

我們的選擇實際上包含了 20 多個庫,因為其中一些庫是相互替代的,可以解決相同的問題。因此,我們將它們放在同一個分組。

▌核心庫和統計數據

1. NumPy (Commits: 17911, Contributors: 641)

官網:http://www.numpy.org/

NumPy 是科學應用程序庫的主要軟件包之一,用于處理大型多維數組和矩陣,它大量的高級數學函數集合和實現方法使得這些對象執行操作成為可能。

2. SciPy (Commits: 19150, Contributors: 608)

官網:https://scipy.org/scipylib/

科學計算的另一個核心庫是 SciPy。它基于 NumPy,其功能也因此得到了擴展。SciPy 主數據結構又是一個多維數組,由 Numpy 實現。這個軟件包包含了幫助解決線性代數、概率論、積分計算和許多其他任務的工具。此外,SciPy 還封裝了許多新的 BLAS 和 LAPACK 函數。

3. Pandas (Commits: 17144, Contributors: 1165)

官網:https://pandas.pydata.org/

Pandas 是一個 Python 庫,提供高級的數據結構和各種各樣的分析工具。這個軟件包的主要特點是能夠將相當復雜的數據操作轉換為一兩個命令。Pandas包含許多用于分組、過濾和組合數據的內置方法,以及時間序列功能。

4. StatsModels (Commits: 10067, Contributors: 153)

官網:http://www.statsmodels.org/devel/

Statsmodels 是一個 Python 模塊,它為統計數據分析提供了許多機會,例如統計模型估計、執行統計測試等。在它的幫助下,你可以實現許多機器學習方法并探索不同的繪圖可能性。

Python 庫不斷發展,不斷豐富新的機遇。因此,今年出現了時間序列的改進和新的計數模型,即 GeneralizedPoisson、零膨脹模型(zero inflated models)和 NegativeBinomialP,以及新的多元方法:因子分析、多元方差分析以及方差分析中的重復測量。

▌可視化

5. Matplotlib (Commits: 25747, Contributors: 725)

官網:https://matplotlib.org/index.html

Matplotlib 是一個用于創建二維圖和圖形的底層庫。藉由它的幫助,你可以構建各種不同的圖標,從直方圖和散點圖到費笛卡爾坐標圖。此外,有許多流行的繪圖庫被設計為與matplotlib結合使用。

6. Seaborn (Commits: 2044, Contributors: 83)

官網:https://seaborn.pydata.org/

Seaborn 本質上是一個基于 matplotlib 庫的高級 API。它包含更適合處理圖表的默認設置。此外,還有豐富的可視化庫,包括一些復雜類型,如時間序列、聯合分布圖(jointplots)和小提琴圖(violin diagrams)。

7. Plotly (Commits: 2906, Contributors: 48)

官網:https://plot.ly/python/

Plotly 是一個流行的庫,它可以讓你輕松構建復雜的圖形。該軟件包適用于交互式 Web 應用程,可實現輪廓圖、三元圖和三維圖等視覺效果。

8. Bokeh (Commits: 16983, Contributors: 294)

官網:https://bokeh.pydata.org/en/latest/

Bokeh 庫使用 JavaScript 小部件在瀏覽器中創建交互式和可縮放的可視化。該庫提供了多種圖表集合,樣式可能性(styling possibilities),鏈接圖、添加小部件和定義回調等形式的交互能力,以及許多更有用的特性。

9. Pydot (Commits: 169, Contributors: 12)

官網:https://pypi.org/project/pydot/

Pydot 是一個用于生成復雜的定向圖和無向圖的庫。它是用純 Python 編寫的Graphviz 接口。在它的幫助下,可以顯示圖形的結構,這在構建神經網絡和基于決策樹的算法時經常用到。

機器學習

10. Scikit-learn (Commits: 22753, Contributors: 1084)

官網:http://scikit-learn.org/stable/

這個基于 NumPy 和 SciPy 的 Python 模塊是處理數據的最佳庫之一。它為許多標準的機器學習和數據挖掘任務提供算法,如聚類、回歸、分類、降維和模型選擇。

利用 Data Science School 提高你的技能

Data Science School:http://datascience-school.com/

11. XGBoost / LightGBM / CatBoost (Commits: 3277 / 1083 / 1509, Contributors: 280 / 79 / 61)

官網:

http://xgboost.readthedocs.io/en/latest/

http://lightgbm.readthedocs.io/en/latest/Python-Intro.html

https://github.com/catboost/catboost

梯度增強算法是最流行的機器學習算法之一,它是建立一個不斷改進的基本模型,即決策樹。因此,為了快速、方便地實現這個方法而設計了專門庫。就是說,我們認為 XGBoost、LightGBM 和 CatBoost 值得特別關注。它們都是解決常見問題的競爭者,并且使用方式幾乎相同。這些庫提供了高度優化的、可擴展的、快速的梯度增強實現,這使得它們在數據科學家和 Kaggle 競爭對手中非常流行,因為在這些算法的幫助下贏得了許多比賽。

12. Eli5 (Commits: 922, Contributors: 6)

官網:https://eli5.readthedocs.io/en/latest/

通常情況下,機器學習模型預測的結果并不完全清楚,這正是 Eli5 幫助應對的挑戰。它是一個用于可視化和調試機器學習模型并逐步跟蹤算法工作的軟件包,為 scikit-learn、XGBoost、LightGBM、lightning 和 sklearn-crfsuite 庫提供支持,并為每個庫執行不同的任務。

深度學習

13. TensorFlow (Commits: 33339, Contributors: 1469)

官網:https://www.tensorflow.org/

TensorFlow 是一個流行的深度學習和機器學習框架,由 Google Brain 開發。它提供了使用具有多個數據集的人工神經網絡的能力。在最流行的 TensorFlow應用中有目標識別、語音識別等。在常規的 TensorFlow 上也有不同的 leyer-helper,如 tflearn、tf-slim、skflow 等。

14. PyTorch (Commits: 11306, Contributors: 635)

官網:https://pytorch.org/

PyTorch 是一個大型框架,它允許使用 GPU 加速執行張量計算,創建動態計算圖并自動計算梯度。在此之上,PyTorch 為解決與神經網絡相關的應用程序提供了豐富的 API。該庫基于 Torch,是用 C 實現的開源深度學習庫。

15. Keras (Commits: 4539, Contributors: 671)

官網:https://keras.io/

Keras 是一個用于處理神經網絡的高級庫,運行在 TensorFlow、Theano 之上,現在由于新版本的發布,還可以使用 CNTK 和 MxNet 作為后端。它簡化了許多特定的任務,并且大大減少了單調代碼的數量。然而,它可能不適合某些復雜的任務。

▌分布式深度學習

16. Dist-keras / elephas / spark-deep-learning (Commits: 1125 / 170 / 67, Contributors: 5 / 13 / 11)

官網:

http://joerihermans.com/work/distributed-keras/

https://pypi.org/project/elephas/

https://databricks.github.io/spark-deep-learning/site/index.html

隨著越來越多的用例需要花費大量的精力和時間,深度學習問題變得越來越重要。然而,使用像 Apache Spark 這樣的分布式計算系統,處理如此多的數據要容易得多,這再次擴展了深入學習的可能性。因此,dist-keras、elephas 和 spark-deep-learning 都在迅速流行和發展,而且很難挑出一個庫,因為它們都是為解決共同的任務而設計的。這些包允許你在 Apache Spark 的幫助下直接訓練基于 Keras 庫的神經網絡。Spark-deep-learning 還提供了使用 Python 神經網絡創建管道的工具。

▌自然語言處理

17. NLTK (Commits: 13041, Contributors: 236)

官網:https://www.nltk.org/

NLTK 是一組庫,一個用于自然語言處理的完整平臺。在 NLTK 的幫助下,你可以以各種方式處理和分析文本,對文本進行標記和標記,提取信息等。NLTK 也用于原型設計和建立研究系統。

18. SpaCy (Commits: 8623, Contributors: 215)

官網:https://spacy.io/

SpaCy 是一個具有優秀示例、API 文檔和演示應用程序的自然語言處理庫。這個庫是用 Cython 語言編寫的,Cython 是 Python 的 C 擴展。它支持近 30 種語言,提供了簡單的深度學習集成,保證了健壯性和高準確率。SpaCy 的另一個重要特性是專為整個文檔處理設計的體系結構,無須將文檔分解成短語。

19. Gensim (Commits: 3603, Contributors: 273)

官網:https://radimrehurek.com/gensim/

Gensim 是一個用于健壯語義分析、主題建模和向量空間建模的 Python 庫,構建在Numpy和Scipy之上。它提供了流行的NLP算法的實現,如 word2vec。盡管 gensim 有自己的 models.wrappers.fasttext實現,但 fasttext 庫也可以用來高效學習詞語表示。

▌數據采集

20. Scrapy (Commits: 6625, Contributors: 281)

官網:https://scrapy.org/

Scrapy 是一個用來創建網絡爬蟲,掃描網頁和收集結構化數據的庫。此外,Scrapy 可以從 API 中提取數據。由于該庫的可擴展性和可移植性,使得它用起來非常方便。

▌結論

本文上述所列就是我們在 2018 年為數據科學領域中豐富的 Python 庫集合。與上一年相比,一些新的現代庫越來越受歡迎,而那些已經成為經典的數據科學任務的庫也在不斷改進。

下表顯示了 GitHub 活動的詳細統計數據:

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136936
  • python
    +關注

    關注

    57

    文章

    4876

    瀏覽量

    90025
  • 數據科學
    +關注

    關注

    0

    文章

    168

    瀏覽量

    10794

原文標題:2018:數據科學20個最好的Python庫

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    五大Python Web框架詳解

    Python是一門優雅的編程語言,被廣泛應用在Web開發、游戲開發、人工智能、云計算開發、大數據開發、數據分析、科學運算、爬蟲、自動化運維、自動化測試等
    發表于 02-06 17:17

    python有哪些方向?

    深入學習并進行二次開發,就需要具備Python的技能。5. 人工智能MASA和Google早期大量使用PythonPython積累了豐富
    發表于 03-09 15:47

    直擊DTCC2018 阿里數據庫技術干貨全面解析

    摘要: DTCC2018將如約而至。阿里數據庫的核心團隊將亮相此會,并與國內數據庫專業人士交流過去9年在數據庫領域的經驗。一起來看看在DTC
    發表于 04-27 17:58

    python數據分析的類

    分析相關的一定要熟悉,那么常用的Python數據分析有哪些呢?1.NumPyNumPy是Python
    發表于 05-10 15:18

    Python就業狀況分析

    數千個就業機會。 20183月,美國Python開發者在美國的平均工資(根據實際數據)115,835美元。這么高的平均工資表明,許多公司
    發表于 05-23 15:20

    Python十大應用領域和就業方向

    ,就需要具備Python的技能。5. 人工智能MASA和Google早期大量使用PythonPython積累了豐富
    發表于 11-21 14:54

    2021最受工程師歡迎的技能:Python第一

    是不可估量的。不僅如此,Python還含有優質的文檔、豐富的AI、機器學習、自然語言和文本處理。尤其是
    發表于 06-30 10:13

    Python在信息安全領域中的運用

    Python在信息安全領域中的運用
    發表于 09-07 09:51 ?27次下載
    <b class='flag-5'>Python</b>在信息安全<b class='flag-5'>領域中</b>的運用

    了解數據科學Python

    數據科學解決方案公司 ActiveWizards 近日根據他們自己的應用開發經驗,總結了數據科學家和工程師將在 2017 最常使用的
    發表于 11-15 17:30 ?4855次閱讀
    了解<b class='flag-5'>數據</b><b class='flag-5'>科學</b><b class='flag-5'>Python</b><b class='flag-5'>庫</b>

    Python成為2018度編程語言,理由如下

    2018 Python 語言上升了 3.62% ,其次是 Visual Basic .NET(+3.20%) 和 Java(+2.69%) 。Python 已成為當今大學中最常被教
    的頭像 發表于 01-10 15:32 ?3167次閱讀
    <b class='flag-5'>Python</b>成為<b class='flag-5'>2018</b><b class='flag-5'>年</b>度編程語言,理由如下

    為什么在數據科學領域Python比R更好

    經常有讀者問我們,在數據科學領域里,到底是該選 Python 呢,還是選 R 更好?誠然,對于數據科學
    的頭像 發表于 04-18 10:49 ?3997次閱讀

    20個超棒的Python 集合分享

    為了方便學習,本文列出的20個Python將按領域進行分類,有些你可能并不熟悉,但是真的能提高你的模型算法實現效率,多一點嘗試,多一些努力! 核心和統計
    發表于 12-05 11:27 ?2444次閱讀

    python有什么用 如何用python創建數據庫

    python有什么用 如何用python創建數據庫 Python是一種高級編程語言,可以用于開發各種類型的應用程序和工具。它的廣泛應用使它在編程領域
    的頭像 發表于 08-28 16:41 ?1948次閱讀

    python讀取數據庫數據 python查詢數據庫 python數據庫連接

    python讀取數據庫數據 python查詢數據庫 python
    的頭像 發表于 08-28 17:09 ?2982次閱讀

    python第三方有哪些

    和物理模擬等領域中發揮著重要的作用。 Pandas Pandas 是一個用于數據處理和分析的 Python 。它
    的頭像 發表于 11-29 14:31 ?3178次閱讀