国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Python機器學習庫談Scikit-learn技術

深度學習自然語言處理 ? 來源:NewBeeNLP公眾號 ? 作者:Rebecca Vickery ? 2020-08-27 17:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Scikit-learn是使用最廣泛的Python機器學習庫之一。它有標準化和簡單的接口,用于數據預處理和模型訓練、優化以及評估。

這個項目最初是由David Cournapeau 開發的Google Summer of Code 項目,并于2010年首次公開發布。自創建以來,該庫已經發展成為一個豐富的生態系統,用于開發機器學習模型。隨著時間的推移,該項目開發了許多方便的功能,以增強其易用性。在本文中,我將介紹你可能不知道的10個關于Scikit-learn最有用的特性。

1. 內置數據集

Scikit-learn API內置了各種toy和real-world數據集[1]。這些可以便捷地通過一行代碼訪問,如果你正在學習或只是想快速嘗試新功能,這會非常有用。

你還可以使用make_regression()、make_blobs()和make_classification()生成合成數據集。所有加載實用程序都提供了返回已拆分為X(特征)和y(目標)的數據選項,以便它們可以直接用于訓練模型。

2. 獲取公開數據集

如果你想直接通過Scikit-learn訪問更多的公共可用數據集,請了解,有一個方便的函數datasets.fetch_openml,可以讓您直接從openml.org網站[2]獲取數據。這個網站包含超過21000個不同的數據集,可以用于機器學習項目。

3. 內置分類器來訓練baseline

在為項目開發機器學習模型時,首先創建一個baseline模型是非常有必要的。這個模型在本質上應該是一個“dummy”模型,比如一個總是預測最頻繁出現的類的模型。這就提供了一個基準,用來對你的“智能”模型進行基準測試,這樣你就可以確保它的性能比隨機結果更好。

Scikit learn包括用于分類任務的DummyClassifier() 和用于基于回歸問題的 DummyRegressor()。

4. 內置繪圖api

Scikit learn有一個內置的繪圖API,允許你在不導入任何其他庫的情況下可視化模型性能。包括以下繪圖:部分相關圖、混淆矩陣、精確召回曲線和ROC曲線。

5. 內置特征選擇方法

提高模型性能的一種技術是只使用最好的特征集或通過刪除冗余特征來訓練模型。這個過程稱為特征選擇。

Scikit learn有許多函數來執行特征選擇。一個示例為 SelectPercentile(),該方法根據所選的統計方法選擇性能最好的X百分位特征進行評分。

6. 機器學習pipeline

除了為機器學習提供廣泛的算法外,Scikit learn還具有一系列用于「預處理」「轉換數據」的功能。為了促進機器學習工作流程的再現性和簡單性,Scikit learn創建了管道(pipeline),允許將大量預處理步驟與模型訓練階段鏈接在一起。

管道將工作流中的所有步驟存儲為單個實體,可以通過「fit」「predict」方法調用該實體。在管道對象上調用fit方法時,預處理步驟和模型訓練將自動執行。

7. ColumnTransformer

在許多數據集中,你將擁有不同類型的特征,需要應用不同的預處理步驟。例如,可能有分類數據和連續數據的混合,你可能希望通過one-hot編碼將分類數據轉換為數字,并縮放數字變量。

Scikit-learn管道有一個名為ColumnTransformer的函數,它允許你通過索引或指定列名來輕松指定要對哪些列應用最適當的預處理。

8. 管道的HTML形式

管道通常會變得非常復雜,尤其是在處理真實世界的數據時。因此,scikit-learn提供了一種方法來輸出管道中步驟的HTML圖表[3],非常方便。

9. 可視化 樹模型

plot_tree() 函數允許你創建決策樹模型中的步驟圖。

10. 豐富的第三方擴展

許多第三方庫可以更好地擴展scikit-learn的特性。舉個栗子,category-encoders庫,它為分類特性提供了更大范圍的預處理方法,以及ELI5包以實現更大的模型可解釋性。這兩個包也可以直接在Scikit-learn管道中使用。

本文參考資料

[1]toy和real-world數據集: https://scikit-learn.org/stable/datasets/index.html

[2]openml.org網站: https://www.openml.org/home

[3]HTML圖表: https://scikit-learn.org/stable/modules/compose.html#visualizing-composite-estimators

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136931
  • python
    +關注

    關注

    57

    文章

    4876

    瀏覽量

    90025

原文標題:關于Scikit-Learn你(也許)不知道的10件事

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    算法工程師需要具備哪些技能?

    開發(如NumPy、Pandas、Scikit-learn)。C++/Java:高性能場景(如大規模矩陣運算、分布式系統開發)。 開發工具Linux命令行:文件操作、進程管理、日志分析等。Shell腳本
    發表于 02-27 10:53

    無法去除 Python VisionFive.i2c 的終端輸出?

    燒的官方最新八月份的 debian 12 的系統。 根據這個案例安裝好了 python 環境和 VisionFive 。 執行下面這條代碼: import VisionFive.i2c
    發表于 02-25 06:13

    AGV機器人如何精準識別位有無貨物?

    AGV機器人如何精準判斷位狀態?激光傳感器、視覺識別和壓力傳感器三大技術協同作戰:激光測距穿透空位,視覺捕捉貨物特征,壓力感知重量變化,多技術
    的頭像 發表于 01-13 17:03 ?517次閱讀
    AGV<b class='flag-5'>機器</b>人如何精準識別<b class='flag-5'>庫</b>位有無貨物?

    CIE全國RISC-V創新應用大賽 人臉識別系統介紹與移植

    scikit-learn 等依賴的編譯需求,執行以下命令(需管理員權限): 打開命令行,不要進入venv環境,直接輸入: sudo apt update && sudo apt
    發表于 11-08 11:19

    一文了解Mojo編程語言

    Mojo 語言的具體介紹: 核心特點 Python 兼容性 Mojo 支持大部分 Python 語法和標準,可直接調用 Python 生態系統中的
    發表于 11-07 05:59

    Python調用API教程

    兩個不同系統之間的信息交互。在這篇文章中,我們將詳細介紹Python調用API的方法和技巧。 一、用Requests發送HTTP請求 使用Python調用API的第一步是發送HTTP請求,通常
    的頭像 發表于 11-03 09:15 ?870次閱讀

    貿澤電子2025邊緣AI與機器學習技術創新論壇回顧(上)

    2025年,隨著人工智能技術的快速發展,邊緣AI與機器學習市場迎來飛速增長,據Gartner預計,2025年至2030年,邊緣AI市場將保持23%的復合年增長率。
    的頭像 發表于 07-21 11:08 ?1175次閱讀
    貿澤電子2025邊緣AI與<b class='flag-5'>機器</b><b class='flag-5'>學習</b><b class='flag-5'>技術</b>創新論壇回顧(上)

    linux虛擬環境中調用Linux 版matlab編譯的python時出錯

    matlab代碼編譯為CAO_pythonpython,其中cp_Main_python.m為入口文件,編譯后生成的文件有mccExcludedFiles.log、setup.py
    發表于 07-18 10:40

    FPGA在機器學習中的具體應用

    隨著機器學習和人工智能技術的迅猛發展,傳統的中央處理單元(CPU)和圖形處理單元(GPU)已經無法滿足高效處理大規模數據和復雜模型的需求。FPGA(現場可編程門陣列)作為一種靈活且高效的硬件加速平臺
    的頭像 發表于 07-16 15:34 ?2888次閱讀

    基于米爾瑞芯微RK3576開發板的創建機器學習環境方案

    】 【米爾-瑞芯微RK3576核心板及開發板】具有6TpsNPU以及GPU,因此是學習機器學習的好環境,為此結合《深度學習的數學——使用Python語言》 1、使用vscode 連接遠
    發表于 06-27 11:33

    【「# ROS 2智能機器人開發實踐」閱讀體驗】機器人入門的引路書

    的限制和調控) 本書還有很多前沿技術項目的擴展 比如神經網絡識別例程,機器學習圖像識別的原理,yolo圖像追蹤的原理 機器學習訓練三大點:
    發表于 04-30 01:05

    NanoEdge AI Studio 面向STM32開發人員機器學習(ML)技術

    NanoEdge? AI Studio*(NanoEdgeAIStudio)是一種新型機器學習(ML)技術,可以讓終端用戶輕松享有真正的創新成果。只需幾步,開發人員便可基于最少量的數據為其項目創建
    的頭像 發表于 04-22 11:09 ?1342次閱讀
    NanoEdge AI Studio 面向STM32開發人員<b class='flag-5'>機器</b><b class='flag-5'>學習</b>(ML)<b class='flag-5'>技術</b>

    德州儀器與卡發布新一代工業機器人控制器

    在今年慕尼黑上海電子展期間,德州儀器 (TI) 與美的集團旗下卡(后簡稱“卡”)合作發布了新一代工業機器人控制器 KR C5 micro-2。作為芯片技術
    的頭像 發表于 04-18 14:34 ?1600次閱讀

    **【技術干貨】Nordic nRF54系列芯片:傳感器數據采集與AI機器學習的完美結合**

    技術干貨】nRF54系列芯片:傳感器數據采集與AI機器學習的完美結合 近期收到不少伙伴咨詢nRF54系列芯片的應用與技術細節,今天我們整理幾個核心問題與解答,帶你快速掌握如何在nRF
    發表于 04-01 00:00

    ?如何在虛擬環境中使用 Python,提升你的開發體驗~

    。RaspberryPiOS預裝了Python3。干擾系統Python的安裝可能會給你的操作系統帶來問題。安裝第三方Python時,請務必使用正確的包管理工具。在Lin
    的頭像 發表于 03-25 09:34 ?811次閱讀
    ?如何在虛擬環境中使用 <b class='flag-5'>Python</b>,提升你的開發體驗~