国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

抽樣的幾種常用方法以及在Python中是如何實現的

上海磐啟微電子有限公司 ? 來源:Python數據科學 ? 作者:Python數據科學 ? 2021-08-10 15:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大家好,今天來和大家聊聊抽樣的幾種常用方法,以及在Python中是如何實現的。

抽樣是統計學、機器學習中非常重要,也是經常用到的方法,因為大多時候使用全量數據是不現實的,或者根本無法取到。所以我們需要抽樣,比如在推斷性統計中,我們會經常通過采樣的樣本數據來推斷估計總體的樣本。

上面所說的都是以概率為基礎的,實際上還有一類非概率的抽樣方法,因此總體上歸納為兩大種類:

概率抽樣:根據概率理論選擇樣本,每個樣本有相同的概率被選中。

非概率抽樣:根據非隨機的標準選擇樣本,并不是每個樣本都有機會被選中。

概率抽樣技術1.隨機抽樣(Random Sampling)

這也是最簡單暴力的一種抽樣了,就是直接隨機抽取,不考慮任何因素,完全看概率。并且在隨機抽樣下,總體中的每條樣本被選中的概率相等。

比如,現有10000條樣本,且各自有序號對應的,假如抽樣數量為1000,那我就直接從1-10000的數字中隨機抽取1000個,被選中序號所對應的樣本就被選出來了。

在Python中,我們可以用random函數隨機生成數字。下面就是從100個人中隨機選出5個。

import random

population = 100

data = range(population)

print(random.sample(data,5))

》 4, 19, 82, 45, 41

2.分層抽樣(Stratified Sampling)

分層抽樣其實也是隨機抽取,不過要加上一個前提條件了。在分層抽樣下,會根據一些共同屬性將帶抽樣樣本分組,然后從這些分組中單獨再隨機抽樣。

因此,可以說分層抽樣是更精細化的隨機抽樣,它要保持與總體群體中相同的比例。 比如,機器學習分類標簽中的類標簽0和1,比例為3:7,為保持原有比例,那就可以分層抽樣,按照每個分組單獨隨機抽樣。

Python中我們通過train_test_split設置stratify參數即可完成分層操作。

from sklearn.model_selection import train_test_split

stratified_sample, _ = train_test_split(population, test_size=0.9, stratify=population[[‘label’]])

print (stratified_sample)

3.聚類抽樣(Cluster Sampling)

聚類抽樣,也叫整群抽樣。它的意思是,先將整個總體劃分為多個子群體,這些子群體中的每一個都具有與總體相似的特征。也就是說它不對個體進行抽樣,而是隨機選擇整個子群體。

用Python可以先給聚類的群體分配聚類ID,然后隨機抽取兩個子群體,再找到相對應的樣本值即可,如下。

import numpy as np

clusters=5

pop_size = 100

sample_clusters=2# 間隔為 20, 從 1 到 5 依次分配集群100個樣本的聚類 ID,這一步已經假設聚類完成

cluster_ids = np.repeat([range(1,clusters+1)], pop_size/clusters)

# 隨機選出兩個聚類的 ID

cluster_to_select = random.sample(set(cluster_ids), sample_clusters)

# 提取聚類 ID 對應的樣本

indexes = [i for i, x in enumerate(cluster_ids) if x in cluster_to_select]

# 提取樣本序號對應的樣本值

cluster_associated_elements = [el for idx, el in enumerate(range(1, 101)) if idx in indexes]

print (cluster_associated_elements)

4.系統抽樣(Systematic Sampling)

系統抽樣是以預定的規則間隔(基本上是固定的和周期性的間隔)從總體中抽樣。比如,每 9 個元素抽取一下。一般來說,這種抽樣方法往往比普通隨機抽樣方法更有效。

下圖是按順序對每 9 個元素進行一次采樣,然后重復下去。

用Python實現的話可以直接在循環體中設置step即可。

population = 100

step = 5

sample = [element for element in range(1, population, step)]

print (sample)

5.多級采樣(Multistage sampling)

在多階段采樣下,我們將多個采樣方法一個接一個地連接在一起。比如,在第一階段,可以使用聚類抽樣從總體中選擇集群,然后第二階段再進行隨機抽樣,從每個集群中選擇元素以形成最終集合。

Python代碼復用了上面聚類抽樣,只是在最后一步再進行隨機抽樣即可。

import numpy as np

clusters=5

pop_size = 100

sample_clusters=2

sample_size=5# 間隔為 20, 從 1 到 5 依次分配集群100個樣本的聚類 ID,這一步已經假設聚類完成

cluster_ids = np.repeat([range(1,clusters+1)], pop_size/clusters)

# 隨機選出兩個聚類的 ID

cluster_to_select = random.sample(set(cluster_ids), sample_clusters)

# 提取聚類 ID 對應的樣本

indexes = [i for i, x in enumerate(cluster_ids) if x in cluster_to_select]

# 提取樣本序號對應的樣本值

cluster_associated_elements = [el for idx, el in enumerate(range(1, 101)) if idx in indexes]

# 再從聚類樣本里隨機抽取樣本print (random.sample(cluster_associated_elements, sample_size))

非概率抽樣技術非概率抽樣,毫無疑問就是不考慮概率的方式了,很多情況下是有條件的選擇。因此,對于無隨機性我們是無法通過統計概率和編程來實現的。這里也介紹3種方法。

1.簡單采樣(convenience sampling)

簡單采樣,其實就是研究人員只選擇最容易參與和最有機會參與研究的個體。比如下面的圖中,藍點是研究人員,橙色點則是藍色點附近最容易接近的人群。

2.自愿抽樣(Voluntary Sampling)

自愿抽樣下,感興趣的人通常通過填寫某種調查表格形式自行參與的。所以,這種情況中,調查的研究人員是沒有權利選擇任何個體的,全憑群體的自愿報名。比如下圖中藍點是研究人員,橙色的是自愿同意參與研究的個體。

3.雪球抽樣(Snowball Sampling)

雪球抽樣是說,最終集合是通過其他參與者選擇的,即研究人員要求其他已知聯系人尋找愿意參與研究的人。比如下圖中藍點是研究人員,橙色的是已知聯系人,黃色是是橙色點周圍的其它聯系人。

總結以上就是8種常用抽樣方法,平時工作中比較常用的還是概率類抽樣方法,因為沒有隨機性我們是無法通過統計學和編程完成自動化操作的。

比如在信貸的風控樣本設計時,就需要從樣本窗口通過概率進行抽樣。因為采樣的質量基本就決定了你模型的上限了,所以在抽樣時會考慮很多問題,如樣本數量、是否有顯著性、樣本穿越等等。在這時,一個良好的抽樣方法是至關重要的。

參考:

[2] https://towardsdatascience.com/8-types-of-sampling-techniques-b21adcdd2124

編輯:jq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 數據
    +關注

    關注

    8

    文章

    7335

    瀏覽量

    94769
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136948
  • python
    +關注

    關注

    57

    文章

    4876

    瀏覽量

    90031

原文標題:基于 Python 的 8 種常用抽樣方法

文章出處:【微信號:gh_6a53af9e8109,微信公眾號:上海磐啟微電子有限公司】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Python運行本地Web服務并實現遠程訪問

    本文介紹使用Python搭建本地Web服務并結合 ZeroNews 實現公網訪問。
    的頭像 發表于 02-06 11:39 ?152次閱讀
    <b class='flag-5'>Python</b>運行本地Web服務并<b class='flag-5'>實現</b>遠程訪問

    CW32單片機支持哪幾種開發環境,比較常用的MDK支持嗎?

    CW32單片機支持哪幾種開發環境,比較常用的MDK支持嗎。 若使用MDK開發,是否也需要下載芯片包,導入到MDK?xxx32的庫可以用嗎。
    發表于 01-26 06:14

    Termux環境下實現康威生命游戲

    檢查Termux的Python環境、終端字體兼容性,以及網格尺寸是否適配終端顯示。運行程序后,你會看到滑翔機終端緩慢移動,完美呈現康威生命游戲中“永恒二維世界”的核心特性,按`Ct
    發表于 12-21 18:36

    Python借助NVIDIA CUDA Tile簡化GPU編程

    模型更高的層級來實現算法。至于如何將計算任務拆分到各個線程,完全由編譯器和運行時底層自動處理。不僅如此,tile kernels 還能夠屏蔽 Tensor Core 等專用硬件的細節,寫出的代碼還能
    的頭像 發表于 12-13 10:12 ?1195次閱讀
    <b class='flag-5'>在</b><b class='flag-5'>Python</b><b class='flag-5'>中</b>借助NVIDIA CUDA Tile簡化GPU編程

    labview如何實現數據的采集與實時預測

    現有以下問題:labview可以實現數據的采集以及調用python代碼,但如何將這兩項功能集成一個VI文件里,從而實現數據的采集與實時預測
    發表于 12-03 21:13

    Python調用API教程

    兩個不同系統之間的信息交互。在這篇文章,我們將詳細介紹Python調用API的方法和技巧。 一、用Requests庫發送HTTP請求 使用Python調用API的第一步是發送HTTP
    的頭像 發表于 11-03 09:15 ?885次閱讀

    提高RISC-VDrystone測試得分的方法

    Drystone 是一種常用的計算機性能基準測試,主要用來測量整數(非浮點)計算性能。 影響 RISC-V Drystone 測試得分的因素主要有以下幾個: 處理器核心設計:處理器核心
    發表于 10-21 13:58

    使用jQuery的常用方法與返回值分析

    使用jQuery的常用方法與返回值分析 jQuery是一個輕量級的JavaScript庫,旨在簡化HTML文檔遍歷和操作、事件處理以及動畫效果的創建。本文將介紹一些常用的jQuery
    發表于 10-01 20:18

    【Labview技巧合集】16 labview嵌入python做的界面

    labview嵌入python做的GUI界面 無所不能的labview啊
    發表于 09-22 05:30

    termux調試python猜數字游戲

    用termux做一個猜數字游戲 下面是Termux創建猜數字游戲的步驟及完整實現方案,結合Python實現(最適配Termux環境
    發表于 08-29 17:15

    Python字符串逆序有幾種方式,代碼是什么

    對于一個給定的字符串,逆序輸出,這個任務對于python來說是一種很簡單的操作,畢竟強大的列表和字符串處理的一些列函數足以應付這些問題 了,今天總結了一下python對于字符串的逆序輸出的
    的頭像 發表于 08-28 14:44 ?1085次閱讀

    基礎篇3:掌握Python的條件語句與循環

    Python編程語言中,條件語句和循環是構成復雜邏輯和數據處理的基石。本篇基礎教程將幫助您深入了解Python的條件語句和循環結構,讓您能夠更好地控制程序流程。 條件語句 條件語句
    發表于 07-03 16:13

    在線測徑儀100%全檢替代抽樣檢測!開啟工業質檢智能時代!

    傳統的線棒管材生產過程抽樣檢測的滯后性與隨機性導致質量隱患頻發,漏檢、誤判造成的經濟損失高達行業總成本的5%-10%。在線測徑儀憑借全流程自動化檢測技術,以每秒2000次的高頻測量能力,
    發表于 04-17 14:14

    零基礎入門:如何在樹莓派上編寫和運行Python程序?

    在這篇文章,我將為你簡要介紹Python程序是什么、Python程序可以用來做什么,以及如何在RaspberryPi上編寫和運行一個簡單的Pyth
    的頭像 發表于 03-25 09:27 ?2034次閱讀
    零基礎入門:如何在樹莓派上編寫和運行<b class='flag-5'>Python</b>程序?

    Python嵌入式系統的應用場景

    你想把你的職業生涯提升到一個新的水平?Python嵌入式系統中正在成為一股不可缺少的新力量。盡管傳統上嵌入式開發更多地依賴于C和C++語言,Python的優勢在于其簡潔的語法、豐富的庫和快速的開發周期,這使得它在某些嵌入式場景
    的頭像 發表于 03-19 14:10 ?1497次閱讀