国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

數據分析師應當了解的五個統計基本概念

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:深度學習自然語言 ? 2020-11-02 15:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文講述了數據分析師應當了解的五個統計基本概念:統計特征、概率分布、降維、過采樣/欠采樣、貝葉斯統計方法。 從高的角度來看,統計學是一種利用數學理論來進行數據分析的技術。象柱狀圖這種基本的可視化形式,會給你更加全面的信息。但是,通過統計學我們可以以更富有信息驅動力和針對性的方式對數據進行操作。所涉及的數學理論幫助我們形成數據的具體結論,而不僅僅是猜測。 利用統計學,我們可以更深入、更細致地觀察數據是如何進行精確組織的,并且基于這種組織結構,如何能夠以最佳的形式來應用其它相關的技術以獲取更多的信息。今天,我們來看看數據分析師需要掌握的5個基本的統計學概念,以及如何有效地進行應用。 01特征統計 特征統計可能是數據科學中最常用的統計學概念。它是你在研究數據集時經常使用的統計技術,包括偏差、方差、平均值、中位數、百分數等等。理解特征統計并且在代碼中實現都是非常容易的。請看下圖:

上圖中,中間的直線表示數據的中位數。中位數用在平均值上,因為它對異常值更具有魯棒性。第一個四分位數本質上是第二十五百分位數,即數據中的25%要低于該值。第三個四分位數是第七十五百分位數,即數據中的75%要低于該值。而最大值和最小值表示該數據范圍的上下兩端。 箱形圖很好地說明了基本統計特征的作用:

當箱形圖很短時,就意味著很多數據點是相似的,因為很多值是在一個很小的范圍內分布;

當箱形圖較高時,就意味著大部分的數據點之間的差異很大,因為這些值分布的很廣;

如果中位數接近了底部,那么大部分的數據具有較低的值。如果中位數比較接近頂部,那么大多數的數據具有更高的值。基本上,如果中位線不在框的中間,那么就表明了是偏斜數據;

如果框上下兩邊的線很長表示數據具有很高的標準偏差和方差,意味著這些值被分散了,并且變化非常大。如果在框的一邊有長線,另一邊的不長,那么數據可能只在一個方向上變化很大

02概率分布 我們可以將概率定義為一些事件將要發生的可能性大小,以百分數來表示。在數據科學領域中,這通常被量化到0到1的區間范圍內,其中0表示事件確定不會發生,而1表示事件確定會發生。那么,概率分布就是表示所有可能值出現的幾率的函數。請看下圖:

常見的概率分布,均勻分布(上)、正態分布(中間)、泊松分布(下):

均勻分布是其中最基本的概率分布方式。它有一個只出現在一定范圍內的值,而在該范圍之外的都是0。我們也可以把它考慮為是一個具有兩個分類的變量:0或另一個值。分類變量可能具有除0之外的多個值,但我們仍然可以將其可視化為多個均勻分布的分段函數。

正態分布,通常也稱為高斯分布,具體是由它的平均值和標準偏差來定義的。平均值是在空間上來回變化位置進行分布的,而標準偏差控制著它的分布擴散范圍。與其它的分布方式的主要區別在于,在所有方向上標準偏差是相同的。因此,通過高斯分布,我們知道數據集的平均值以及數據的擴散分布,即它在比較廣的范圍上擴展,還是主要圍繞在少數幾個值附近集中分布。

泊松分布與正態分布相似,但存在偏斜率。象正態分布一樣,在偏斜度值較低的情況下,泊松分布在各個方向上具有相對均勻的擴散。但是,當偏斜度值非常大的時候,我們的數據在不同方向上的擴散將會是不同的。在一個方向上,數據的擴散程度非常高,而在另一個方向上,擴散的程度則非常低。

如果遇到一個高斯分布,那么我們知道有很多算法,在默認情況下高思分布將會被執行地很好,因此首先應該找到那些算法。如果是泊松分布,我們必須要特別謹慎,選擇一個在空間擴展上對變化要有很好魯棒性的算法。 03降維 降維這個術語可以很直觀的理解,意思是降低一個數據集的維數。在數據科學中,這是特征變量的數量。請看下圖:

上圖中的立方體表示我們的數據集,它有3個維度,總共1000個點。以現在的計算能力,計算1000個點很容易,但如果更大的規模,就會遇到麻煩了。然而,僅僅從二維的角度來看我們的數據,比如從立方體一側的角度,可以看到劃分所有的顏色是很容易的。通過降維,我們將3D數據展現到2D平面上,這有效地把我們需要計算的點的數量減少到100個,大大節省了計算量。 另一種方式是我們可以通過特征剪枝來減少維數。利用這種方法,我們刪除任何所看到的特征對分析都不重要。例如,在研究數據集之后,我們可能會發現,在10個特征中,有7個特征與輸出具有很高的相關性,而其它3個則具有非常低的相關性。那么,這3個低相關性的特征可能不值得計算,我們可能只是能在不影響輸出的情況下將它們從分析中去掉。 用于降維的最常見的統計技術是PCA,它本質上創建了特征的向量表示,表明了它們對輸出的重要性,即相關性。PCA可以用來進行上述兩種降維方式的操作。 04過采樣和欠采樣 過采樣和欠采樣是用于分類問題的技術。例如,我們有1種分類的2000個樣本,但第2種分類只有200個樣本。這將拋開我們嘗試和使用的許多機器學習技術來給數據建模并進行預測。那么,過采樣和欠采樣可以應對這種情況。請看下圖:

在上面圖中的左右兩側,藍色分類比橙色分類有更多的樣本。在這種情況下,我們有2個預處理選擇,可以幫助機器學習模型進行訓練。 欠采樣意味著我們將只從樣本多的分類中選擇一些數據,而盡量多的使用樣本少的分類樣本。這種選擇應該是為了保持分類的概率分布。我們只是通過更少的抽樣來讓數據集更均衡。 過采樣意味著我們將要創建少數分類的副本,以便具有與多數分類相同的樣本數量。副本將被制作成保持少數分類的分布。我們只是在沒有獲得更多數據的情況下讓數據集更加均衡。 05貝葉斯統計 完全理解為什么在我們使用貝葉斯統計的時候,要求首先理解頻率統計失敗的地方。大多數人在聽到“概率”這個詞的時候,頻率統計是首先想到的統計類型。它涉及應用一些數學理論來分析事件發生的概率,明確地說,我們唯一計算的數據是先驗數據(prior data)。

假設我給了你一個骰子,問你擲出6點的幾率是多少,大多數人都會說是六分之一。 但是,如果有人給你個特定的骰子總能擲出6個點呢?因為頻率分析僅僅考慮之前的數據,而給你作弊的骰子的因素并沒有被考慮進去。 貝葉斯統計確實考慮了這一點,我們可以通過貝葉斯法則來進行說明:

在方程中的概率P(H)基本上是我們的頻率分析,給定之前的關于事件發生概率的數據。方程中的P(E|H)稱為可能性,根據頻率分析得到的信息,實質上是現象正確的概率。例如,如果你要擲骰子10000次,并且前1000次全部擲出了6個點,那么你會非常自信地認為是骰子作弊了。 如果頻率分析做的非常好的話,那么我們會非常自信地確定,猜測6個點是正確的。同時,如果骰子作弊是真的,或者不是基于其自身的先驗概率和頻率分析的,我們也會考慮作弊的因素。正如你從方程式中看到的,貝葉斯統計把一切因素都考慮在內了。當你覺得之前的數據不能很好地代表未來的數據和結果的時候,就應該使用貝葉斯統計方法。

責任編輯:xj

原文標題:5個基本概念,從統計學到機器學習

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 統計
    +關注

    關注

    1

    文章

    21

    瀏覽量

    13727
  • 貝葉斯
    +關注

    關注

    0

    文章

    77

    瀏覽量

    12919
  • 數據分析
    +關注

    關注

    2

    文章

    1516

    瀏覽量

    36215

原文標題:5個基本概念,從統計學到機器學習

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    API數據分析:淘寶流量來源分析,渠道優化!

    優化渠道策略。我們將使用Python作為工具,結合數據分析統計方法,確保過程真實可靠。 1. 理解淘寶流量來源 淘寶流量主要來自多個渠道,包括: 直接訪問 :用戶直接輸入淘寶網址或從收藏夾訪問。 搜索引擎 :如百度或淘寶內搜索,貢獻
    的頭像 發表于 01-23 13:42 ?173次閱讀
    API<b class='flag-5'>數據分析</b>:淘寶流量來源<b class='flag-5'>分析</b>,渠道優化!

    經營數據分析可以通過哪些方式

    在數聚股份看來,提起經營數據分析,大家往往會聯想到一些密密麻麻的數字表格,或是高級的數據建模手法,再或是華麗的數據報表。其實,“ 分析 ”本身是每個人都具備的能力,對于業務決策者而言,
    的頭像 發表于 12-05 16:31 ?633次閱讀

    廣立微DE-G零斷檔重構智能數據分析

    近日,數據分析領域被一則消息推上風口浪尖:一家老牌軟件巨頭將撤出中國。在此背景下,其旗下以靈活著稱的數據分析軟件,在中國市場的未來將面臨極大的不確定性。
    的頭像 發表于 11-07 10:39 ?665次閱讀

    Forrester首席分析師談Net5.5G數據中心網絡

    Forrester Research首席分析師Andre Kindness談及AI對數據中心網絡的影響,指出面臨性能、擴展性與編排管理三大挑戰。關于數據中心功能協同,傳統通用架構已分化為通用
    的頭像 發表于 10-14 14:29 ?675次閱讀

    學習物聯網可以做什么工作?

    嵌入式軟件和硬件,支持物聯網設備的功能實現。   數據分析師:負責從物聯網設備和傳感器中獲取和分析數據,并提供數據支持和決策。   物聯網產品經理:負責物聯網產品的策劃、設計、實施、推
    發表于 10-11 16:40

    電磁兼容與電磁干擾在電磁兼容性大數據分析中的智能管理系統

    數據,結合大數據分析、流程自動化及云邊協同技術,實現電磁環境全生命周期管理。以下從大維度精簡解析: 應用案例 北京華盛恒輝、北京木恒潤研發的 EMC/EMI 智能管理系統已落地應
    的頭像 發表于 09-17 14:58 ?618次閱讀

    普迪飛 Exensio?數據分析平臺 | Test Operations解鎖半導體測試新紀元

    TestOperations是Exensio數據分析平臺的四主要模塊之一。T-Ops模塊旨在幫助集成器件制造商(IDM)、無晶圓廠半導體公司(Fabless)和外包半導體(產品)封測廠(OSAT
    的頭像 發表于 08-19 13:53 ?1222次閱讀
    普迪飛 Exensio?<b class='flag-5'>數據分析</b>平臺 | Test Operations解鎖半導體測試新紀元

    如何通過數據分析識別設備故障模式?

    通過數據分析識別設備故障模式,本質是從聲振溫等多維數據中提取故障特征,建立 “數據特征 - 故障類型” 的映射關系,核心可通過特征提取、模式匹配、趨勢分析三步實現,精準定位故障根源與發
    的頭像 發表于 08-19 11:14 ?857次閱讀
    如何通過<b class='flag-5'>數據分析</b>識別設備故障模式?

    電壓波動與閃變的基本概念

    如果您是電力系統工程、電氣設備維護人員或者相關專業的學生,應該注意到了有關電能質量的國家標準GB/T 12326-2008是有關電壓波動和閃變的,那這兩參數的考核意義是什么?國家標準規定這兩參數如何計算、測量和考核?這篇文
    的頭像 發表于 07-22 14:10 ?2992次閱讀
    電壓波動與閃變的<b class='flag-5'>基本概念</b>

    構建自定義電商數據分析API

    ? 在電商業務中,數據是驅動決策的核心。隨著數據量的增長,企業需要實時、靈活的分析工具來監控銷售、用戶行為和庫存等指標。一自定義電商數據分析
    的頭像 發表于 07-17 14:44 ?600次閱讀
    構建自定義電商<b class='flag-5'>數據分析</b>API

    AI數據分析儀設計原理圖:RapidIO信號接入 平板AI數據分析

    AI數據分析儀, 平板數據分析儀, 數據分析儀, AI邊緣計算, 高帶寬數據輸入
    的頭像 發表于 07-17 09:20 ?747次閱讀
    AI<b class='flag-5'>數據分析</b>儀設計原理圖:RapidIO信號接入 平板AI<b class='flag-5'>數據分析</b>儀

    如何使用協議分析儀進行數據分析與可視化

    使用協議分析儀進行數據分析與可視化,需結合數據捕獲、協議解碼、統計分析及可視化工具,將原始數據轉化為可解讀的圖表和報告。以下是詳細步驟及關鍵
    發表于 07-16 14:16

    群延遲的基本概念和仿真實例分析

    在高速數字通信和射頻系統中,信號從發送端到接收端的傳輸過程中會遇到各種失真和畸變。群延遲(Group Delay)作為描述系統相位線性度的重要參數,直接影響著信號保真度和系統性能。本文將深入淺出地介紹群延遲的基本概念、應用場景,并通過仿真示例展示其在實際工程中的重要性。
    的頭像 發表于 07-08 15:14 ?2321次閱讀
    群延遲的<b class='flag-5'>基本概念</b>和仿真實例<b class='flag-5'>分析</b>

    第十三章 通訊的基本概念

    本章介紹通訊基本概念,包括串行/并行、全雙工/半雙工/單工、同步/異步通訊,還提及通訊速率中比特率與波特率的概念
    的頭像 發表于 05-22 17:29 ?2062次閱讀
    第十三章 通訊的<b class='flag-5'>基本概念</b>

    TDengine 發布時序數據分析 AI 智能體 TDgpt,核心代碼開源

    組成部分,標志著時序數據庫在原生集成 AI 能力方面邁出了關鍵一步。 TDgpt 是內嵌于 TDengine 中的時序數據分析 AI 智能體,具備時序數據預測、異常檢測、數據補全、分類
    的頭像 發表于 03-27 10:30 ?716次閱讀
    TDengine 發布時序<b class='flag-5'>數據分析</b> AI 智能體 TDgpt,核心代碼開源