国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習這四個東西你知道幾個?

倩倩 ? 來源:潤森知識 ? 2020-04-15 15:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

分類變量特征提取

分類數據的獨熱編碼方法,分類變量特征提取(One-of-K or One-Hot Encoding):通過二進制數來表示每個解釋變量的特征

from sklearn.feature_extraction import DictVectorizer

onhot_encoder = DictVectorizer()

instances=[{‘city’:‘New York’},{‘city’:‘San Francisco’},{‘city’:‘Chapel Hill’}]

print (onhot_encoder.fit_transform(instances).toarray())

[[0. 1. 0.]

[0. 0. 1.]

[1. 0. 0.]]

文字特征提取-詞庫模型

文字模型化最常用方法,可以看成是獨熱編碼的一種擴展,它為每個單詞設值一個特征值。依據是用類似單詞的文章意思也差不多。可以通過有限的編碼信息實現有效的文檔分類和檢索。

CountVectorizer 類會將文檔全部轉換成小寫,然后將文檔詞塊化(tokenize)。文檔詞塊化是把句子分割成詞塊(token)或有意義的字母序列的過程。詞塊大多是單詞,但是他們也可能是一些短語,如標點符號和詞綴。

CountVectorizer類通過正則表達式用空格分割句子,然后抽取長度大于等于2的字母序列。

from sklearn.feature_extraction.text import CountVectorizer

corpus = [

‘UNC played Duke in basketball’,

‘Duke lost the basketball game’,

‘I ate a sandwich’

vectorizer = CountVectorizer()

print (vectorizer.fit_transform(corpus).todense())

print (vectorizer.vocabulary_)

[[0 1 1 0 1 0 1 0 0 1]

[0 1 1 1 0 1 0 0 1 0]

[1 0 0 0 0 0 0 1 0 0]]

{‘unc’: 9, ‘played’: 6, ‘duke’: 2, ‘in’: 4, ‘basketball’: 1, ‘lost’: 5, ‘the’: 8, ‘game’: 3, ‘ate’: 0, ‘sandwich’: 7}

對比文檔的特征向量

對比文檔的特征向量,會發現前兩個文檔相比第三個文檔更相似。如果用歐氏距離(Euclidean distance)計算它們的特征向量會比其與第三個文檔距離更接近。

兩向量的歐氏距離就是兩個向量歐氏范數(Euclidean norm)或L2范數差的絕對值:d=||x0-x1||向量的歐氏范數是其元素平方和的平方根:scikit-learn里面的euclidean_distances函數可以計算若干向量的距離,表示兩個語義最相似的文檔其向量在空間中也是最接近的。

from sklearn.feature_extraction.text import CountVectorizer

from sklearn.metrics.pairwise import euclidean_distances

vectorizer = CountVectorizer()

corpus = [

‘UNC played Duke in basketball’,

‘Duke lost the basketball game’,

‘I ate a sandwich’

counts = vectorizer.fit_transform(corpus).todense()

for x,y in [[0,1],[0,2],[1,2]]:

dist = euclidean_distances(counts[x],counts[y])

print(‘文檔{}與文檔{}的距離{}’.format(x,y,dist))

文檔0與文檔1的距離[[2.44948974]]

文檔0與文檔2的距離[[2.64575131]]

文檔1與文檔2的距離[[2.64575131]]

圖片特征的提取

數字圖像通常是一張光柵圖或像素圖,將顏色映射到網格坐標里。一張圖片可以看成是一個每個元素都是顏色值的矩陣。表示圖像基本特征就是將矩陣每行連起來變成一個行向量。光學文字識別(Optical character recognition,OCR)是機器學習的經典問題。

scikit-learn的digits數字集包括至少1700種0-9的手寫數字圖像。每個圖像都有8x8像像素構成。每個像素的值是0-16,白色是0,黑色是16。

# 通過像素提取特征值

from sklearn import datasets

import matplotlib.pyplot as plt

digits = datasets.load_digits()

print(‘Digit:’,digits.target[0])

print (digits.images[0])

plt.figure()

plt.axis(‘off’)

plt.imshow(digits.images[0], cmap=plt.cm.gray_r, interpolation=‘nearest’)

plt.show()

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 二進制
    +關注

    關注

    2

    文章

    809

    瀏覽量

    43042
  • 數字圖像
    +關注

    關注

    2

    文章

    122

    瀏覽量

    19583
  • 編碼
    +關注

    關注

    6

    文章

    1039

    瀏覽量

    56992
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    PCBA生產過程的四個主要環節?

    PCBA生產過程的四個主要環節 PCBA(Printed Circuit Board Assembly)生產過程是將電子元器件組裝到印刷電路板(PCB)上,形成完整電子產品的過程。雖然直接參考資料
    的頭像 發表于 03-05 11:13 ?150次閱讀

    固態斷路器采用SiC JFET的四個理由

    性能。我們已介紹過浪涌電流、應對不斷攀升的電力需求、為什么要使用固態斷路器。本文為系列教程的第二部分,將介紹SSCB 采用 SiC JFET 的四個理由。
    的頭像 發表于 01-16 15:45 ?1w次閱讀
    固態斷路器采用SiC JFET的<b class='flag-5'>四個</b>理由

    SMT加工中,雙面板與層板的區別,知道幾個

    23年PCBA一站式行業經驗PCBA加工廠家今天為大家講講SMT加工中雙面板與層板有什么區別?SMT加工中雙面板與層板的區別。在SMT加工中,雙面板與層板是兩種常見的PCB類型,它們在結構
    的頭像 發表于 01-13 09:26 ?169次閱讀

    機器學習和深度學習中需避免的 7 常見錯誤與局限性

    無論是剛入門還是已經從事人工智能模型相關工作一段時間,機器學習和深度學習中都存在一些我們需要時刻關注并銘記的常見錯誤。如果對這些錯誤置之不理,日后可能會引發諸多麻煩!只要我們密切關注
    的頭像 發表于 01-07 15:37 ?201次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>和深度<b class='flag-5'>學習</b>中需避免的 7 <b class='flag-5'>個</b>常見錯誤與局限性

    人臉識別身份核驗終端廠家怎么挑?記住這四個黃金法則

    在科技飛速發展的當下,人臉識別身份核驗終端在眾多領域得到廣泛應用,從門禁安防到金融認證,從教育考勤到政務服務,其身影無處不在。對于有需求的企業或單位而言,找到一家靠譜的人臉識別身份核驗終端智能安防硬件廠家至關重要。那么,究竟該如何尋找呢?一、多渠道了解人臉識別身份核驗終端廠家通過多種渠道廣泛收集廠家信息。互聯網是獲取信息的便捷途徑,利用搜索引擎,輸入“人臉識
    的頭像 發表于 01-07 10:41 ?254次閱讀
    人臉識別身份核驗終端廠家怎么挑?記住<b class='flag-5'>這四個</b>黃金法則

    UPS電池撐不過3年?運維老師傅揭秘:這四個習慣最“折壽”!

    ?當機房的警報突然響起,屏幕瞬間黑掉——很多IT管理員最怕的不是服務器故障,而是UPS電池在關鍵時刻掉了鏈子。一塊標稱壽命5年的鉛酸電池,為什么有人用2年就報廢,有人卻能撐過4年?這背后,藏著可能
    的頭像 發表于 12-30 08:33 ?857次閱讀
    UPS電池撐不過3年?運維老師傅揭秘:<b class='flag-5'>這四個</b>習慣最“折壽”!

    合科泰MOSFET選型的四個核心步驟

    面對數據手冊中繁雜的參數,如何快速鎖定適合應用的 MOSFET?遵循以下四個核心步驟,您能系統化地完成選型,避免因關鍵參數遺漏導致的設計風險。
    的頭像 發表于 12-19 10:33 ?736次閱讀

    打開lvpro缺少vi文件,尋求VIPM來源!!!!

    4.Retry\\\\Tree Helper\\\\Tree Helper\\\\TreeHelper.lvclass 缺少這四個文件的來源,VIPM不知道搜索哪些才有,急求,謝謝!
    發表于 07-17 13:43

    TOF傳感器(VL53L5),無法得到data ready怎么解決?

    data not ready。 我想知道這四個值分別代表什么意義?我查了我已知的文檔(DS13754,um2884等)未找到相關的寄存器說明。 為何出現這樣的原因,以及我應該如何調試?
    發表于 07-10 08:18

    用于 GSM/ GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx 頻前端模塊,帶四個線性 TRx 開關端口 skyworksinc

    電子發燒友網為提供()用于 GSM/ GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx 頻前端模塊,帶四個線性 TRx 開關端口相關產品參數、數據手冊,更有
    發表于 05-28 18:33
    用于 GSM/ GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx <b class='flag-5'>四</b>頻前端模塊,帶<b class='flag-5'>四個</b>線性 TRx 開關端口 skyworksinc

    用于 GSM/GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx 頻前端模塊,帶四個線性 TRx 開關端口 skyworksinc

    電子發燒友網為提供()用于 GSM/GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx 頻前端模塊,帶四個線性 TRx 開關端口相關產品參數、數據手冊,更有
    發表于 05-28 18:33
    用于 GSM/GPRS (824-915 MHz) (1710-1910 MHz) 的 Tx-Rx <b class='flag-5'>四</b>頻前端模塊,帶<b class='flag-5'>四個</b>線性 TRx 開關端口 skyworksinc

    用于頻 GSM / GPRS / EDGE 的 Tx-Rx FEM,具有四個線性 TRx 開關端口和雙頻 TD-SCDMA skyworksinc

    電子發燒友網為提供()用于頻 GSM / GPRS / EDGE 的 Tx-Rx FEM,具有四個線性 TRx 開關端口和雙頻 TD-SCDMA相關產品參數、數據手冊,更有用于
    發表于 05-28 18:31
    用于<b class='flag-5'>四</b>頻 GSM / GPRS / EDGE 的 Tx-Rx FEM,具有<b class='flag-5'>四個</b>線性 TRx 開關端口和雙頻 TD-SCDMA skyworksinc

    PLC產品故障問題測試的四個部分

    ,必須對故障問題進行系統化測試。本文將詳細介紹PLC產品故障問題測試的四個關鍵部分,幫助技術人員快速定位和解決問題。 一、硬件測試 硬件測試是PLC故障診斷的首要環節,主要針對PLC設備的物理部件進行檢查。首先,需要檢查電源模塊是否
    的頭像 發表于 05-11 17:00 ?1790次閱讀
    PLC產品故障問題測試的<b class='flag-5'>四個</b>部分

    四個方面深入剖析富捷電阻的優勢

    理成本的電阻產品系列,為電子行業提供了一可靠的選擇。本文將從產品結構、同業對比、成本分析以及品質保障四個方面深入剖析富捷電阻的優勢,展現其如何在激烈的市場競爭中脫穎而出。
    的頭像 發表于 05-09 10:47 ?1099次閱讀
    從<b class='flag-5'>四個</b>方面深入剖析富捷電阻的優勢

    工業機器人4大控制方式,知道幾種?

    方式和智能控制方式種,這幾種控制方式的功能要點有哪些。 智慧倉儲物流 01 點位控制方式(PTP) 這種控制方式只對工業機器人末端執行器在作業空間中某些規定的離散點上的位姿進行控制。在控制時,只要求工業機器人能夠快
    的頭像 發表于 03-13 10:11 ?1780次閱讀
    工業<b class='flag-5'>機器</b>人4大控制方式,<b class='flag-5'>你</b><b class='flag-5'>知道</b>幾種?