国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

4種常見的NLP實踐思路分析

深度學(xué)習(xí)自然語言處理 ? 來源:CSDN技術(shù)社區(qū) ? 作者:CSDN技術(shù)社區(qū) ? 2020-09-24 10:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

越來越多的人選擇參加算法賽事,為了提升項目實踐能力,同時也希望能拿到好的成績增加履歷的豐富度。期望如此美好,現(xiàn)實卻是:看完賽題,一點思路都木有。那么,當(dāng)我們拿到一個算法賽題后,如何破題,如何找到可能的解題思路呢。

本文針對NLP項目給出了4種常見的解題思路,其中包含1種基于機器學(xué)習(xí)的思路和3種基于深度學(xué)習(xí)的思路。

一、數(shù)據(jù)及背景

https://tianchi.aliyun.com/competition/entrance/531810/information(阿里天池-零基礎(chǔ)入門NLP賽事)

二、數(shù)據(jù)下載及分析2.1 獲取數(shù)據(jù)

我們直接打開數(shù)據(jù)下載地址,看到的是這樣一個頁面:

接著就三步走:注冊報名下載數(shù)據(jù),查看數(shù)據(jù)前五行可以看到我們獲得的數(shù)據(jù)如下:

其中左邊的label是數(shù)據(jù)集文本對應(yīng)的標(biāo)簽,而右邊的text則是編碼后的文本,文本對應(yīng)的標(biāo)簽列舉如下:

根據(jù)官方描述:賽題以匿名處理后的新聞數(shù)據(jù)為賽題數(shù)據(jù),數(shù)據(jù)集報名后可見并可下載。賽題數(shù)據(jù)為新聞文本,并按照字符級別進行匿名處理。整合劃分出14個候選分類類別:財經(jīng)、彩票、房產(chǎn)、股票、家居、教育、科技、社會、時尚、時政、體育、星座、游戲、娛樂的文本數(shù)據(jù)。 賽題數(shù)據(jù)由以下幾個部分構(gòu)成:訓(xùn)練集20w條樣本,測試集A包括5w條樣本,測試集B包括5w條樣本。為了預(yù)防選手人工標(biāo)注測試集的情況,我們將比賽數(shù)據(jù)的文本按照字符級別進行了匿名處理。

同時我們還應(yīng)該注意到官網(wǎng)有給出結(jié)果評價指標(biāo),我們也需要根據(jù)這個評價指標(biāo)衡量我們的驗證集數(shù)據(jù)誤差:

既然該拿到的我們都拿到了,我們接下來就開始構(gòu)思我們都應(yīng)該使用哪些思路來完成我們的預(yù)測。

2.2 常見思路

賽題本質(zhì)是一個文本分類問題,需要根據(jù)每句的字符進行分類。但賽題給出的數(shù)據(jù)是匿名化的,不能直接使用中文分詞等操作,這個是賽題的難點。

因此本次賽題的難點是需要對匿名字符進行建模,進而完成文本分類的過程。由于文本數(shù)據(jù)是一種典型的非結(jié)構(gòu)化數(shù)據(jù),因此可能涉及到特征提取和分類模型兩個部分。為了減低參賽難度,我們提供了一些解題思路供大家參考:

思路1:TF-IDF + 機器學(xué)習(xí)分類器:直接使用TF-IDF對文本提取特征,并使用分類器進行分類。在分類器的選擇上,可以使用SVM、LR、或者XGBoost。

思路2:FastText:FastText是入門款的詞向量,利用Facebook提供的FastText工具,可以快速構(gòu)建出分類器。

思路3:WordVec + 深度學(xué)習(xí)分類器:WordVec是進階款的詞向量,并通過構(gòu)建深度學(xué)習(xí)分類完成分類。深度學(xué)習(xí)分類的網(wǎng)絡(luò)結(jié)構(gòu)可以選擇TextCNN、TextRNN或者BiLSTM。

思路4:Bert詞向量:Bert是高配款的詞向量,具有強大的建模學(xué)習(xí)能力。

三、基于機器學(xué)習(xí)的文本分類

3.1 TF-IDF+機器學(xué)習(xí)分類器(思路1)

3.1.1. 什么是TF-IDF?

TF-IDF(term frequency–inverse document frequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù),常用于挖掘文章中的關(guān)鍵詞,而且算法簡單高效,常被工業(yè)用于最開始的文本數(shù)據(jù)清洗。 TF-IDF有兩層意思,一層是"詞頻"(Term Frequency,縮寫為TF),另一層是"逆文檔頻率"(Inverse Document Frequency,縮寫為IDF)。

當(dāng)有TF(詞頻)和IDF(逆文檔頻率)后,將這兩個詞相乘,就能得到一個詞的TF-IDF的值。某個詞在文章中的TF-IDF越大,那么一般而言這個詞在這篇文章的重要性會越高,所以通過計算文章中各個詞的TF-IDF,由大到小排序,排在最前面的幾個詞,就是該文章的關(guān)鍵詞。

3.2.2. TF-IDF算法步驟

第一步,計算詞頻:

考慮到文章有長短之分,為了便于不同文章的比較,進行"詞頻"標(biāo)準(zhǔn)化:

第二步,計算逆文檔頻率:

這時,需要一個語料庫(corpus),用來模擬語言的使用環(huán)境。

如果一個詞越常見,那么分母就越大,逆文檔頻率就越小越接近0。分母之所以要加1,是為了避免分母為0(即所有文檔都不包含該詞)。log表示對得到的值取對數(shù)。

第三步,計算TF-IDF:

可以看到,TF-IDF與一個詞在文檔中的出現(xiàn)次數(shù)成正比,與該詞在整個語言中的出現(xiàn)次數(shù)成反比。所以,自動提取關(guān)鍵詞的算法就很清楚了,就是計算出文檔的每個詞的TF-IDF值,然后按降序排列,取排在最前面的幾個詞。

3.3.3. 優(yōu)缺點

TF-IDF的優(yōu)點是簡單快速,而且容易理解。缺點是有時候用詞頻來衡量文章中的一個詞的重要性不夠全面,有時候重要的詞出現(xiàn)的可能不夠多,而且這種計算無法體現(xiàn)位置信息,無法體現(xiàn)詞在上下文的重要性。如果要體現(xiàn)詞的上下文結(jié)構(gòu),那么你可能需要使用word2vec算法來支持。

四、基于深度學(xué)習(xí)的文本分類

4.1 FastText(思路2)

4.1.1 FastText的核心思想

將整篇文檔的詞及n-gram向量疊加平均得到文檔向量,然后使用文檔向量做softmax多分類。這中間涉及到兩個技巧:字符級N-gram特征的引入以及分層Softmax分類。

4.1.2字符級N-gram特征

N-gram是基于語言模型的算法,基本思想是將文本內(nèi)容按照子節(jié)順序進行大小為N的窗口滑動操作,最終形成窗口為N的字節(jié)片段序列。舉個例子:

我來到達觀數(shù)據(jù)參觀

相應(yīng)的bigram特征為:我來 來到 到達 達觀 觀數(shù) 數(shù)據(jù) 據(jù)參 參觀

相應(yīng)的trigram特征為:我來到 來到達 到達觀 達觀數(shù) 觀數(shù)據(jù) 數(shù)據(jù)參 據(jù)參觀

注意一點:n-gram中的gram根據(jù)粒度不同,有不同的含義。它可以是字粒度,也可以是詞粒度的。上面所舉的例子屬于字粒度的n-gram,詞粒度的n-gram看下面例子:

我 來到 達觀數(shù)據(jù) 參觀

相應(yīng)的bigram特征為:我/來到 來到/達觀數(shù)據(jù) 達觀數(shù)據(jù)/參觀

相應(yīng)的trigram特征為:我/來到/達觀數(shù)據(jù) 來到/達觀數(shù)據(jù)/參觀

n-gram產(chǎn)生的特征只是作為文本特征的候選集,你后面可能會采用信息熵、卡方統(tǒng)計、IDF等文本特征選擇方式篩選出比較重要特征。

4.1.3 分層Softmax分類

softmax函數(shù)常在神經(jīng)網(wǎng)絡(luò)輸出層充當(dāng)激活函數(shù),目的就是將輸出層的值歸一化到0-1區(qū)間,將神經(jīng)元輸出構(gòu)造成概率分布,主要就是起到將神經(jīng)元輸出值進行歸一化的作用。

下圖是一個分層Softmax示例:

通過分層的Softmax,計算復(fù)雜度一下從|K|降低到log|K|。

4.2Word2Vec+深度學(xué)習(xí)分類器(思路3)

4.2.1 Word2Vec

Word2vec,是一群用來產(chǎn)生詞向量的相關(guān)模型。這些模型為淺而雙層的神經(jīng)網(wǎng)絡(luò),用來訓(xùn)練以重新建構(gòu)語言學(xué)之詞文本。網(wǎng)絡(luò)以詞表現(xiàn),并且需猜測相鄰位置的輸入詞,在word2vec中詞袋模型假設(shè)下,詞的順序是不重要的。訓(xùn)練完成之后,word2vec模型可用來映射每個詞到一個向量,可用來表示詞對詞之間的關(guān)系,該向量為神經(jīng)網(wǎng)絡(luò)之隱藏層?!景俣劝倏啤?/p>

Word2vec 是 Word Embedding 的方法之一。他是 2013 年由谷歌的 Mikolov 提出了一套新的詞嵌入方法。

4.2.2 優(yōu)化方法

為了提高速度,Word2vec 經(jīng)常采用 2 種加速方式:

1、Negative Sample(負采樣)

2、Hierarchical Softmax

4.2.3 優(yōu)缺點

優(yōu)點:

由于 Word2vec 會考慮上下文,跟之前的 Embedding 方法相比,效果要更好(但不如 18 年之后的方法)

比之前的 Embedding方 法維度更少,所以速度更快

通用性很強,可以用在各種 NLP 任務(wù)中

缺點:

由于詞和向量是一對一的關(guān)系,所以多義詞的問題無法解決。

Word2vec 是一種靜態(tài)的方式,雖然通用性強,但是無法針對特定任務(wù)做動態(tài)優(yōu)化

4.3Bert詞向量(思路4)

BERT(Bidirectional Encoder Representations from Transformers)詞向量模型,2018年10月在《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》這篇論文中被Google提出,在11種不同nlp測試中創(chuàng)出最佳成績,包括將glue基準(zhǔn)推至80.4%(絕對改進7.6%),multinli準(zhǔn)確度達到86.7% (絕對改進率5.6%)等。

4.1.1 特征

1、通過聯(lián)合調(diào)節(jié)所有層中的左右上下文來預(yù)訓(xùn)練深度雙向表示

2、the first fine-tuning based representation model that achieves state-of-the-art performance on a large suite of sentence-level and token-level tasks, outperforming many systems with task-specific architectures

3、所需計算量非常大。Jacob 說:「OpenAI 的 Transformer 有 12 層、768 個隱藏單元,他們使用 8 塊 P100 在 8 億詞量的數(shù)據(jù)集上訓(xùn)練 40 個 Epoch 需要一個月,而 BERT-Large 模型有 24 層、2014 個隱藏單元,它們在有 33 億詞量的數(shù)據(jù)集上需要訓(xùn)練 40 個 Epoch,因此在 8 塊 P100 上可能需要 1 年?16 Cloud TPU 已經(jīng)是非常大的計算力了。

4、預(yù)訓(xùn)練的BERT表示可以通過一個額外的輸出層進行微調(diào),適用于廣泛任務(wù)的state-of-the-art模型的構(gòu)建,比如問答任務(wù)和語言推理,無需針對具體任務(wù)做大幅架構(gòu)修改。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23280

原文標(biāo)題:【特征提取+分類模型】4種常見的NLP實踐思路

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    ChatGPT爆火背后,NLP呈爆發(fā)式增長!

    ? 電子發(fā)燒友網(wǎng)報道(文/李彎彎)如今大火的ChatGPT,得益于AIGC 背后的關(guān)鍵技術(shù)NLP(Natural LanguageProcessing,自然語言處理)得到突破。 NLP技術(shù)是一
    的頭像 發(fā)表于 02-13 09:47 ?4063次閱讀

    可靠性失效分析常見思路

    失效分析在生產(chǎn)建設(shè)中極其重要,失效分析的限期往往要求很短,分析結(jié)論要正確無誤,改進措施要切實可行。 1 失效分析思路的內(nèi)涵 失效
    發(fā)表于 04-25 11:13 ?1.3w次閱讀
    可靠性失效<b class='flag-5'>分析</b><b class='flag-5'>常見</b><b class='flag-5'>思路</b>

    教學(xué)思路實踐教程-使用Multisim 10

    `<p><font face="Verdana"><strong>教學(xué)思路實踐
    發(fā)表于 12-03 15:41

    NLP的面試題目

    NLP面試題目6-10
    發(fā)表于 05-21 15:02

    Altium常見4層板的設(shè)計思路

    模塊主要包含SDRAM、Flash、CPU、電源電路的常見4層板的設(shè)計思路,BGA出線方式,菊花鏈(Fly-by)拓撲結(jié)構(gòu),蛇形等長的技巧應(yīng)用
    發(fā)表于 01-24 09:28

    光耦隔離的4常見方法對比

    光耦隔離的4常見方法對比
    發(fā)表于 05-31 11:06 ?13.3w次閱讀
    光耦隔離的<b class='flag-5'>4</b><b class='flag-5'>種</b><b class='flag-5'>常見</b>方法對比

    NLP的介紹和如何利用機器學(xué)習(xí)進行NLP以及三NLP技術(shù)的詳細介紹

    本文用簡潔易懂的語言,講述了自然語言處理(NLP)的前世今生。從什么是NLP到為什么要學(xué)習(xí)NLP,再到如何利用機器學(xué)習(xí)進行NLP,值得一讀。這是該系列的第一部分,介紹了三
    的頭像 發(fā)表于 06-10 10:26 ?7.9w次閱讀
    <b class='flag-5'>NLP</b>的介紹和如何利用機器學(xué)習(xí)進行<b class='flag-5'>NLP</b>以及三<b class='flag-5'>種</b><b class='flag-5'>NLP</b>技術(shù)的詳細介紹

    網(wǎng)絡(luò)維護與常見故障的分析與排除詳細資料分析

    本文檔的主要內(nèi)容詳細介紹的是網(wǎng)絡(luò)維護與常見故障的分析與排除詳細資料分析主要內(nèi)容包括了:1 網(wǎng)絡(luò)維護概述,2 網(wǎng)絡(luò)常見故障,3 網(wǎng)絡(luò)故障排除的
    發(fā)表于 08-16 08:00 ?6次下載

    金融市場中的NLP 情感分析

    的機器學(xué)習(xí),而不是使用深層神經(jīng)網(wǎng)絡(luò)。 2018年,在一些NLP任務(wù)中,一名為BERT的最先進(STOA)模型的表現(xiàn)超過了人類的得分。在這里,我將幾個模型應(yīng)用于情緒分析任務(wù),以了解它們在我所處的金融市場中有多大用處。代碼在jup
    的頭像 發(fā)表于 11-02 16:18 ?2552次閱讀

    幾個常見的EMI輻射問題分析思路資料下載

    電子發(fā)燒友網(wǎng)為你提供幾個常見的EMI輻射問題分析思路資料下載的電子資料下載,更有其他相關(guān)的電路圖、源代碼、課件教程、中文資料、英文資料、參考設(shè)計、用戶指南、解決方案等資料,希望可以幫助到廣大的電子工程師們。
    發(fā)表于 04-04 08:42 ?5次下載
    幾個<b class='flag-5'>常見</b>的EMI輻射問題<b class='flag-5'>分析</b><b class='flag-5'>思路</b>資料下載

    4常見DC電源接口的封裝尺寸參數(shù)

    4常見DC電源接口的封裝尺寸參數(shù)(通信電源技術(shù)期刊2020)-4常見DC電源接口的封裝尺寸參
    發(fā)表于 09-15 18:36 ?28次下載
    <b class='flag-5'>4</b><b class='flag-5'>種</b><b class='flag-5'>常見</b>DC電源接口的封裝尺寸參數(shù)

    2008年精選100例電路設(shè)計思路常見設(shè)計方法

    詳細介紹100例電路設(shè)計思路常見設(shè)計方法
    發(fā)表于 01-04 09:27 ?76次下載

    NLP類別不均衡問題之loss大集合

      NLP 任務(wù)中,數(shù)據(jù)類別不均衡問題應(yīng)該是一個極常見又頭疼的的問題了。最近在工作中也是碰到這個問題,花了些時間梳理并實踐了下類別不均衡問題的解決方式,主要實踐了下“魔改”loss(f
    的頭像 發(fā)表于 01-31 16:52 ?1615次閱讀

    NLP類別不均衡問題之loss合集

    NLP 任務(wù)中,數(shù)據(jù)類別不均衡問題應(yīng)該是一個極常見又頭疼的的問題了。最近在工作中也是碰到這個問題,花了些時間梳理并實踐了下類別不均衡問題的解決方式,主要實踐了下“魔改”loss(foc
    的頭像 發(fā)表于 02-23 14:10 ?1679次閱讀
    <b class='flag-5'>NLP</b>類別不均衡問題之loss合集

    開關(guān)電源維修思路常見故障

    開關(guān)電源的維修思路常見故障處理是電子技術(shù)人員需要掌握的重要技能。以下是對開關(guān)電源維修思路常見故障的詳細分析。 ? 一、開關(guān)電源維修
    的頭像 發(fā)表于 08-03 07:38 ?2474次閱讀