国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

糾錯(cuò)框架的基本結(jié)構(gòu)

深度學(xué)習(xí)自然語言處理 ? 來源:CS的陋室 ? 作者:CS的陋室 ? 2020-10-10 11:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

糾錯(cuò)框架的基本結(jié)構(gòu)

雖然糾錯(cuò)只是一個(gè)看著簡(jiǎn)單的任務(wù),但是實(shí)際上已經(jīng)構(gòu)建成了一個(gè)非常完整的系統(tǒng),根據(jù)這個(gè)系統(tǒng)兼顧很多事情,舉幾個(gè)點(diǎn):

充分縮小范圍,防止過糾,畢竟糾錯(cuò)是NLP系統(tǒng)的上游,過糾的代價(jià)非常大。

充分挖掘可能錯(cuò)誤的位置,在詞匯支持的情況,找到可能正確的結(jié)果,保證召回率。

各種抽取特征,能通過更加嚴(yán)謹(jǐn)?shù)姆绞皆诙鄠€(gè)候選中找到最優(yōu)的結(jié)果。

然后我們來看看一個(gè)比較OK的糾錯(cuò)系統(tǒng)結(jié)構(gòu)是什么樣的,三大步驟:

錯(cuò)誤檢測(cè):檢測(cè)句子錯(cuò)誤的部分,后續(xù)只對(duì)這個(gè)部分進(jìn)行錯(cuò)誤糾正。

候選召回:根據(jù)識(shí)別的錯(cuò)誤進(jìn)行針對(duì)性的修改,這塊依賴候選集。

候選排序:錯(cuò)誤可能有很多。召回的結(jié)果也有很多,那個(gè)才是最優(yōu)解,這步需要通過一定的方式得到最優(yōu)結(jié)果。

錯(cuò)誤檢測(cè)

錯(cuò)誤檢測(cè)是文本進(jìn)入糾錯(cuò)體系的一個(gè)大門,設(shè)立他的目的有這幾個(gè):

縮小糾正范圍,降低后續(xù)流程的壓力。

減少過糾,保證準(zhǔn)確率,用戶自己輸對(duì)了卻改錯(cuò)了體驗(yàn)非常差。

換言之,我們需要在錯(cuò)誤檢測(cè)中做的是,找到句子中可能出現(xiàn)錯(cuò)誤的位置,提取出來任務(wù)就完成了,那么,這塊有什么方法呢。

最簡(jiǎn)單的一種方法,就是結(jié)合詞典去做,這個(gè)詞典其實(shí)已經(jīng)有比較通用的,那就是jieba的詞典(idf.txt),對(duì)于絕大部分人而言,輸入的東西一般都是TOP的,那么一些未見過的,即未登錄詞,就很可能是錯(cuò)誤的內(nèi)容了。但需要注意的是,領(lǐng)域內(nèi)的詞匯我們需要補(bǔ)充,詞典覆蓋率要足夠的高,這樣識(shí)別的準(zhǔn)確率才會(huì)夠高。

第二個(gè)方法也是一個(gè)無監(jiān)督的方法——用語言模型。語言模型能評(píng)判一個(gè)句子出現(xiàn)的概率,換言之,如果句子出現(xiàn)的頻次足夠低,那這里面就很可能有錯(cuò)誤的詞匯,再精確到句子中的每個(gè)位置,那就是一個(gè)局部的n-gram的條件概率了,如果概率比整個(gè)句子明顯低,那就說明這個(gè)位置或者說這個(gè)位置附近可能存在錯(cuò)誤點(diǎn),我們可以拿出來。其實(shí)這個(gè)應(yīng)該這里幾個(gè)方法中門檻最低的一個(gè)了,只需要語料,不需要挖掘覆蓋率足夠大的詞典,也不需要標(biāo)注樣本,直接可以做。

第三個(gè)想說的方法就是序列標(biāo)注的方法。分詞和NER其實(shí)都可以抽象為序列標(biāo)注問題,錯(cuò)誤檢測(cè)也可以,簡(jiǎn)單的其實(shí)就是整個(gè)句子中,有錯(cuò)誤的標(biāo)注為1,沒錯(cuò)誤的標(biāo)注為0,然后通過CRF之類的方法來進(jìn)行預(yù)測(cè),從而完成抽取。這個(gè)能很好的把控準(zhǔn)確性,效果還是會(huì)比較好的,但問題在于這種標(biāo)注樣本,可能比常規(guī)的ner樣本更難拿到。

pycorrector我前面提到過,就用了上面1、2兩種方法,在開放域里面其實(shí)效果不錯(cuò),但是在垂域,我們就需要更多的語料甚至是重新構(gòu)建里面涉及的模型和詞典。

而在我的實(shí)踐中,又有如下的經(jīng)驗(yàn),大家可以參考:

錯(cuò)誤檢測(cè)這塊由于只是糾錯(cuò)系統(tǒng)中的其中一部分,后續(xù)還有大量的步驟可以控制,所以我們并不需要對(duì)這步做非常高的準(zhǔn)確性的要求,抱著“寧可錯(cuò)殺也不放過”的思路去做,保證真正錯(cuò)的部分能被拿出來即可,對(duì)準(zhǔn)確率可以很大程度的放松。

無論是上面哪種方法,檢測(cè)錯(cuò)誤的時(shí)候都要注意,檢測(cè)出錯(cuò)誤的位置可能不是真的問題點(diǎn),而可能識(shí)別出來的未知的附近,因此要擴(kuò)大召回的話,附近的可以都挑出來試試一起處理。

候選召回

在指導(dǎo)錯(cuò)誤的位置以后,我們就要開始對(duì)癥下藥了,那么,什么是可能的藥,我們就要開始找了,這就是候選召回的主要任務(wù),針對(duì)錯(cuò)誤點(diǎn),我們找可能正確的結(jié)果。要找到正確的結(jié)果,主要是兩種方式:基于詞典的和基于NLG的。

基于詞典的方式是比較經(jīng)典而且在現(xiàn)在還是比較常用的方法,說白了我們就要去找一些詞匯,我們叫做“混淆集”,也就是一個(gè)簡(jiǎn)單的kv對(duì),遇到什么詞,我們就給出一些候選的結(jié)果,這個(gè)的結(jié)果非常簡(jiǎn)單,但是挖掘會(huì)非常困難,搜索領(lǐng)域常用的方式就是共現(xiàn)query,大部分情況下,用戶會(huì)在沒有得到正確結(jié)果的時(shí)候修正結(jié)果重新搜索,所以共現(xiàn)query是一個(gè)非常好的挖掘資源。

基于詞典的方式糾錯(cuò)的量總有上限,但是總有一些難以召回的情況,因此借助一些NLG的方式,可以擴(kuò)大召回,這個(gè)NLG,是一種文本生成的方式,可以根據(jù)上下文糾正的句子,給出一些可能的結(jié)果。但是這個(gè)方案的缺點(diǎn)是非常依賴平行樣本,即一個(gè)錯(cuò)誤、一個(gè)正確的樣本,這個(gè)獲取往往會(huì)比較難。

候選排序

現(xiàn)在對(duì)一個(gè)我句子,我們手里都有很多候選的結(jié)果,這里的候選排序主要有兩個(gè)目的:

判斷這么多候選結(jié)果中選出最好的幾個(gè)。

最好的幾個(gè)相比原來的句子要足夠好,才能被糾。

這里,我們需要持續(xù)思考的是,這個(gè)排序規(guī)則改怎么定。

最簡(jiǎn)單的方式就是使用語言模型的perplexity,即混淆度,這是用來一個(gè)句子他真的是句子的打分,一般而言這個(gè)正常無錯(cuò)的句子ppl就會(huì)比較小,有錯(cuò)的句子是ppl的比較大,可以用這個(gè)指標(biāo)來衡量最佳的糾錯(cuò)結(jié)果是什么。

光一個(gè)ppl的評(píng)判是不夠的,不僅僅是ppl的相對(duì)量,還有絕對(duì)量,還有就是pl雖然下降但是還是很高,還有和ppl無關(guān)的因素,如拼音的相似度、和原句的相似度等,因此可以先升級(jí)為機(jī)器學(xué)習(xí),把前面提到的指標(biāo)抽取為特征,通過簡(jiǎn)單的機(jī)器學(xué)習(xí)進(jìn)行計(jì)算。

進(jìn)一步地,同樣可以使用平行樣本,通過深度學(xué)習(xí)的方式來衡量是否需要糾正。

其他相關(guān)

糾錯(cuò)只是一個(gè)系統(tǒng),我們要在里面添加很多的零件完成各個(gè)我們拆解的任務(wù),我們來看看有什么需要做的事情:

語言模型。語言模型在糾錯(cuò)中起到了至關(guān)重要的作用,因此一個(gè)好的語言模型非常重要,而影響語言模型效果的很大一塊因素就是數(shù)據(jù),尤其是統(tǒng)計(jì)語言模型,通過調(diào)整數(shù)據(jù)集的分布,例如使用特定垂域的語料進(jìn)行訓(xùn)練,能有效提升最終的效果,但要注意不要把錯(cuò)誤句子過多的引入到模型中。

混淆集。混淆集用于候選召回,如果正確結(jié)果無法被召回,則效果會(huì)受到很大影響,因此我們需要通過多渠道挖掘,在github、知乎等網(wǎng)站,加上一些論文提到的數(shù)據(jù)中收集外部數(shù)據(jù),同時(shí)通過用戶query,尤其是共現(xiàn)query來獲取一些用戶容易混淆的錯(cuò)誤。有一篇文章提到了,混淆集是糾錯(cuò)的上限,正確答案召回不到,好的錯(cuò)誤檢測(cè)和候選排序都沒用。

規(guī)則。糾錯(cuò)系統(tǒng)中需要大量的規(guī)則,錯(cuò)誤檢測(cè)階段衡量錯(cuò)誤的閾值我們要用規(guī)則卡,排序階段我們也需要一些提權(quán)降權(quán)保證最終我們需要的內(nèi)容能排在前面,例如一些專有名詞的保護(hù),”電池“不能被改為”滇池“,”嬴政“不能被改為”行政“。這些規(guī)則看著簡(jiǎn)單,但是要想提出這些規(guī)則,必須對(duì)數(shù)據(jù)有足夠的了解。

小結(jié)

一連幾篇討論了糾錯(cuò),對(duì)糾錯(cuò)問題有了比較完整的理解,可以知道一個(gè)簡(jiǎn)單的問題可以進(jìn)行細(xì)化然后構(gòu)建出完整的系統(tǒng)。最后我放幾篇比較好的參考文章,大家可以繼續(xù)深入閱讀。

平安糾錯(cuò):https://zhuanlan.zhihu.com/p/159101860

中文(語音結(jié)果)的文本糾錯(cuò)綜述:https://blog.csdn.net/lipengcn/article/details/82556569?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2

責(zé)任編輯:lq
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 框架
    +關(guān)注

    關(guān)注

    0

    文章

    404

    瀏覽量

    18425
  • 糾錯(cuò)
    +關(guān)注

    關(guān)注

    0

    文章

    5

    瀏覽量

    13380
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    571

    瀏覽量

    11315

原文標(biāo)題:深入討論糾錯(cuò)系統(tǒng)

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    LuatOS框架的使用(上)

    在資源受限的物聯(lián)網(wǎng)終端設(shè)備中,如何實(shí)現(xiàn)快速開發(fā)與穩(wěn)定運(yùn)行是關(guān)鍵挑戰(zhàn)。LuatOS框架通過將Lua語言與底層硬件抽象層深度融合,提供了一套簡(jiǎn)潔高效的開發(fā)范式。本文將圍繞LuatOS框架的使用展開,從
    的頭像 發(fā)表于 01-27 19:38 ?158次閱讀
    LuatOS<b class='flag-5'>框架</b>的使用(上)

    FEC前向糾錯(cuò)技術(shù):讓無線傳輸“自我修復(fù)”的通信衛(wèi)士

    一、什么是前向糾錯(cuò)(FEC)?前向糾錯(cuò)(Forward Error Correction,F(xiàn)EC)是一種通過在數(shù)據(jù)傳輸中增加冗余校驗(yàn)信息,使接收端能夠自行檢測(cè)并糾正錯(cuò)誤的通信技術(shù)。它特別適用于單向
    發(fā)表于 01-09 14:12

    半導(dǎo)體封裝框架的外部結(jié)構(gòu)設(shè)計(jì)

    封裝框架的外部結(jié)構(gòu)設(shè)計(jì),核心包含聯(lián)筋(Dambar)與假腳(False leads)兩大關(guān)鍵部分,以下將針對(duì)各設(shè)計(jì)要素及技術(shù)要求展開詳細(xì)說明。
    的頭像 發(fā)表于 12-26 15:03 ?565次閱讀
    半導(dǎo)體封裝<b class='flag-5'>框架</b>的外部<b class='flag-5'>結(jié)構(gòu)</b>設(shè)計(jì)

    結(jié)構(gòu)體聲明與定義

    符號(hào)整數(shù)表示 } 這樣,我們就相當(dāng)于描繪好了一個(gè)框架,以后要用的話直接定義一個(gè)這種類型的變量就好了。 2、定義 我們剛剛申請(qǐng)了一個(gè)名叫Info的結(jié)構(gòu)體類型,那么理論上我們可以像聲明其他變量的操作
    發(fā)表于 12-11 07:52

    IQM與NVIDIA攜手開展NVQLink合作,推動(dòng)可擴(kuò)展量子糾錯(cuò)技術(shù)發(fā)展

    全球超導(dǎo)量子計(jì)算領(lǐng)域的領(lǐng)軍企業(yè)IQM Quantum Computers今日宣布,將在其量子計(jì)算機(jī)中集成NVIDIA的NVQLink技術(shù),以實(shí)現(xiàn)量子糾錯(cuò)的規(guī)模化。量子糾錯(cuò)是實(shí)現(xiàn)量子計(jì)算實(shí)際
    的頭像 發(fā)表于 10-31 10:30 ?399次閱讀

    PYQT 應(yīng)用程序框架及開發(fā)工具

    大家好,本團(tuán)隊(duì)此次分享的內(nèi)容為開發(fā)過程中使用到的PYQT 應(yīng)用程序框架及開發(fā)工具。 pYqt 是一個(gè)多平臺(tái)的 python 圖形用戶界面應(yīng)用程序框架,由于其面向?qū)ο蟆? 易擴(kuò)展(可實(shí)現(xiàn)組件編程等
    發(fā)表于 10-29 07:15

    語法糾錯(cuò)和testbench的自動(dòng)生成

    。 語法糾錯(cuò) 在vscode的拓展中,輸入Verilog查找如下插件: 安裝完該插件后就支持了語法高亮和自動(dòng)補(bǔ)全等功能,但是要實(shí)現(xiàn)自動(dòng)糾錯(cuò)還需要安裝ctags。這在該擴(kuò)展的細(xì)節(jié)中有介紹,各位可以
    發(fā)表于 10-27 07:07

    指令集測(cè)試的一種糾錯(cuò)方法

    本文描述在進(jìn)行指令集測(cè)試的一種糾錯(cuò)方法 1.打開測(cè)試指令集對(duì)應(yīng)的dump文件 dump文件是指由匯編文件進(jìn)行反匯編之后,可以供人閱讀指令的反匯編文件。其包含了每一條指令的具體操作的信息。指令集測(cè)試
    發(fā)表于 10-24 14:04

    請(qǐng)問STM32如何移植Audio框架

    最近在學(xué)習(xí)音頻解碼,想用一下Audio框架。 1、這個(gè)該如何移植到自己創(chuàng)建的BSP并對(duì)接到device框架中?看了官方移植文檔沒有對(duì)沒有對(duì)該部分的描述。 2、我只想實(shí)現(xiàn)一個(gè)簡(jiǎn)單的播放功能,只用一個(gè)DAC芯片(比如CS4344)是否就能達(dá)到我的需求?
    發(fā)表于 09-25 07:17

    一種抗輻射加固檢錯(cuò)糾錯(cuò)電路的設(shè)計(jì)

    電子發(fā)燒友網(wǎng)站提供《一種抗輻射加固檢錯(cuò)糾錯(cuò)電路的設(shè)計(jì).pdf》資料免費(fèi)下載
    發(fā)表于 08-11 15:38 ?0次下載

    BitsButton嵌入式按鍵處理框架

    BitsButton 一、簡(jiǎn)介? ??BitsButton是一款針對(duì)嵌入式系統(tǒng)優(yōu)化的按鍵檢測(cè)框架??。通過創(chuàng)新的二進(jìn)制位序列技術(shù),它能高效處理單鍵、組合鍵(如Ctrl+C)和復(fù)雜按鍵序列(如單擊
    發(fā)表于 08-02 11:24

    沒有強(qiáng)大糾錯(cuò)的工業(yè)硬盤,敢叫工業(yè)級(jí)SSD固態(tài)硬盤嗎?

    在工業(yè)環(huán)境中,數(shù)據(jù)的精度與穩(wěn)定性往往意味著設(shè)備運(yùn)轉(zhuǎn)的成敗,甚至關(guān)乎系統(tǒng)安全和業(yè)務(wù)連續(xù)性。很多用戶在選購“工業(yè)級(jí)SSD固態(tài)硬盤”時(shí),只盯著讀寫速度,卻忽略了一個(gè)至關(guān)重要的核心指標(biāo)——糾錯(cuò)與壞塊管理能力
    的頭像 發(fā)表于 08-02 10:32 ?940次閱讀

    ArkUI-X應(yīng)用工程結(jié)構(gòu)說明

    Bundle Resources管理ArkTS編譯產(chǎn)物、ArkUI應(yīng)用資源和ArkUI框架資源。 Android應(yīng)用工程結(jié)構(gòu) ArkUI-X Android應(yīng)用工程 ├── app │├── libs
    發(fā)表于 06-19 23:11

    ArkUI-X框架LogInterface使用指南

    ArkUI-X框架支持日志攔截能力,Android側(cè)提供原生接口,用于注入LogInterface接口,框架日志及ts日志通過該接口輸出,本文的核心內(nèi)容是介紹如何在Android平臺(tái)上有效利用
    發(fā)表于 06-15 23:20

    STM32如何移植Audio框架

    最近在學(xué)習(xí)音頻解碼,想用一下Audio框架。 1、這個(gè)該如何移植到自己創(chuàng)建的BSP并對(duì)接到device框架中?看了官方移植文檔沒有對(duì)沒有對(duì)該部分的描述。 2、我只想實(shí)現(xiàn)一個(gè)簡(jiǎn)單的播放功能,只用一個(gè)DAC芯片(比如CS4344)是否就能達(dá)到我的需求?
    發(fā)表于 04-01 08:08