国产成人精品一二区熟女,九九操,国产做a爱一级毛片久久

PaddleNLP v2.3帶來兩大重磅能力：

通用信息抽取統(tǒng)一建模技術(shù)UIE開源！
文心大模型ENRIE輕量級(jí)模型及一系列產(chǎn)業(yè)范例實(shí)踐開源！

通用信息抽取

在金融、政務(wù)、法律、醫(yī)療等眾多行業(yè)中，大量文檔信息需要進(jìn)行數(shù)字化及結(jié)構(gòu)化處理，而人工處理方式往往費(fèi)時(shí)費(fèi)力，且容易產(chǎn)生錯(cuò)誤。信息抽取技術(shù)能很好地解決這個(gè)問題。信息抽取（Information Extraction,IE）指的是從自然語言文本中抽取指定類型的實(shí)體、關(guān)系、事件等事實(shí)信息，并形成結(jié)構(gòu)化數(shù)據(jù)輸出的文本處理技術(shù)。

圖：信息抽取應(yīng)用場(chǎng)景示例

隨著企業(yè)智能化轉(zhuǎn)型的加速，信息抽取技術(shù)被廣泛應(yīng)用于各行各業(yè)的文本處理中。舉個(gè)例子，在政務(wù)場(chǎng)景下，市政工作人員需要處理各類市民電話投訴事件，很難從長篇累牘的投訴內(nèi)容中一眼就找到需要的信息，而信息抽取技術(shù)則可以快速提取出投訴報(bào)告中的被投訴方、事件發(fā)生時(shí)間、地點(diǎn)、投訴事件等信息，使得工作人員能夠快速掌握投訴要點(diǎn)，大幅提升處理效率。

信息抽取是NLP技術(shù)落地中必不可少的環(huán)節(jié)，然而當(dāng)前市面上的信息抽取工具大多基于傳統(tǒng)算法構(gòu)建，偏向?qū)W術(shù)研究，對(duì)實(shí)際使用并不友好。產(chǎn)業(yè)級(jí)信息抽取面臨著多種挑戰(zhàn)：

領(lǐng)域多樣：領(lǐng)域之間知識(shí)遷移難度高，如通用領(lǐng)域知識(shí)很難遷移到垂類領(lǐng)域，垂類領(lǐng)域之間的知識(shí)很難相互遷移；
任務(wù)多樣：針對(duì)實(shí)體、關(guān)系、事件等不同的信息抽取任務(wù)，需要開發(fā)不同的模型，開發(fā)成本和機(jī)器資源消耗都很大；
數(shù)據(jù)獲取&標(biāo)注成本高：部分領(lǐng)域數(shù)據(jù)稀缺，難以獲取，且領(lǐng)域?qū)I(yè)性使得數(shù)據(jù)標(biāo)注門檻高。

針對(duì)以上難題，中科院軟件所和百度共同提出了一個(gè)大一統(tǒng)諸多任務(wù)的通用信息抽取技術(shù)UIE（Universal Information Extraction），在實(shí)體、關(guān)系、事件和情感等4個(gè)信息抽取任務(wù)、13個(gè)數(shù)據(jù)集的全監(jiān)督、低資源和少樣本設(shè)置下，UIE均取得了SOTA性能，這項(xiàng)成果發(fā)表在ACL 2022[1]。

飛槳PaddleNLP結(jié)合文心大模型中的知識(shí)增強(qiáng)NLP大模型ERNIE 3.0，發(fā)揮了UIE在中文任務(wù)上的強(qiáng)大潛力，開源了首個(gè)面向通用信息抽取的產(chǎn)業(yè)級(jí)技術(shù)方案，不需要標(biāo)注數(shù)據(jù)（或僅需少量標(biāo)注數(shù)據(jù)），即可快速完成各類信息抽取任務(wù)：

多任務(wù)統(tǒng)一建模

傳統(tǒng)技術(shù)方案下，針對(duì)不同的抽取任務(wù)，需要構(gòu)建多個(gè)IE模型。各個(gè)模型單獨(dú)訓(xùn)練，數(shù)據(jù)和知識(shí)不共享。一個(gè)公司可能需要管理眾多IE模型。而在UIE方案下，單個(gè)模型解決所有信息抽取需求，包括但不限于實(shí)體、關(guān)系、事件、評(píng)價(jià)維度、觀點(diǎn)詞、情感傾向等信息抽取，降低開發(fā)成本和機(jī)器成本。

圖：傳統(tǒng)方案 vs UIE統(tǒng)一建模方案

UIE是一個(gè)大一統(tǒng)諸多任務(wù)的開放域信息抽取技術(shù)方案，直接上圖：

通過構(gòu)建結(jié)構(gòu)化模式提示器（SSI，Structural Schema Instructor），UIE能夠?qū)Σ煌男畔⒊槿∧繕?biāo)進(jìn)行統(tǒng)一編碼，從而實(shí)現(xiàn)多任務(wù)的統(tǒng)一建模。

簡單來說，UIE借鑒近年來火熱的Prompt概念，將希望抽取的Schema信息轉(zhuǎn)換成“線索詞”（Schema-based Prompt）作為模型輸入的前綴，使得模型理論上能夠適應(yīng)不同領(lǐng)域和任務(wù)的Schema信息，并按需抽取出線索詞指向的結(jié)果，從而實(shí)現(xiàn)開放域環(huán)境下的通用信息抽取。例如上圖中，假如我們希望從一段文本中抽取出“人名”的實(shí)體和“工作于”的關(guān)系，便可以構(gòu)造[spot] person [asso] work for的前綴，連接要抽取的目標(biāo)文本[text] ，作為整體輸入到UIE中。

零樣本抽取和少樣本快速遷移能力

UIE開創(chuàng)了基于Prompt的信息抽取多任務(wù)統(tǒng)一建模方式，通過大規(guī)模多任務(wù)預(yù)訓(xùn)練學(xué)習(xí)的通用抽取能力，可以實(shí)現(xiàn)不限定行業(yè)領(lǐng)域和抽取目標(biāo)，零樣本快速冷啟動(dòng)。例如在金融領(lǐng)域客戶收入證明信息抽取（下圖左）中，無需訓(xùn)練數(shù)據(jù)，即可全部抽取正確。針對(duì)復(fù)雜抽取需求，標(biāo)注少量數(shù)據(jù)微調(diào)即完成任務(wù)適配，大大降低標(biāo)注門檻和成本。例如醫(yī)療報(bào)告結(jié)構(gòu)化（下圖中）和報(bào)銷單信息抽取（下圖右）中，僅標(biāo)注了幾條樣本，F(xiàn)1值就取得大幅提升，真是太實(shí)用了！

圖：實(shí)體抽取零樣本和小樣本效果展示

除實(shí)體抽取任務(wù)外，在金融、醫(yī)療、互聯(lián)網(wǎng)三大自建測(cè)試集的關(guān)系、事件抽取任務(wù)上進(jìn)行實(shí)驗(yàn)，標(biāo)注少樣本也可帶來顯著的效果提升，尤其在金融、醫(yī)療等專業(yè)垂類領(lǐng)域上效果突出，例如，在金融領(lǐng)域的事件抽取任務(wù)上，僅僅標(biāo)注5條樣本，F(xiàn)1值提升了25個(gè)點(diǎn)！也就是說，即使模型在某些case或某些場(chǎng)景下表現(xiàn)欠佳，人工標(biāo)幾個(gè)樣本，丟給模型后就會(huì)有大幅的效果提升。

說明：0-shot表示無訓(xùn)練數(shù)據(jù)直接預(yù)測(cè)，5-shot表示基于5條標(biāo)注數(shù)據(jù)進(jìn)行模型微調(diào)。uie-tiny和uie-base分別表示6層和12層的UIE模型。

UIE強(qiáng)大的小樣本學(xué)習(xí)能力是行業(yè)大規(guī)模落地的關(guān)鍵，目前已通過了大量的業(yè)務(wù)驗(yàn)證：

在金融領(lǐng)域，某銀行使用UIE實(shí)現(xiàn)了智能營銷場(chǎng)景下的標(biāo)簽抽取和內(nèi)容推薦系統(tǒng)，在線上推薦業(yè)務(wù)中，AUC提升14%；
在醫(yī)療領(lǐng)域，UIE實(shí)現(xiàn)對(duì)電子病歷、醫(yī)療書籍進(jìn)行癥狀、疾病、檢驗(yàn)指標(biāo)等關(guān)鍵信息抽取，助力百度智慧醫(yī)療業(yè)務(wù)迅速殺入國內(nèi)第一梯隊(duì)；
在法律領(lǐng)域，抽取裁判文書中的犯罪事件主體、事件經(jīng)過、罪名等信息，建立刑事大數(shù)據(jù)分析系統(tǒng)，僅用60條數(shù)據(jù)進(jìn)行模型微調(diào)，F(xiàn)1達(dá)到94.36%；
在政務(wù)領(lǐng)域，識(shí)別市民投訴電話中的投訴對(duì)象、地點(diǎn)等關(guān)鍵信息，快速聚合相似事件、智能分發(fā)，有效提升了事件處理率，目前，UIE已上線到多個(gè)城市的政務(wù)系統(tǒng)中。
在電商零售領(lǐng)域，某大型家電零售企業(yè)借助UIE實(shí)現(xiàn)了評(píng)論觀點(diǎn)抽取、情感傾向預(yù)測(cè)，搭建了完整的服務(wù)智能化評(píng)分系統(tǒng)，準(zhǔn)確率和召回率均達(dá)到90%+。服務(wù)評(píng)分的智能化，使得該企業(yè)客服運(yùn)營人力減少40%，負(fù)面問題處理率從60%飆升至100%，售后的差評(píng)率整體降低70%。

便捷易用

這么酷炫的技術(shù)能力，如何快速應(yīng)用到業(yè)務(wù)中呢？

通過調(diào)用paddlenlp.Taskflow API即可實(shí)現(xiàn)零樣本（zero-shot）抽取多種類型的信息：

話不多說，直接上代碼，上效果！

#實(shí)體抽取
frompprintimportpprint
frompaddlenlpimportTaskflow
schema=['時(shí)間','選手','賽事名稱']#Definetheschemaforentityextraction
ie=Taskflow('information_extraction',schema=schema)
pprint(ie("2月8日上午北京冬奧會(huì)自由式滑雪女子大跳臺(tái)決賽中中國選手谷愛凌以188.25分獲得金牌！"))#Betterprintresultsusingpprint
>>>
[{'時(shí)間':[{'end':6,'probability':0.9857378532924486,'start':0,'text':'2月8日上午'}],
'賽事名稱':[{'end':23,'probability':0.8503089953268272,'start':6,'text':'北京冬奧會(huì)自由式滑雪女子大跳臺(tái)決賽'}],
'選手':[{'end':31,'probability':0.8981548639781138,'start':28,'text':'谷愛凌'}]}]

僅用三行代碼就實(shí)現(xiàn)了精準(zhǔn)實(shí)體抽取！再來試試更困難的事件抽取任務(wù)，看看效果如何？

#事件抽取
schema={'地震觸發(fā)詞':['地震強(qiáng)度','時(shí)間','震中位置','震源深度']}#Definetheschemaforeventextraction
ie.set_schema(schema)#Resetschema
ie('中國地震臺(tái)網(wǎng)正式測(cè)定：5月16日06時(shí)08分在云南臨滄市鳳慶縣(北緯24.34度，東經(jīng)99.98度)發(fā)生3.5級(jí)地震，震源深度10千米。')
>>>
[{'地震觸發(fā)詞':
[{'end':58,'probability':0.9987181623528585,'start':56,'text':'地震',
'relations':
{'地震強(qiáng)度':[{'end':56,'probability':0.9962985320905915,'start':52,'text':'3.5級(jí)'}],
'時(shí)間':[{'end':22,'probability':0.9882578028575182,'start':11,'text':'5月16日06時(shí)08分'}],
'震中位置':[{'end':50,'probability':0.8551417444021787,'start':23,'text':'云南臨滄市鳳慶縣(北緯24.34度，東經(jīng)99.98度)'}],
'震源深度':[{'end':67,'probability':0.999158304648045,'start':63,'text':'10千米'}]}
}]
}]

同樣易用而精準(zhǔn)！

對(duì)于復(fù)雜目標(biāo)，可以標(biāo)注少量數(shù)據(jù)（Few-shot）進(jìn)行模型訓(xùn)練，以進(jìn)一步提升效果。PaddleNLP打通了從數(shù)據(jù)標(biāo)注-訓(xùn)練-部署全流程，方便大家進(jìn)行定制化訓(xùn)練。

是不是迫不及待想試用一下？戳以下鏈接即可立馬體驗(yàn)。可以STAR收藏，不會(huì)走丟~：

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie

文心大模型ERNIE輕量級(jí)模型開源

PaddleNLP開源的信息抽取能力背后，除了大一統(tǒng)信息抽取技術(shù)UIE外，還得益于文心產(chǎn)業(yè)級(jí)知識(shí)增強(qiáng)大模型——文心ERNIE 3.0的底座支撐。我們知道，知識(shí)對(duì)于信息抽取任務(wù)至關(guān)重要。而文心ERNIE 3.0不僅參數(shù)量大，還吸納了千萬級(jí)別實(shí)體的知識(shí)圖譜，可以說是中文NLP方面最有“知識(shí)量”的SOTA底座。

文心ERNIE 3.0在機(jī)器閱讀理解、文本分類、語義相似度計(jì)算等60多項(xiàng)任務(wù)中取得最好效果，并在30余項(xiàng)小樣本和零樣本任務(wù)上刷新基準(zhǔn)。通過百度首創(chuàng)的在線蒸餾技術(shù)，通過“一師多徒”、“多代傳承”的方式實(shí)現(xiàn)了效果顯著的模型壓縮方案。

近日，這個(gè)6層中文SOTA預(yù)訓(xùn)練模型也開源了！此外，PaddleNLP v2.3還提供了該模型完整的推理部署工具鏈，包含PaddleSlim裁剪量化壓縮方案、Paddle Inference CPU、GPU高性能推理部署和Paddle Serving服務(wù)化部署能力，可以做到精度無損的情況下實(shí)現(xiàn)8.8倍的加速提升，一站式滿足多場(chǎng)景的產(chǎn)業(yè)部署需求。

為了推動(dòng)NLP技術(shù)快速大規(guī)模落地到產(chǎn)業(yè)界，PaddleNLP還針對(duì)產(chǎn)業(yè)高頻場(chǎng)景，打通了數(shù)據(jù)準(zhǔn)備-模型訓(xùn)練-模型調(diào)優(yōu)-推理部署端到端全流程，推出一系列基于文心大模型的產(chǎn)業(yè)范例：如語音工單信息抽取、說明書問答、產(chǎn)品評(píng)論情感分析、語義檢索系統(tǒng)等…

ERNIE 3.0輕量級(jí)模型：https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-3.0

看到這里的小伙伴一定發(fā)現(xiàn)了，PaddleNLP其實(shí)是一個(gè)集前沿預(yù)訓(xùn)練模型、開箱即用工具集和產(chǎn)業(yè)系統(tǒng)方案于一身的NLP萬能法寶。自開源以來，PaddleNLP不斷獲得科研和產(chǎn)業(yè)界朋友的認(rèn)可和喜愛，頻頻現(xiàn)身GitHub和Papers With Code榜單。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴