PaddleNLP v2.3帶來兩大重磅能力:
-
通用信息抽取統(tǒng)一建模技術(shù)UIE開源!
-
文心大模型ENRIE輕量級(jí)模型及一系列產(chǎn)業(yè)范例實(shí)踐開源!
01
通用信息抽取
在金融、政務(wù)、法律、醫(yī)療等眾多行業(yè)中,大量文檔信息需要進(jìn)行數(shù)字化及結(jié)構(gòu)化處理,而人工處理方式往往費(fèi)時(shí)費(fèi)力,且容易產(chǎn)生錯(cuò)誤。信息抽取技術(shù)能很好地解決這個(gè)問題。信息抽取(Information Extraction,IE)指的是從自然語言文本中抽取指定類型的實(shí)體、關(guān)系、事件等事實(shí)信息,并形成結(jié)構(gòu)化數(shù)據(jù)輸出的文本處理技術(shù)。

圖:信息抽取應(yīng)用場(chǎng)景示例
隨著企業(yè)智能化轉(zhuǎn)型的加速,信息抽取技術(shù)被廣泛應(yīng)用于各行各業(yè)的文本處理中。舉個(gè)例子,在政務(wù)場(chǎng)景下,市政工作人員需要處理各類市民電話投訴事件,很難從長篇累牘的投訴內(nèi)容中一眼就找到需要的信息,而信息抽取技術(shù)則可以快速提取出投訴報(bào)告中的被投訴方、事件發(fā)生時(shí)間、地點(diǎn)、投訴事件等信息,使得工作人員能夠快速掌握投訴要點(diǎn),大幅提升處理效率。
信息抽取是NLP技術(shù)落地中必不可少的環(huán)節(jié),然而當(dāng)前市面上的信息抽取工具大多基于傳統(tǒng)算法構(gòu)建,偏向?qū)W術(shù)研究,對(duì)實(shí)際使用并不友好。產(chǎn)業(yè)級(jí)信息抽取面臨著多種挑戰(zhàn):
-
領(lǐng)域多樣:領(lǐng)域之間知識(shí)遷移難度高,如通用領(lǐng)域知識(shí)很難遷移到垂類領(lǐng)域,垂類領(lǐng)域之間的知識(shí)很難相互遷移;
-
任務(wù)多樣:針對(duì)實(shí)體、關(guān)系、事件等不同的信息抽取任務(wù),需要開發(fā)不同的模型,開發(fā)成本和機(jī)器資源消耗都很大;
-
數(shù)據(jù)獲取&標(biāo)注成本高:部分領(lǐng)域數(shù)據(jù)稀缺,難以獲取,且領(lǐng)域?qū)I(yè)性使得數(shù)據(jù)標(biāo)注門檻高。
針對(duì)以上難題,中科院軟件所和百度共同提出了一個(gè)大一統(tǒng)諸多任務(wù)的通用信息抽取技術(shù)UIE(Universal Information Extraction),在實(shí)體、關(guān)系、事件和情感等4個(gè)信息抽取任務(wù)、13個(gè)數(shù)據(jù)集的全監(jiān)督、低資源和少樣本設(shè)置下,UIE均取得了SOTA性能,這項(xiàng)成果發(fā)表在ACL 2022[1]。
飛槳PaddleNLP結(jié)合文心大模型中的知識(shí)增強(qiáng)NLP大模型ERNIE 3.0,發(fā)揮了UIE在中文任務(wù)上的強(qiáng)大潛力,開源了首個(gè)面向通用信息抽取的產(chǎn)業(yè)級(jí)技術(shù)方案,不需要標(biāo)注數(shù)據(jù)(或僅需少量標(biāo)注數(shù)據(jù)),即可快速完成各類信息抽取任務(wù):
-
多任務(wù)統(tǒng)一建模
傳統(tǒng)技術(shù)方案下,針對(duì)不同的抽取任務(wù),需要構(gòu)建多個(gè)IE模型。各個(gè)模型單獨(dú)訓(xùn)練,數(shù)據(jù)和知識(shí)不共享。一個(gè)公司可能需要管理眾多IE模型。而在UIE方案下,單個(gè)模型解決所有信息抽取需求,包括但不限于實(shí)體、關(guān)系、事件、評(píng)價(jià)維度、觀點(diǎn)詞、情感傾向等信息抽取,降低開發(fā)成本和機(jī)器成本。

圖:傳統(tǒng)方案 vs UIE統(tǒng)一建模方案
UIE是一個(gè)大一統(tǒng)諸多任務(wù)的開放域信息抽取技術(shù)方案,直接上圖:

通過構(gòu)建結(jié)構(gòu)化模式提示器(SSI,Structural Schema Instructor),UIE能夠?qū)Σ煌男畔⒊槿∧繕?biāo)進(jìn)行統(tǒng)一編碼,從而實(shí)現(xiàn)多任務(wù)的統(tǒng)一建模。
簡單來說,UIE借鑒近年來火熱的Prompt概念,將希望抽取的Schema信息轉(zhuǎn)換成“線索詞”(Schema-based Prompt)作為模型輸入的前綴,使得模型理論上能夠適應(yīng)不同領(lǐng)域和任務(wù)的Schema信息,并按需抽取出線索詞指向的結(jié)果,從而實(shí)現(xiàn)開放域環(huán)境下的通用信息抽取。例如上圖中,假如我們希望從一段文本中抽取出“人名”的實(shí)體和“工作于”的關(guān)系,便可以構(gòu)造[spot] person [asso] work for的前綴,連接要抽取的目標(biāo)文本[text] ,作為整體輸入到UIE中。
-
零樣本抽取和少樣本快速遷移能力
UIE開創(chuàng)了基于Prompt的信息抽取多任務(wù)統(tǒng)一建模方式,通過大規(guī)模多任務(wù)預(yù)訓(xùn)練學(xué)習(xí)的通用抽取能力,可以實(shí)現(xiàn)不限定行業(yè)領(lǐng)域和抽取目標(biāo),零樣本快速冷啟動(dòng)。例如在金融領(lǐng)域客戶收入證明信息抽取(下圖左)中,無需訓(xùn)練數(shù)據(jù),即可全部抽取正確。針對(duì)復(fù)雜抽取需求,標(biāo)注少量數(shù)據(jù)微調(diào)即完成任務(wù)適配,大大降低標(biāo)注門檻和成本。例如醫(yī)療報(bào)告結(jié)構(gòu)化(下圖中)和報(bào)銷單信息抽取(下圖右)中,僅標(biāo)注了幾條樣本,F(xiàn)1值就取得大幅提升,真是太實(shí)用了!

圖:實(shí)體抽取零樣本和小樣本效果展示
除實(shí)體抽取任務(wù)外,在金融、醫(yī)療、互聯(lián)網(wǎng)三大自建測(cè)試集的關(guān)系、事件抽取任務(wù)上進(jìn)行實(shí)驗(yàn),標(biāo)注少樣本也可帶來顯著的效果提升,尤其在金融、醫(yī)療等專業(yè)垂類領(lǐng)域上效果突出,例如,在金融領(lǐng)域的事件抽取任務(wù)上,僅僅標(biāo)注5條樣本,F(xiàn)1值提升了25個(gè)點(diǎn)!也就是說,即使模型在某些case或某些場(chǎng)景下表現(xiàn)欠佳,人工標(biāo)幾個(gè)樣本,丟給模型后就會(huì)有大幅的效果提升。

說明:0-shot表示無訓(xùn)練數(shù)據(jù)直接預(yù)測(cè),5-shot表示基于5條標(biāo)注數(shù)據(jù)進(jìn)行模型微調(diào)。uie-tiny和uie-base分別表示6層和12層的UIE模型。
UIE強(qiáng)大的小樣本學(xué)習(xí)能力是行業(yè)大規(guī)模落地的關(guān)鍵,目前已通過了大量的業(yè)務(wù)驗(yàn)證:
-
在金融領(lǐng)域,某銀行使用UIE實(shí)現(xiàn)了智能營銷場(chǎng)景下的標(biāo)簽抽取和內(nèi)容推薦系統(tǒng),在線上推薦業(yè)務(wù)中,AUC提升14%;
-
在醫(yī)療領(lǐng)域,UIE實(shí)現(xiàn)對(duì)電子病歷、醫(yī)療書籍進(jìn)行癥狀、疾病、檢驗(yàn)指標(biāo)等關(guān)鍵信息抽取,助力百度智慧醫(yī)療業(yè)務(wù)迅速殺入國內(nèi)第一梯隊(duì);
-
在法律領(lǐng)域,抽取裁判文書中的犯罪事件主體、事件經(jīng)過、罪名等信息,建立刑事大數(shù)據(jù)分析系統(tǒng),僅用60條數(shù)據(jù)進(jìn)行模型微調(diào),F(xiàn)1達(dá)到94.36%;
-
在政務(wù)領(lǐng)域,識(shí)別市民投訴電話中的投訴對(duì)象、地點(diǎn)等關(guān)鍵信息,快速聚合相似事件、智能分發(fā),有效提升了事件處理率,目前,UIE已上線到多個(gè)城市的政務(wù)系統(tǒng)中。
-
在電商零售領(lǐng)域,某大型家電零售企業(yè)借助UIE實(shí)現(xiàn)了評(píng)論觀點(diǎn)抽取、情感傾向預(yù)測(cè),搭建了完整的服務(wù)智能化評(píng)分系統(tǒng),準(zhǔn)確率和召回率均達(dá)到90%+。服務(wù)評(píng)分的智能化,使得該企業(yè)客服運(yùn)營人力減少40%,負(fù)面問題處理率從60%飆升至100%,售后的差評(píng)率整體降低70%。
-
便捷易用
這么酷炫的技術(shù)能力,如何快速應(yīng)用到業(yè)務(wù)中呢?
通過調(diào)用paddlenlp.Taskflow API即可實(shí)現(xiàn)零樣本(zero-shot)抽取多種類型的信息:
話不多說,直接上代碼,上效果!
#實(shí)體抽取
frompprintimportpprint
frompaddlenlpimportTaskflow
schema=['時(shí)間','選手','賽事名稱']#Definetheschemaforentityextraction
ie=Taskflow('information_extraction',schema=schema)
pprint(ie("2月8日上午北京冬奧會(huì)自由式滑雪女子大跳臺(tái)決賽中中國選手谷愛凌以188.25分獲得金牌!"))#Betterprintresultsusingpprint
>>>
[{'時(shí)間':[{'end':6,'probability':0.9857378532924486,'start':0,'text':'2月8日上午'}],
'賽事名稱':[{'end':23,'probability':0.8503089953268272,'start':6,'text':'北京冬奧會(huì)自由式滑雪女子大跳臺(tái)決賽'}],
'選手':[{'end':31,'probability':0.8981548639781138,'start':28,'text':'谷愛凌'}]}]
僅用三行代碼就實(shí)現(xiàn)了精準(zhǔn)實(shí)體抽取!
再來試試更困難的事件抽取任務(wù),看看效果如何?
#事件抽取
schema={'地震觸發(fā)詞':['地震強(qiáng)度','時(shí)間','震中位置','震源深度']}#Definetheschemaforeventextraction
ie.set_schema(schema)#Resetschema
ie('中國地震臺(tái)網(wǎng)正式測(cè)定:5月16日06時(shí)08分在云南臨滄市鳳慶縣(北緯24.34度,東經(jīng)99.98度)發(fā)生3.5級(jí)地震,震源深度10千米。')
>>>
[{'地震觸發(fā)詞':
[{'end':58,'probability':0.9987181623528585,'start':56,'text':'地震',
'relations':
{'地震強(qiáng)度':[{'end':56,'probability':0.9962985320905915,'start':52,'text':'3.5級(jí)'}],
'時(shí)間':[{'end':22,'probability':0.9882578028575182,'start':11,'text':'5月16日06時(shí)08分'}],
'震中位置':[{'end':50,'probability':0.8551417444021787,'start':23,'text':'云南臨滄市鳳慶縣(北緯24.34度,東經(jīng)99.98度)'}],
'震源深度':[{'end':67,'probability':0.999158304648045,'start':63,'text':'10千米'}]}
}]
}]
同樣易用而精準(zhǔn)!對(duì)于復(fù)雜目標(biāo),可以標(biāo)注少量數(shù)據(jù)(Few-shot)進(jìn)行模型訓(xùn)練,以進(jìn)一步提升效果。PaddleNLP打通了從數(shù)據(jù)標(biāo)注-訓(xùn)練-部署全流程,方便大家進(jìn)行定制化訓(xùn)練。
是不是迫不及待想試用一下?戳以下鏈接即可立馬體驗(yàn)。可以STAR收藏,不會(huì)走丟~:
https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie
02
文心大模型ERNIE輕量級(jí)模型開源
PaddleNLP開源的信息抽取能力背后,除了大一統(tǒng)信息抽取技術(shù)UIE外,還得益于文心產(chǎn)業(yè)級(jí)知識(shí)增強(qiáng)大模型——文心ERNIE 3.0的底座支撐。我們知道,知識(shí)對(duì)于信息抽取任務(wù)至關(guān)重要。而文心ERNIE 3.0不僅參數(shù)量大,還吸納了千萬級(jí)別實(shí)體的知識(shí)圖譜,可以說是中文NLP方面最有“知識(shí)量”的SOTA底座。
文心ERNIE 3.0在機(jī)器閱讀理解、文本分類、語義相似度計(jì)算等60多項(xiàng)任務(wù)中取得最好效果,并在30余項(xiàng)小樣本和零樣本任務(wù)上刷新基準(zhǔn)。通過百度首創(chuàng)的在線蒸餾技術(shù),通過“一師多徒”、“多代傳承”的方式實(shí)現(xiàn)了效果顯著的模型壓縮方案。

近日,這個(gè)6層中文SOTA預(yù)訓(xùn)練模型也開源了!此外,PaddleNLP v2.3還提供了該模型完整的推理部署工具鏈,包含PaddleSlim裁剪量化壓縮方案、Paddle Inference CPU、GPU高性能推理部署和Paddle Serving服務(wù)化部署能力,可以做到精度無損的情況下實(shí)現(xiàn)8.8倍的加速提升,一站式滿足多場(chǎng)景的產(chǎn)業(yè)部署需求。
為了推動(dòng)NLP技術(shù)快速大規(guī)模落地到產(chǎn)業(yè)界,PaddleNLP還針對(duì)產(chǎn)業(yè)高頻場(chǎng)景,打通了數(shù)據(jù)準(zhǔn)備-模型訓(xùn)練-模型調(diào)優(yōu)-推理部署端到端全流程,推出一系列基于文心大模型的產(chǎn)業(yè)范例:如語音工單信息抽取、說明書問答、產(chǎn)品評(píng)論情感分析、語義檢索系統(tǒng)等…
ERNIE 3.0輕量級(jí)模型:https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-3.0
看到這里的小伙伴一定發(fā)現(xiàn)了,PaddleNLP其實(shí)是一個(gè)集前沿預(yù)訓(xùn)練模型、開箱即用工具集和產(chǎn)業(yè)系統(tǒng)方案于一身的NLP萬能法寶。自開源以來,PaddleNLP不斷獲得科研和產(chǎn)業(yè)界朋友的認(rèn)可和喜愛,頻頻現(xiàn)身GitHub和Papers With Code榜單。

審核編輯 :李倩
-
數(shù)字化
+關(guān)注
關(guān)注
8文章
10663瀏覽量
67242
原文標(biāo)題:首創(chuàng)基于Prompt的產(chǎn)業(yè)級(jí)信息抽取能力,這個(gè)開源工具用心了!
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
兩大半導(dǎo)體巨頭,關(guān)廠!
思特威榮獲2026 IC風(fēng)云榜兩大重磅獎(jiǎng)項(xiàng)
博世中國一舉斬獲兩大重要獎(jiǎng)項(xiàng)
北斗智聯(lián)榮登2025VENTURE50兩大榜單
伴芯科技重磅發(fā)布DVcrew與PDcrew兩大創(chuàng)新產(chǎn)品,以AI智能體重構(gòu)EDA
德賽西威榮獲2025金輯獎(jiǎng)兩大重磅獎(jiǎng)項(xiàng)
普華基礎(chǔ)軟件開源龘V2.3和開源小滿V25.10上線
Profinet轉(zhuǎn)RS485 Modbus網(wǎng)關(guān)如何選擇
2.3-2.8 GHz 兩級(jí)、高線性度、高增益、低噪聲放大器 skyworksinc
ZSKY 2301-20V-2.3A-155K塑料封裝MOSFETS規(guī)格書
ZSKY-2302-20V-2.3A 150-160K N溝道MOSFET技術(shù)手冊(cè)
ZSKY-2302-20V-2.3A 155K N溝道MOSFET技術(shù)手冊(cè)
用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集
PaddleNLP v2.3帶來兩大重磅能力
評(píng)論