來(lái)自:HyperAI超神經(jīng)
微軟的研究團(tuán)隊(duì)近日在 arxiv.org 發(fā)布了論文:《Domain-Specific Language Model Pretraining for BiomedicalNatural Language Processing生物醫(yī)學(xué)特定領(lǐng)域的語(yǔ)言模型預(yù)訓(xùn)練》,介紹并開(kāi)源了一個(gè)能夠用于生物醫(yī)學(xué)領(lǐng)域 NLP 基準(zhǔn),并命名為 BLURB。

BiomedicalLanguageUnderstanding andReasoningBenchmark 的首字母縮寫(xiě),即為 BLURB 的命名規(guī)則,翻譯為生物醫(yī)學(xué)語(yǔ)言理解和推理基準(zhǔn)。
醫(yī)學(xué) NLP 基準(zhǔn),BLURB 身負(fù)重任
BLURB 包括 13 個(gè)公開(kāi)可用的數(shù)據(jù)集,涉及 6 個(gè)不同的任務(wù)。
為了避免偏重多可用數(shù)據(jù)集的任務(wù),如命名實(shí)體識(shí)別(NER),BLURB 的報(bào)告和排名,將所有任務(wù)的宏觀平均數(shù)作為主要得分。

圖為 BLURB 中使用的數(shù)據(jù)集、以及
團(tuán)隊(duì)列出的訓(xùn)練、開(kāi)發(fā)和測(cè)試中的實(shí)例數(shù)量
BLURB 排行榜是不分模型的。任何能夠使用相同的訓(xùn)練和開(kāi)發(fā)數(shù)據(jù)產(chǎn)生測(cè)試預(yù)測(cè)的系統(tǒng)都可以參與。
團(tuán)隊(duì)表示 BLURB 的主要目標(biāo)是:降低生物醫(yī)學(xué)NLP的準(zhǔn)入門(mén)檻,幫助加快該領(lǐng)域的進(jìn)展,能對(duì)社會(huì)和人類(lèi)產(chǎn)生積極影響。
生物醫(yī)學(xué) NLP :必須使用域內(nèi)文本
研究已經(jīng)表明生物醫(yī)學(xué) NLP 可以在醫(yī)學(xué)領(lǐng)域提高數(shù)據(jù)集的準(zhǔn)確性。但是在跨學(xué)科的數(shù)據(jù)集中,準(zhǔn)確性又會(huì)大大降低。而由于不同醫(yī)學(xué)領(lǐng)域之間(Domain)跨度較大,所以對(duì)于 NLP 的預(yù)訓(xùn)練會(huì)花費(fèi)非常多的時(shí)間。
微軟研究人員為了提升 NLP 的訓(xùn)練速度,通過(guò)對(duì)預(yù)訓(xùn)練和特定任務(wù)的微調(diào),對(duì)生物醫(yī)學(xué) NLP 應(yīng)用的影響進(jìn)行了建模比較,從而評(píng)估最適合的預(yù)訓(xùn)練方法。

團(tuán)隊(duì)對(duì)域內(nèi)文本與混合域外文本進(jìn)行的對(duì)照
首先,團(tuán)隊(duì)創(chuàng)建了一個(gè)名為「生物醫(yī)學(xué)語(yǔ)言理解與推理基準(zhǔn)」(BLURB)的基準(zhǔn),該基準(zhǔn)側(cè)重于 PubMed 提供的出版物,涵蓋了相似問(wèn)題解答和文本提取之類(lèi)的任務(wù)。
實(shí)驗(yàn)證明,這種對(duì)比的方法能夠?qū)?NLP 訓(xùn)練的速度提升數(shù)倍。
同時(shí),為了鼓勵(lì)對(duì)生物醫(yī)學(xué) NLP 的研究,研究人員創(chuàng)建了以 BLURB 基準(zhǔn)為基準(zhǔn)的排行榜,還開(kāi)源了預(yù)訓(xùn)練模型。以求快速生物醫(yī)學(xué) NLP 能夠早日投入使用。
原文標(biāo)題:醫(yī)學(xué)AI又一突破,微軟開(kāi)源生物醫(yī)學(xué)NLP基準(zhǔn):BLURB
文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
責(zé)任編輯:haq
-
微軟
+關(guān)注
關(guān)注
4文章
6739瀏覽量
107738 -
AI
+關(guān)注
關(guān)注
91文章
39489瀏覽量
300710 -
生物醫(yī)學(xué)
+關(guān)注
關(guān)注
0文章
47瀏覽量
11447
原文標(biāo)題:醫(yī)學(xué)AI又一突破,微軟開(kāi)源生物醫(yī)學(xué)NLP基準(zhǔn):BLURB
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
時(shí)間基準(zhǔn)的核心力量:低相噪銣原子振蕩時(shí)鐘的多領(lǐng)域應(yīng)用解析
1905A-6帶通濾波器
量子、雷達(dá)、生物醫(yī)學(xué)…復(fù)雜信號(hào)如何精準(zhǔn)生成?答案在這臺(tái)“信號(hào)引擎”
Keithley吉時(shí)利2182A納伏表維修與校準(zhǔn)
ATA-4315高壓功率放大器:生物電刺激技術(shù)研究的高精度驅(qū)動(dòng)核心
MATLAB 助力香港中文大學(xué)解決生物醫(yī)學(xué)圖像處理挑戰(zhàn)
超小型位移傳感器:精密測(cè)量領(lǐng)域的微型革命者
斯坦福SR530鎖相放大器技術(shù)手冊(cè)
高壓功率放大器在生物和超聲領(lǐng)域中的作用和實(shí)驗(yàn)
北京理工大學(xué):研究眼機(jī)界面智能傳感硬件——從可穿戴到仿生
高光譜相機(jī)在生物醫(yī)學(xué)中的應(yīng)用:病理分析、智慧中醫(yī)與成分分析
調(diào)Q納秒激光器在生物成像領(lǐng)域-光聲成像方面的應(yīng)用
SOLIDWORKS 2025教育版為學(xué)生提供了跨領(lǐng)域設(shè)計(jì)的完整解決方案
Aigtek功率放大器在微流控醫(yī)學(xué)領(lǐng)域研究中有哪些應(yīng)用
FORUM: Laser and Biophotonics for Translation to Healthcare
微軟團(tuán)隊(duì)發(fā)布生物醫(yī)學(xué)領(lǐng)域NLP基準(zhǔn)
評(píng)論