人工智能在醫(yī)療保健領(lǐng)域的應(yīng)用正在急速增長(zhǎng),其行業(yè)的 AI 采用率已達(dá)到整體經(jīng)濟(jì)領(lǐng)域的兩倍。為了助力這一變革,Google 于去年通過(guò)Health AI Developer Foundations(HAI-DEF) 計(jì)劃發(fā)布了MedGemma 系列開(kāi)放醫(yī)療生成式 AI 模型。MedGemma 等 HAI-DEF 模型旨在讓開(kāi)發(fā)者以此為基石,評(píng)估和調(diào)整其醫(yī)療應(yīng)用場(chǎng)景,開(kāi)發(fā)者還可以通過(guò) Vertex AI 在 Google Cloud 平臺(tái)輕松擴(kuò)展這類模型。MedGemma 自發(fā)布以來(lái)持續(xù)引發(fā)熱烈反響,其在 Hugging Face 的下載量已達(dá)數(shù)百萬(wàn)次,該平臺(tái)社區(qū)中也涌現(xiàn)出了數(shù)百個(gè)基于該模型的衍生版本。
我們乘勢(shì)而上,繼續(xù)發(fā)布MedGemma 1.5 4B,并在Kaggle平臺(tái)啟動(dòng)MedGemma 挑戰(zhàn)賽黑客馬拉松。基于開(kāi)發(fā)者社區(qū)的直接反饋,本次模型更新讓開(kāi)發(fā)者得以更高效地調(diào)整 MedGemma,以適配涉及多種醫(yī)學(xué)影像模態(tài)的應(yīng)用場(chǎng)景:
高維醫(yī)學(xué)影像: 計(jì)算機(jī)斷層掃描 (CT)、核磁共振成像 (MRI) 和組織病理學(xué)
縱向醫(yī)學(xué)影像: 對(duì)胸部 X 光片進(jìn)行的時(shí)間序列對(duì)比分析
解剖結(jié)構(gòu)定位: 在胸部 X 光片中定位解剖結(jié)構(gòu)特征
醫(yī)學(xué)文檔理解: 從醫(yī)學(xué)實(shí)驗(yàn)報(bào)告中提取結(jié)構(gòu)化數(shù)據(jù)
相較于 MedGemma 1 4B,MedGemma 1.5 4B 在文字、醫(yī)療記錄和 2D 圖像等核心功能方面均提高了準(zhǔn)確性。我們此次發(fā)布的更新版 4B 模型,旨在為開(kāi)發(fā)者提供一個(gè)理想的計(jì)算高效起點(diǎn),并且其規(guī)模小到足以離線運(yùn)行。而對(duì)于更復(fù)雜的文本類應(yīng)用,開(kāi)發(fā)者可以繼續(xù)使用我們的MedGemma 1 27B 參數(shù)模型。您可以閱讀MedGemma 1.5 模型卡片,詳細(xì)了解 MedGemma 1.5 4B 模型及其性能基準(zhǔn)。
我們還于近期在Hugging Face和Vertex AI平臺(tái)同步發(fā)布了MedASR,這是一款全新的自動(dòng)化語(yǔ)音識(shí)別 (ASR) 開(kāi)放模型,已針對(duì)醫(yī)療口述場(chǎng)景進(jìn)行了微調(diào)。MedASR的初始版本讓開(kāi)發(fā)者可以將醫(yī)療語(yǔ)音轉(zhuǎn)換成文字,并可與 MedGemma 無(wú)縫整合以執(zhí)行高級(jí)推理任務(wù)。
MedGemma 1.5、MedASR 和包括MedSigLIP 圖像編碼器在內(nèi)的所有 HAI-DEF 模型仍可免費(fèi)用于研究和商業(yè)用途,您可以通過(guò)Hugging Face下載,也可以借助Vertex AI對(duì)其進(jìn)行訓(xùn)練和調(diào)整以滿足云端可擴(kuò)展應(yīng)用的需求。
MedGemma 挑戰(zhàn)賽
我們希望鼓勵(lì)開(kāi)發(fā)者探索更多富有創(chuàng)意且具影響力的 MedGemma 模型應(yīng)用場(chǎng)景,以推動(dòng)醫(yī)療保健領(lǐng)域變革。為此,我們啟動(dòng)了由 Kaggle 主辦的MedGemma 挑戰(zhàn)賽,這場(chǎng)黑客馬拉松獎(jiǎng)金高達(dá) 100,000 美元,并向所有開(kāi)發(fā)者開(kāi)放,讓他們有機(jī)會(huì)基于 MedGemma 和 HAI-DEF 進(jìn)行構(gòu)建,以展示 AI 在醫(yī)療保健和生命科學(xué)領(lǐng)域的潛力。我們期待看到大家的構(gòu)建成果!
醫(yī)學(xué)影像應(yīng)用場(chǎng)景的性能改進(jìn)
MedGemma 的初始定位就是一款多模態(tài)模型,旨在應(yīng)對(duì)醫(yī)學(xué)的多模態(tài)特性。MedGemma 1 已支持解讀二維醫(yī)學(xué)影像,包括胸部 X 光片、皮膚科圖像、眼底影像和組織病理學(xué)切片。
而目前,我們正在借助 MedGemma 1.5 擴(kuò)展對(duì)更高維醫(yī)學(xué)影像的支持,前期目標(biāo)便是以三維立體方式展現(xiàn)CT 圖像和MRI,以及全切片組織病理學(xué)影像。開(kāi)發(fā)者在創(chuàng)建應(yīng)用時(shí),可以將多個(gè)切片 (CT 或 MRI) 或多個(gè)圖塊 (病理學(xué)) 連同任務(wù)指令一并輸入模型。
內(nèi)部基準(zhǔn)測(cè)試數(shù)據(jù)表明,相較于 MedGemma 1,MedGemma 1.5 在疾病相關(guān) CT 檢查結(jié)果分類方面的基準(zhǔn)絕對(duì)準(zhǔn)確率平均提升了 3% (61% vs. 58%),在疾病相關(guān) MRI 檢查結(jié)果分類方面的基準(zhǔn)絕對(duì)準(zhǔn)確率則平均提升了 14% (65% vs. 51%)。除此之外,在一項(xiàng)涵蓋組織病理學(xué)切片及相關(guān)檢查結(jié)果的多樣化內(nèi)部基準(zhǔn)測(cè)試中,根據(jù)僅含一份病理學(xué)切片的病例得出的ROUGE-L分?jǐn)?shù),MedGemma 1.5 預(yù)測(cè)結(jié)果的保真度較 MedGemma 1 提高了 0.47 (0.49 vs. 0.02),與任務(wù)專用PolyPath 模型取得的分?jǐn)?shù) (0.498) 旗鼓相當(dāng)。
CT 基礎(chǔ)模型則是我們之前用于生成 CT 嵌入向量的 API 工具,此次對(duì)高維的支持是其自然演進(jìn)的產(chǎn)物。據(jù)我們所知,MedGemma 1.5 是首個(gè)公開(kāi)發(fā)布的開(kāi)放多模態(tài)大語(yǔ)言模型,既能解讀高維醫(yī)療數(shù)據(jù),同時(shí)又保留了對(duì)通用二維數(shù)據(jù)和文本的理解能力。雖然這些功能仍處于早期階段且有待完善,但開(kāi)發(fā)者將能根據(jù)自有數(shù)據(jù)微調(diào) MedGemma 模型,以取得更亮眼的成效,并且我們也將持續(xù)改進(jìn) MedGemma 模型。我們已經(jīng)發(fā)布了教程 Notebook,用于說(shuō)明如何將這種高維圖像功能用于 CT (Hugging Face、Model Garden) 和組織病理學(xué) (Hugging Face、Model Garden)。
展示了如何使用 MedGemma 1.5 4B 解讀 CT 三維數(shù)據(jù),以及經(jīng)認(rèn)證的胸部放射科醫(yī)生對(duì)輸出質(zhì)量所做的點(diǎn)評(píng)。請(qǐng)注意,MedGemma 不能在未經(jīng)開(kāi)發(fā)者對(duì)其具體用例進(jìn)行適當(dāng)驗(yàn)證、調(diào)整和/或做出實(shí)質(zhì)性修改的情況下直接使用。
在其他形式的醫(yī)學(xué)圖像解讀任務(wù)中,MedGemma 1.5 4B 模型的基準(zhǔn)性能較 MedGemma 1 4B 也有顯著提升:
解剖結(jié)構(gòu)定位: 在胸部 X 光片中定位解剖特征;Chest ImaGenome基準(zhǔn)測(cè)試結(jié)果表明,交并比提高了 35% (38% vs. 3%)。請(qǐng)參閱我們的解剖結(jié)構(gòu)定位教程 Notebook。
縱向醫(yī)學(xué)影像: 對(duì)胸部 X 光片進(jìn)行的時(shí)間序列對(duì)比分析;MS-CXR-T基準(zhǔn)測(cè)試結(jié)果表明,整體準(zhǔn)確率提高了 5% (66% vs. 61%)。請(qǐng)參閱下方圖片示例,以及我們的縱向醫(yī)學(xué)影像教程 Notebook。
醫(yī)學(xué)圖像解讀: 針對(duì)胸部 X 光片、皮膚病學(xué)、組織病理學(xué)和眼科學(xué)的內(nèi)部單幅圖像基準(zhǔn)測(cè)試表明,準(zhǔn)確率提升了 3% (62% vs. 59%)。
檢驗(yàn)報(bào)告提取: 從醫(yī)學(xué)檢驗(yàn)報(bào)告中提取結(jié)構(gòu)化數(shù)據(jù) (檢驗(yàn)類型、數(shù)值、單位);一項(xiàng)內(nèi)部檢驗(yàn)報(bào)告基準(zhǔn)測(cè)試的結(jié)果表明,檢索宏觀 F1 分?jǐn)?shù)提高了 18% (78% vs. 60%)。
MedGemma 1.5 4B 增強(qiáng)了對(duì)醫(yī)學(xué)影像的支持,其在通過(guò)胸部 X 光片解讀高維圖像、定位解剖特征和評(píng)估縱向疾病、解讀通用醫(yī)學(xué)圖像,以及從醫(yī)學(xué)檢驗(yàn)報(bào)告中提取內(nèi)容等方面的表現(xiàn)均優(yōu)于 MedGemma 1 4B。
展示如何使用 MedGemma 1.5 4B 解讀胸部 X 光片縱向成對(duì)圖像,以及經(jīng)認(rèn)證的胸部放射科醫(yī)生對(duì)輸出質(zhì)量所做的點(diǎn)評(píng)。請(qǐng)注意,MedGemma 不能在未經(jīng)開(kāi)發(fā)者對(duì)其具體用例進(jìn)行適當(dāng)驗(yàn)證、調(diào)整和/或做出實(shí)質(zhì)性修改的情況下直接使用。
此外,部署于Google Cloud的 MedGemma 應(yīng)用現(xiàn)已全方位支持 DICOM,這使得調(diào)整 MedGemma 以滿足醫(yī)學(xué)影像應(yīng)用之需變得更加容易。
文本功能改進(jìn)
除了改進(jìn)對(duì)醫(yī)療圖像的支持,我們還努力提升了 MedGemma 的基礎(chǔ)醫(yī)學(xué)文本處理能力。在引入全新訓(xùn)練數(shù)據(jù)集和訓(xùn)練技術(shù)后,MedGemma 1.5 4B 在MedQA方面的表現(xiàn)較 MedGemma 1 4B 提升了 5% (69% vs. 64%),在針對(duì) EHR 問(wèn)題 (EHRQA) 方面更是提升了 22% (90% vs. 68%)。
與 MedGemma 1 4B 相比,MedGemma 1.5 4B 在基于文字的任務(wù)領(lǐng)域有所改進(jìn),包括在醫(yī)學(xué)推理 (MedQA) 和電子健康檔案信息 (EHRQA) 檢索方面的表現(xiàn)。
MedASR: 面向醫(yī)學(xué)自動(dòng)化語(yǔ)音識(shí)別的開(kāi)放模型
雖然文本目前仍是大語(yǔ)言模型的主要交互方式,但口頭交流在醫(yī)療保健的多個(gè)方面仍然至關(guān)重要,其中包括處理醫(yī)療口述,以及醫(yī)患之間的實(shí)時(shí)對(duì)話等。除此之外,語(yǔ)音也提供了一種與語(yǔ)言模型交互的更自然的方式。
我們研發(fā)了用于醫(yī)療場(chǎng)景語(yǔ)音轉(zhuǎn)譯的MedASR語(yǔ)音轉(zhuǎn)文本模型,以支持需要熟悉醫(yī)療保健領(lǐng)域?qū)I(yè)詞匯的應(yīng)用場(chǎng)景。MedASR 既可用于轉(zhuǎn)錄醫(yī)療口述,還可作為一種更自然的交互方式,為 MedGemma 生成輸入指令。在對(duì)比 MedASR 與通用 ASR 模型Whisper large-v3的性能后,我們發(fā)現(xiàn) MedASR 在處理胸部 X 光片語(yǔ)音輸入內(nèi)容方面的錯(cuò)誤率降低了 58% (單詞錯(cuò)誤率 (WER): 5.2% vs. 12.5%),在涉及多種專業(yè)和多位發(fā)言人的內(nèi)部醫(yī)療口述基準(zhǔn)測(cè)試中,錯(cuò)誤率更是減少了 82% (WER: 5.2% vs. 28.2%)。我們發(fā)布了一系列教程 Notebook,希望可以幫助開(kāi)發(fā)者創(chuàng)建和適配他們的自有系統(tǒng),以將 MedASR 的音頻理解能力與 MedGemma 1.5 的臨床推理能力完美結(jié)合。您可以參閱MedASR 模型卡片了解詳情。
MedASR 既可用于轉(zhuǎn)錄醫(yī)療口述 (上圖),也可用于為 MedGemma 生成輸入指令 (下圖)。
開(kāi)發(fā)者如何使用 MedGemma
我們看到世界各地的醫(yī)療健康科技初創(chuàng)公司與開(kāi)發(fā)者正積極利用 MedGemma,以加速推進(jìn)面向各種用例和應(yīng)用場(chǎng)景的研究與產(chǎn)品開(kāi)發(fā)進(jìn)程。
例如,Qmed Asia已將 MedGemma 整合至askCPG,為馬來(lái)西亞 150 多項(xiàng)臨床實(shí)踐指南提供了一個(gè)交互式的對(duì)話界面。據(jù)馬來(lái)西亞衛(wèi)生部稱,此對(duì)話式界面顯著提升了臨床指南在日常決策支持中的實(shí)用性,并且通過(guò) MedGemma 提供的多模態(tài)醫(yī)學(xué)圖像擴(kuò)展程序在試點(diǎn)部署中頗受歡迎。
此外,臺(tái)灣地區(qū)的健康保險(xiǎn)署已將 MedGemma 引入肺癌手術(shù)的術(shù)前評(píng)估體系。他們使用 MedGemma 從 30,000 余份病理學(xué)報(bào)告和非結(jié)構(gòu)化數(shù)據(jù)中提取關(guān)鍵數(shù)據(jù),繼而執(zhí)行統(tǒng)計(jì)分析,以評(píng)估患者的術(shù)前狀況。這項(xiàng)工作旨在為政策決策提供參考信息,以優(yōu)化手術(shù)切除的決策流程,從而改善患者預(yù)后結(jié)果。
自發(fā)布以來(lái),MedGemma 已在醫(yī)學(xué) AI 研究中被廣泛引用,作為理解醫(yī)學(xué)文字、協(xié)助制定多學(xué)科聯(lián)合會(huì)診、解讀乳腺 X 光片報(bào)告及其他臨床應(yīng)用場(chǎng)景的基礎(chǔ)模型,并且性能表現(xiàn)優(yōu)于其他模型。
開(kāi)始使用
您可以通過(guò)Hugging Face 合集或Google Cloud 的 Vertex AI獲取 MedGemma 全系列模型。MedASR 當(dāng)前已在Hugging Face和Vertex AI平臺(tái)上線。如果您對(duì)構(gòu)建下一代醫(yī)療 AI 應(yīng)用充滿想法,歡迎參與MedGemma 挑戰(zhàn)賽。
歡迎瀏覽我們的MedGemma GitHub 代碼庫(kù),探索擴(kuò)展系列教程,其中包括有關(guān)運(yùn)行推理和基于 LoRA 的監(jiān)督式微調(diào)的教程,以及有關(guān)強(qiáng)化學(xué)習(xí)的全新教程,這種調(diào)整方法對(duì)于學(xué)習(xí)復(fù)雜任務(wù)尤為有效,并且不會(huì)影響現(xiàn)有模型功能。
MedGemma GitHub 代碼庫(kù)
https://github.com/Google-Health/medgemma/tree/main/notebooks
強(qiáng)化學(xué)習(xí)的全新教程
https://github.com/Google-Health/medgemma/blob/main/notebooks/reinforcement_learning_with_hugging_face.ipynb
您可以訪問(wèn)HAI-DEF 網(wǎng)站,獲取有關(guān) MedGemma 1.5 和其他 Health AI Developer Foundations (健康領(lǐng)域的 AI 開(kāi)發(fā)者基礎(chǔ)) 模型的資源,也可以訂閱我們的簡(jiǎn)報(bào)。歡迎前往HAI-DEF 論壇獲取技術(shù)支持。
我們非常期待社區(qū)成員能夠利用這些新模型構(gòu)建出精彩應(yīng)用,并且歡迎大家提供反饋意見(jiàn)。
此表總結(jié)了模型功能,有助于您了解哪款模型最適合您的用例。
數(shù)據(jù)集說(shuō)明
我們根據(jù)多個(gè)公開(kāi)和私有的去標(biāo)識(shí)化數(shù)據(jù)集對(duì)模型進(jìn)行了訓(xùn)練和評(píng)估。Google 及其合作伙伴均采用經(jīng)過(guò)嚴(yán)格匿名化或去識(shí)別化的數(shù)據(jù)集,以保護(hù)個(gè)人研究參與者和患者的隱私。
免責(zé)聲明
MedGemma 與 MedASR 等 HAI-DEF 系列模型作為一個(gè)研發(fā)起點(diǎn),旨在助力開(kāi)發(fā)者高效構(gòu)建處理醫(yī)療文本與影像的下游應(yīng)用。HAI-DEF 不能在未經(jīng)開(kāi)發(fā)者對(duì)其具體用例進(jìn)行適當(dāng)驗(yàn)證、調(diào)整和/或做出實(shí)質(zhì)性修改的情況下直接使用。這些模型生成的輸出不能直接用于提供臨床診斷、患者管理決策、治療建議,或任何其他臨床實(shí)踐應(yīng)用。此處報(bào)告的性能基準(zhǔn)僅用于突出顯示基準(zhǔn)功能,并不意味著 MedGemma 在任何特定醫(yī)療應(yīng)用中都安全可靠。可能存在此處未有列出的模型輸出錯(cuò)誤。所有模型輸出均應(yīng)被視作初步結(jié)果,并且需要通過(guò)成熟的研發(fā)方法進(jìn)行獨(dú)立驗(yàn)證、臨床關(guān)聯(lián)和深入調(diào)查。如需了解詳細(xì)信息,請(qǐng)參閱使用條款和禁止使用政策。
致謝
MedGemma、MedGemma 挑戰(zhàn)賽和 MedASR 是多個(gè) Google 團(tuán)隊(duì)協(xié)作負(fù)責(zé)的項(xiàng)目。非常感謝為這些項(xiàng)目做出貢獻(xiàn)的諸位伙伴,包括 Health AI、Gemma 和 Kaggle 工程團(tuán)隊(duì)成員和跨職能團(tuán)隊(duì)成員,以及 Google 研究和 Google DeepMind 的贊助商。
-
Google
+關(guān)注
關(guān)注
5文章
1807瀏覽量
60521 -
醫(yī)療
+關(guān)注
關(guān)注
8文章
2000瀏覽量
61606 -
AI
+關(guān)注
關(guān)注
91文章
39793瀏覽量
301411
原文標(biāo)題:利用 MedGemma 1.5 與 MedASR 構(gòu)建下一代醫(yī)療應(yīng)用
文章出處:【微信號(hào):Google_Developers,微信公眾號(hào):谷歌開(kāi)發(fā)者】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
借助谷歌FunctionGemma模型構(gòu)建下一代端側(cè)智能體
探索Bourns GDT35系列:下一代三電極氣體放電管避雷器的卓越性能
探索Bourns GDT21系列:下一代氣體放電管浪涌保護(hù)器的卓越性能與應(yīng)用價(jià)值
英飛凌下一代電磁閥驅(qū)動(dòng)器評(píng)估套件使用指南
Amphenol Aerospace高壓38999連接器:滿足下一代飛機(jī)電力需求
Telechips與Arm合作開(kāi)發(fā)下一代IVI芯片Dolphin7
用于下一代 GGE 和 HSPA 手機(jī)的多模式/多頻段功率放大器模塊 skyworksinc
適用于下一代 GGE 和 HSPA 手機(jī)的多模/多頻段 PAM skyworksinc
Google Cloud展示一系列前沿技術(shù)更新
四維圖新加速打造基于地平線征程6B的下一代輔助駕駛系統(tǒng)
下一代高速芯片晶體管解制造問(wèn)題解決了!
下一代PX5 RTOS具有哪些優(yōu)勢(shì)
英特爾與面壁智能宣布建立戰(zhàn)略合作伙伴關(guān)系,共同研發(fā)端側(cè)原生智能座艙,定義下一代車(chē)載AI
InspireSemi借助Cadence解決方案為下一代AI鋪路
下一代高速銅纜鐵氟龍發(fā)泡技術(shù)
借助Google MedGemma系列模型打造下一代醫(yī)療應(yīng)用
評(píng)論