人工智能在醫療保健領域的應用正在急速增長,其行業的 AI 采用率已達到整體經濟領域的兩倍。為了助力這一變革,Google 于去年通過Health AI Developer Foundations(HAI-DEF) 計劃發布了MedGemma 系列開放醫療生成式 AI 模型。MedGemma 等 HAI-DEF 模型旨在讓開發者以此為基石,評估和調整其醫療應用場景,開發者還可以通過 Vertex AI 在 Google Cloud 平臺輕松擴展這類模型。MedGemma 自發布以來持續引發熱烈反響,其在 Hugging Face 的下載量已達數百萬次,該平臺社區中也涌現出了數百個基于該模型的衍生版本。
我們乘勢而上,繼續發布MedGemma 1.5 4B,并在Kaggle平臺啟動MedGemma 挑戰賽黑客馬拉松。基于開發者社區的直接反饋,本次模型更新讓開發者得以更高效地調整 MedGemma,以適配涉及多種醫學影像模態的應用場景:
高維醫學影像: 計算機斷層掃描 (CT)、核磁共振成像 (MRI) 和組織病理學
縱向醫學影像: 對胸部 X 光片進行的時間序列對比分析
解剖結構定位: 在胸部 X 光片中定位解剖結構特征
醫學文檔理解: 從醫學實驗報告中提取結構化數據
相較于 MedGemma 1 4B,MedGemma 1.5 4B 在文字、醫療記錄和 2D 圖像等核心功能方面均提高了準確性。我們此次發布的更新版 4B 模型,旨在為開發者提供一個理想的計算高效起點,并且其規模小到足以離線運行。而對于更復雜的文本類應用,開發者可以繼續使用我們的MedGemma 1 27B 參數模型。您可以閱讀MedGemma 1.5 模型卡片,詳細了解 MedGemma 1.5 4B 模型及其性能基準。
我們還于近期在Hugging Face和Vertex AI平臺同步發布了MedASR,這是一款全新的自動化語音識別 (ASR) 開放模型,已針對醫療口述場景進行了微調。MedASR的初始版本讓開發者可以將醫療語音轉換成文字,并可與 MedGemma 無縫整合以執行高級推理任務。
MedGemma 1.5、MedASR 和包括MedSigLIP 圖像編碼器在內的所有 HAI-DEF 模型仍可免費用于研究和商業用途,您可以通過Hugging Face下載,也可以借助Vertex AI對其進行訓練和調整以滿足云端可擴展應用的需求。
MedGemma 挑戰賽
我們希望鼓勵開發者探索更多富有創意且具影響力的 MedGemma 模型應用場景,以推動醫療保健領域變革。為此,我們啟動了由 Kaggle 主辦的MedGemma 挑戰賽,這場黑客馬拉松獎金高達 100,000 美元,并向所有開發者開放,讓他們有機會基于 MedGemma 和 HAI-DEF 進行構建,以展示 AI 在醫療保健和生命科學領域的潛力。我們期待看到大家的構建成果!
醫學影像應用場景的性能改進
MedGemma 的初始定位就是一款多模態模型,旨在應對醫學的多模態特性。MedGemma 1 已支持解讀二維醫學影像,包括胸部 X 光片、皮膚科圖像、眼底影像和組織病理學切片。
而目前,我們正在借助 MedGemma 1.5 擴展對更高維醫學影像的支持,前期目標便是以三維立體方式展現CT 圖像和MRI,以及全切片組織病理學影像。開發者在創建應用時,可以將多個切片 (CT 或 MRI) 或多個圖塊 (病理學) 連同任務指令一并輸入模型。
內部基準測試數據表明,相較于 MedGemma 1,MedGemma 1.5 在疾病相關 CT 檢查結果分類方面的基準絕對準確率平均提升了 3% (61% vs. 58%),在疾病相關 MRI 檢查結果分類方面的基準絕對準確率則平均提升了 14% (65% vs. 51%)。除此之外,在一項涵蓋組織病理學切片及相關檢查結果的多樣化內部基準測試中,根據僅含一份病理學切片的病例得出的ROUGE-L分數,MedGemma 1.5 預測結果的保真度較 MedGemma 1 提高了 0.47 (0.49 vs. 0.02),與任務專用PolyPath 模型取得的分數 (0.498) 旗鼓相當。
CT 基礎模型則是我們之前用于生成 CT 嵌入向量的 API 工具,此次對高維的支持是其自然演進的產物。據我們所知,MedGemma 1.5 是首個公開發布的開放多模態大語言模型,既能解讀高維醫療數據,同時又保留了對通用二維數據和文本的理解能力。雖然這些功能仍處于早期階段且有待完善,但開發者將能根據自有數據微調 MedGemma 模型,以取得更亮眼的成效,并且我們也將持續改進 MedGemma 模型。我們已經發布了教程 Notebook,用于說明如何將這種高維圖像功能用于 CT (Hugging Face、Model Garden) 和組織病理學 (Hugging Face、Model Garden)。
展示了如何使用 MedGemma 1.5 4B 解讀 CT 三維數據,以及經認證的胸部放射科醫生對輸出質量所做的點評。請注意,MedGemma 不能在未經開發者對其具體用例進行適當驗證、調整和/或做出實質性修改的情況下直接使用。
在其他形式的醫學圖像解讀任務中,MedGemma 1.5 4B 模型的基準性能較 MedGemma 1 4B 也有顯著提升:
解剖結構定位: 在胸部 X 光片中定位解剖特征;Chest ImaGenome基準測試結果表明,交并比提高了 35% (38% vs. 3%)。請參閱我們的解剖結構定位教程 Notebook。
縱向醫學影像: 對胸部 X 光片進行的時間序列對比分析;MS-CXR-T基準測試結果表明,整體準確率提高了 5% (66% vs. 61%)。請參閱下方圖片示例,以及我們的縱向醫學影像教程 Notebook。
醫學圖像解讀: 針對胸部 X 光片、皮膚病學、組織病理學和眼科學的內部單幅圖像基準測試表明,準確率提升了 3% (62% vs. 59%)。
檢驗報告提取: 從醫學檢驗報告中提取結構化數據 (檢驗類型、數值、單位);一項內部檢驗報告基準測試的結果表明,檢索宏觀 F1 分數提高了 18% (78% vs. 60%)。
MedGemma 1.5 4B 增強了對醫學影像的支持,其在通過胸部 X 光片解讀高維圖像、定位解剖特征和評估縱向疾病、解讀通用醫學圖像,以及從醫學檢驗報告中提取內容等方面的表現均優于 MedGemma 1 4B。
展示如何使用 MedGemma 1.5 4B 解讀胸部 X 光片縱向成對圖像,以及經認證的胸部放射科醫生對輸出質量所做的點評。請注意,MedGemma 不能在未經開發者對其具體用例進行適當驗證、調整和/或做出實質性修改的情況下直接使用。
此外,部署于Google Cloud的 MedGemma 應用現已全方位支持 DICOM,這使得調整 MedGemma 以滿足醫學影像應用之需變得更加容易。
文本功能改進
除了改進對醫療圖像的支持,我們還努力提升了 MedGemma 的基礎醫學文本處理能力。在引入全新訓練數據集和訓練技術后,MedGemma 1.5 4B 在MedQA方面的表現較 MedGemma 1 4B 提升了 5% (69% vs. 64%),在針對 EHR 問題 (EHRQA) 方面更是提升了 22% (90% vs. 68%)。
與 MedGemma 1 4B 相比,MedGemma 1.5 4B 在基于文字的任務領域有所改進,包括在醫學推理 (MedQA) 和電子健康檔案信息 (EHRQA) 檢索方面的表現。
MedASR: 面向醫學自動化語音識別的開放模型
雖然文本目前仍是大語言模型的主要交互方式,但口頭交流在醫療保健的多個方面仍然至關重要,其中包括處理醫療口述,以及醫患之間的實時對話等。除此之外,語音也提供了一種與語言模型交互的更自然的方式。
我們研發了用于醫療場景語音轉譯的MedASR語音轉文本模型,以支持需要熟悉醫療保健領域專業詞匯的應用場景。MedASR 既可用于轉錄醫療口述,還可作為一種更自然的交互方式,為 MedGemma 生成輸入指令。在對比 MedASR 與通用 ASR 模型Whisper large-v3的性能后,我們發現 MedASR 在處理胸部 X 光片語音輸入內容方面的錯誤率降低了 58% (單詞錯誤率 (WER): 5.2% vs. 12.5%),在涉及多種專業和多位發言人的內部醫療口述基準測試中,錯誤率更是減少了 82% (WER: 5.2% vs. 28.2%)。我們發布了一系列教程 Notebook,希望可以幫助開發者創建和適配他們的自有系統,以將 MedASR 的音頻理解能力與 MedGemma 1.5 的臨床推理能力完美結合。您可以參閱MedASR 模型卡片了解詳情。
MedASR 既可用于轉錄醫療口述 (上圖),也可用于為 MedGemma 生成輸入指令 (下圖)。
開發者如何使用 MedGemma
我們看到世界各地的醫療健康科技初創公司與開發者正積極利用 MedGemma,以加速推進面向各種用例和應用場景的研究與產品開發進程。
例如,Qmed Asia已將 MedGemma 整合至askCPG,為馬來西亞 150 多項臨床實踐指南提供了一個交互式的對話界面。據馬來西亞衛生部稱,此對話式界面顯著提升了臨床指南在日常決策支持中的實用性,并且通過 MedGemma 提供的多模態醫學圖像擴展程序在試點部署中頗受歡迎。
此外,臺灣地區的健康保險署已將 MedGemma 引入肺癌手術的術前評估體系。他們使用 MedGemma 從 30,000 余份病理學報告和非結構化數據中提取關鍵數據,繼而執行統計分析,以評估患者的術前狀況。這項工作旨在為政策決策提供參考信息,以優化手術切除的決策流程,從而改善患者預后結果。
自發布以來,MedGemma 已在醫學 AI 研究中被廣泛引用,作為理解醫學文字、協助制定多學科聯合會診、解讀乳腺 X 光片報告及其他臨床應用場景的基礎模型,并且性能表現優于其他模型。
開始使用
您可以通過Hugging Face 合集或Google Cloud 的 Vertex AI獲取 MedGemma 全系列模型。MedASR 當前已在Hugging Face和Vertex AI平臺上線。如果您對構建下一代醫療 AI 應用充滿想法,歡迎參與MedGemma 挑戰賽。
歡迎瀏覽我們的MedGemma GitHub 代碼庫,探索擴展系列教程,其中包括有關運行推理和基于 LoRA 的監督式微調的教程,以及有關強化學習的全新教程,這種調整方法對于學習復雜任務尤為有效,并且不會影響現有模型功能。
MedGemma GitHub 代碼庫
https://github.com/Google-Health/medgemma/tree/main/notebooks
強化學習的全新教程
https://github.com/Google-Health/medgemma/blob/main/notebooks/reinforcement_learning_with_hugging_face.ipynb
您可以訪問HAI-DEF 網站,獲取有關 MedGemma 1.5 和其他 Health AI Developer Foundations (健康領域的 AI 開發者基礎) 模型的資源,也可以訂閱我們的簡報。歡迎前往HAI-DEF 論壇獲取技術支持。
我們非常期待社區成員能夠利用這些新模型構建出精彩應用,并且歡迎大家提供反饋意見。
此表總結了模型功能,有助于您了解哪款模型最適合您的用例。
數據集說明
我們根據多個公開和私有的去標識化數據集對模型進行了訓練和評估。Google 及其合作伙伴均采用經過嚴格匿名化或去識別化的數據集,以保護個人研究參與者和患者的隱私。
免責聲明
MedGemma 與 MedASR 等 HAI-DEF 系列模型作為一個研發起點,旨在助力開發者高效構建處理醫療文本與影像的下游應用。HAI-DEF 不能在未經開發者對其具體用例進行適當驗證、調整和/或做出實質性修改的情況下直接使用。這些模型生成的輸出不能直接用于提供臨床診斷、患者管理決策、治療建議,或任何其他臨床實踐應用。此處報告的性能基準僅用于突出顯示基準功能,并不意味著 MedGemma 在任何特定醫療應用中都安全可靠。可能存在此處未有列出的模型輸出錯誤。所有模型輸出均應被視作初步結果,并且需要通過成熟的研發方法進行獨立驗證、臨床關聯和深入調查。如需了解詳細信息,請參閱使用條款和禁止使用政策。
致謝
MedGemma、MedGemma 挑戰賽和 MedASR 是多個 Google 團隊協作負責的項目。非常感謝為這些項目做出貢獻的諸位伙伴,包括 Health AI、Gemma 和 Kaggle 工程團隊成員和跨職能團隊成員,以及 Google 研究和 Google DeepMind 的贊助商。
-
Google
+關注
關注
5文章
1811瀏覽量
60581 -
醫療
+關注
關注
8文章
2007瀏覽量
61706 -
AI
+關注
關注
91文章
40403瀏覽量
301979
原文標題:利用 MedGemma 1.5 與 MedASR 構建下一代醫療應用
文章出處:【微信號:Google_Developers,微信公眾號:谷歌開發者】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
FT 5000 Smart Transceiver:下一代智能網絡芯片的卓越之選
DSP Concepts與AMD助力打造下一代汽車音頻
理想汽車發布下一代自動駕駛基礎模型MindVLA-o1
借助谷歌FunctionGemma模型構建下一代端側智能體
探索Bourns GDT35系列:下一代三電極氣體放電管避雷器的卓越性能
探索Bourns GDT21系列:下一代氣體放電管浪涌保護器的卓越性能與應用價值
英飛凌下一代電磁閥驅動器評估套件使用指南
Amphenol Aerospace高壓38999連接器:滿足下一代飛機電力需求
Telechips與Arm合作開發下一代IVI芯片Dolphin7
用于下一代 GGE 和 HSPA 手機的多模式/多頻段功率放大器模塊 skyworksinc
適用于下一代 GGE 和 HSPA 手機的多模/多頻段 PAM skyworksinc
四維圖新加速打造基于地平線征程6B的下一代輔助駕駛系統
下一代高速芯片晶體管解制造問題解決了!
下一代PX5 RTOS具有哪些優勢
英特爾與面壁智能宣布建立戰略合作伙伴關系,共同研發端側原生智能座艙,定義下一代車載AI
借助Google MedGemma系列模型打造下一代醫療應用
評論