谷歌近日在醫(yī)療人工智能領(lǐng)域邁出重要一步,正式推出新一代開源醫(yī)療大模型MedGemma 1.5及專為臨床場景設(shè)計的語音識別模型MedASR。這一雙模型組合不僅拓展了醫(yī)療AI的技術(shù)邊界,更通過開源策略為全球醫(yī)療創(chuàng)新注入新動能。兩款模型均基于脫敏臨床數(shù)據(jù)訓(xùn)練,在確保隱私合規(guī)的前提下,向全球開發(fā)者與研究機構(gòu)免費開放。
作為Gemma系列的醫(yī)療專項升級,MedGemma 1.5突破傳統(tǒng)文本處理框架,首次實現(xiàn)多模態(tài)醫(yī)療數(shù)據(jù)融合。該模型在保留原有病歷分析、文獻解讀能力的基礎(chǔ)上,新增對X光、CT等醫(yī)學影像的語義理解功能。通過整合影像描述性文本與視覺特征,模型可輔助完成初步篩查與診斷推理,例如識別肺部結(jié)節(jié)特征或分析骨折影像細節(jié),使臨床決策支持從單維度文本交互升級為全流程智能輔助。
同步發(fā)布的MedASR則聚焦解決醫(yī)療場景中的效率痛點。針對醫(yī)生文書工作耗時長的行業(yè)難題,該模型通過深度優(yōu)化醫(yī)療領(lǐng)域聲學模型與語言模型,實現(xiàn)醫(yī)患對話、手術(shù)記錄等專業(yè)語音的高精度轉(zhuǎn)寫。測試數(shù)據(jù)顯示,模型在復(fù)雜醫(yī)療術(shù)語識別準確率上達到98.7%,轉(zhuǎn)寫效率較傳統(tǒng)方式提升4倍以上,生成的文本可直接導(dǎo)入電子病歷系統(tǒng),顯著減輕臨床文書負擔。
開源策略成為此次發(fā)布的核心亮點。谷歌醫(yī)療AI團隊表示,兩個模型均采用MIT許可協(xié)議,允許商業(yè)機構(gòu)免費使用與二次開發(fā)。此舉與前期通過HIPAA認證的Gemini醫(yī)療助手形成戰(zhàn)略協(xié)同,構(gòu)建起從底層技術(shù)到合規(guī)應(yīng)用的完整生態(tài)。醫(yī)療機構(gòu)可基于開源框架快速部署遠程診療系統(tǒng),初創(chuàng)企業(yè)能低成本開發(fā)專科輔助診斷工具,學術(shù)團隊則獲得研究醫(yī)療AI模型可解釋性的基礎(chǔ)平臺。
技術(shù)專家指出,多模態(tài)融合與開源生態(tài)的雙重突破,標志著醫(yī)療AI進入成熟應(yīng)用階段。MedGemma 1.5的影像理解能力與MedASR的語音處理技術(shù)形成互補,覆蓋診療全流程的關(guān)鍵節(jié)點。而開源模式通過降低技術(shù)門檻,將加速AI在基層醫(yī)療、公共衛(wèi)生等資源薄弱領(lǐng)域的滲透,推動全球醫(yī)療體系向智能化、均等化方向演進。










