美国西奈山伊坎医学院一项最新研究发现,无论是放射科医生还是多模态大语言模型( LLM ),都难以轻易区分由人工智能( AI )生成的深度伪造 X 光影像与真实医学影像。研究人员表示,这一发现凸显了 AI 生成医学影像可能带来的医疗安全与网络安全风险。相关论文发表于最新一期《放射学》杂志。
“深度伪造”是指看似真实但实际上由 AI 生成或篡改的视频、照片、图像或音频。 AI 生成的 X 光片真实度极高,能以假乱真,可能被用于医疗欺诈,例如伪造骨折影像用于诉讼取证。如果黑客入侵医院系统并植入合成医学影像,还可能篡改诊断结果,甚至破坏电子病历系统的可信度。
在这项回顾性研究中,来自美国、法国、德国、土耳其、英国和阿联酋 6 个国家 12 家医疗中心的 17 名放射科医生参与测试。研究共分析 264 张 X 光影像,分为两组:第一组数据包含多个解剖部位的真实影像以及由 ChatGPT 生成的影像;第二组数据为胸部 X 光片,其中一半为真实影像,另一半由斯坦福医学院研究人员开发的开源生成式 AI 扩散模型 RoentGen 生成。
解剖结构匹配的真实 X 光片和 GPT-4o 生成的 X 光片:( A )真实胸部正位 X 光片,( B ) GPT-4o 生成的胸部正位 X 光片;( C )真实颈椎侧位 X 光片,( D ) GPT-4o 生成的颈椎侧位 X 光片;( E )真实手部正位 X 光片,( F ) GPT-4o 生成的手部正位 X 光片;( G )真实腰椎侧位 X 光片,( H ) GPT-4o 生成的腰椎侧位 X 光片。这些图像对比表明, GPT-4o 能够在不同的解剖区域生成符合 X 光片特征的图像。图片来源:北美放射学会( RSNA )
解剖结构匹配的真实 X 光片和 GPT-4o 生成的 X 光片:( A )真实胸部正位 X 光片,( B ) GPT-4o 生成的胸部正位 X 光片;( C )真实颈椎侧位 X 光片,( D ) GPT-4o 生成的颈椎侧位 X 光片;( E )真实手部正位 X 光片,( F ) GPT-4o 生成的手部正位 X 光片;( G )真实腰椎侧位 X 光片,( H ) GPT-4o 生成的腰椎侧位 X 光片。这些图像对比表明, GPT-4o 能够在不同的解剖区域生成符合 X 光片特征的图像。图片来源:北美放射学会( RSNA )
结果显示,在未被告知研究目的的情况下,仅有 41% 的医生主动识别出 AI 生成图像。在明确告知后,医生区分真实与伪造影像的平均准确率为 75% 。
与此同时, GPT-4o ( OpenAI )、 GPT-5 ( OpenAI )、 Gemini 2.5 Pro (谷歌)以及 Llama 4 Maverick ( Meta )四种多模态大模型也进行了识别测试,其准确率在 57% — 85% 之间。即便是参与生成这些深度伪造影像的 GPT-4o 模型本身,也无法识别全部伪造影像。
研究人员总结称, AI 生成的医学影像往往存在一些“过于完美”的特征,例如骨骼表面过于光滑、脊柱过直、肺部过度对称、血管分布过于均匀,以及骨折断面异常整齐等。
为降低风险,研究团队建议,应在医学影像中嵌入不可见数字水印、增加加密签名等技术手段,以防止影像被篡改,同时加强医学影像 AI 鉴别能力培训。