王小川：医疗行业对大模型有三大刚性要求，但通用模型一条都不达标

Coding 对应创造、Video 对应快乐，但健康仍然是智力模型尚未解开的一环。

5 月 22 日，百川智能在清华大学「AI 医疗新范式」学术论坛上正式展示了新一代医疗大模型 Baichuan-M4 与 AI 家庭医生「百小医」。同日，三家国家顶尖医院分享了与百川联合开展的临床研究成果。

百川智能创始人、CEO 王小川在演讲中给出了一个清晰的判断：通用大模型进入医疗场景，幻觉被包装成了确定性，患者带着 AI 给的「诊断」走进诊室质疑医生，医患矛盾反而加剧。百川要做的事，是用医疗增强大模型重新定义 AI 在医疗中的角色。

⬆️关注 Founder Park，最及时最干货的创业分享

Founder Park 正在持续寻找值得被看见的 AI 团队与项目。

我们将通过「AI 产品市集」、内容报道、社群分发等方式，帮你触达早期用户、获得真实反馈，以及建立关键连接。

如果你正在做 AI 相关的事，欢迎和我们聊聊。

01 医疗对大模型有三条刚性要求，

但通用模型一条都不达标

AI 进入医疗，方向没错，但做法需要认真。王小川提出，百川看到了技术、产品、信任三个维度的问题。

首先是技术，这也是当天论坛上被反复提及的行业现实：过去一年，通用大模型被大规模用于医疗健康咨询，规模已达数千万人次。患者发烧问 AI，孩子起疹子问 AI，拿到体检报告看不懂也问 AI。

但一线临床的反馈并不好。通用模型的回答听起来流利、看起来专业，实际上经常「看似对、实际危险」。幻觉被包装成了确定性，患者带着 AI 给的「诊断」走进诊室质疑医生，医患矛盾反而加剧。

王小川把医疗对大模型的刚性要求总结为三点：

低幻觉。医疗容不得编造，一个错误判断可能危及生命。《BMJ Open》2026 年的研究系统评估了主流通用模型的医疗回答，约 50% 被评为「有问题」，近 20% 属于「高度有问题」。通用模型当前的幻觉率在严肃医疗场景下不可接受。
强循证。临床诊断有严格的循证路径，不是「根据症状猜一个最可能的病」。通用模型缺乏系统性的循证推理能力。《JAMA Network Open》2026 年评测了 21 款主流大模型在 29 个标准化临床案例中的表现，鉴别诊断阶段的错误率普遍超过 80%——不按指南逻辑层层排除，而是过早锁定一个答案。
会提问。任何受过训练的医生都不会在患者说完第一句话时就下结论。牛津大学 2026 年发表于《Nature Medicine》的研究揭示了一个关键差距：AI 读标准化病历时准确率可达 94.9%，但真实患者自助使用时骤降至 34.5%。原因在于患者描述往往不完整，而通用模型不会像医生一样追问。

三条刚需，通用模型一条都不达标。为此，百川把每一项都做到了极致优化。

02 Baichuan-M4 登顶三大榜单，

幻觉率全球最低

全新亮相的 Baichuan-M4，在 HealthBench、HealthBench Hard、HealthBench Professional 三大权威医疗榜单中同时位列世界第一，全面超越 GPT-5.5、Opus 4.7、DeepSeek-V4-Pro 等顶尖模型。

核心能力突破包括：

幻觉率 3.3%：依托原创的事实性感知强化学习算法，Baichuan-M4 将裸模型的事实性幻觉率降至 3.3%，再创全球新低。
1000+ 原子化临床路径（SKILL）：在循证路径上，M4 将权威医学指南拆解为 1000 余条原子化临床路径，每一条由顶尖临床专家定义与校验。循证不是模型背诵的知识，而是每一步推理的执行骨架。
深度问诊能力：不仅能像临床医生一样步步追问，更拥有超长记忆，足以托起患者长周期的健康管理。
医疗智能体升级：叠加 Harness 调度、记忆与自进化能力后，M4 从「医疗大脑」升级为「医疗智能体」。

在此之前，百川 M3 于 2026 年 1 月发布时即刷新了 HealthBench 最高纪录。全球最大稳定币公司 Tether 进军 AI 医疗时，从 OpenAI、量化巨头 Ubiquant AI 与百川三个候选中选定 M3 作为唯一教师模型。M3 在几乎所有核心评测指标上都展现出明显优势，尤其在高复杂度医学问题上拉开了显著差距。

03 百小医：

首个「全病程管理」AI 家庭医生

模型能力再强，并不直接等同于患者的最终获益。王小川说：「M4 是大脑，百小医是身体。」大脑解决的是能力问题，身体解决的是触达问题。

中国医疗最核心的矛盾，始终是优质医疗资源供给不足。AI 的发展恰恰为破解这个难题打开了一扇窗，但前提是找到对的产品形态。

百川现场展示了面向用户的 AI 家庭医生「百小医」，产品核心定位：「明明白白看医生，安安心心管家人」。

在百川的定义里，AI 家庭医生的核心在于两个理念判断：

不替代真人医生，更多是「接手」

它不替代真人医生的临床决策，而是精准承接医生看不见、来不及管的碎片时间。在一次完整的就医历程中，诊前的症状梳理、就医准备，诊后的病情解读、用药管理和日常监测，占据了约 95% 的时间跨度，而诊中那 5% 的关键决策点：下诊断、开处方、做手术，则必须由真人医生来完成。百川把这种协作称为「双医模式」。

王小川以一位 35 岁程序员张强的就医经历为例，展示了百小医如何在四个关键断点上接住患者：凌晨被脚趾剧痛惊醒，「症状问诊」通过十轮逐步追问排除运动损伤，锁定急性痛风方向，建议挂「风湿免疫科」；问诊完成后「就医准备」同时生成两份材料：一份给患者，列出就医前须知、注意事项和到了诊室该跟医生沟通什么；一份给医生，梳理完整的病史时间线和关键症状，让短暂的门诊时间不浪费一秒；看完病回到家，「病情分析」用通俗语言解释「血尿酸 542 微摩尔/升意味着什么」，「医嘱解读」逐条拆解处方和注意事项，结合生活习惯给出可执行的个性化建议。从凌晨发病到当天确诊用药，四个断点被百小医一一接住。

不止管单人，更要统管家人健康

中国家庭的健康命题向来是深度绑定的。百小医主动引导用户添加企业微信「百小医 @ 百川家医」，拉入家庭群后自动为每位成员建立独立的健康档案，在自然对话中捕捉并结构化每个人的身体状态、用药历史和检查数据；识别日常闲聊中的高危信号，主动提醒复诊和用药。

子女在外地，打开微信就能掌握父母的身体状况；面对「劝不动父母去医院」、「爸妈被保健品忽悠」这些中国家庭的真实痛点，百小医以专业判断介入，把焦虑转化为行动。

正如王小川所说：「AI 家庭医生应该在你最常打开的地方等着你。微信是中国人的数字生活底座，AI 就该在那里。」

四级诊疗新范式

沿着「双医协同」的逻辑，百川进一步提出了「四级诊疗」新范式：在现有的三级医院、二级医院、基层医院体系之下，通过 AI 家庭医生构建坚实的「家庭底座」，与现有三级体系协同运转。向上，AI 家庭医生在最前端完成疾病的初步筛查和主动分诊；向下，三级医院的随访与疾病管理能力沿同一路径下沉，直接触达到每一个家庭。

百川同时宣布将 M4 与百小医的能力底座开放给药企、保险、智能硬件、医疗机构共建生态。

04 北儿、东肿、瑞金，

AI 家庭医生跑通了最严苛的临床场景

医生信不信、患者敢不敢用、临床有没有共识——这些才是 AI 进入医疗最难跨过的门槛。三家国家顶尖医院介绍了与百川联合开展的临床研究成果，研究全部严格遵循临床研究流程，经过严苛的立项、伦理评审和严格的数据采集标准。

北京儿童医院：专家会诊符合率 95%，「我们要一起造 100 万个儿科医生」

「国内儿科医生相对不足，这是北京儿童医院和百川合作的起点——我们要一起造出 100 万个儿科医生。」倪鑫院长分享道。

联合百川打造的「AI 儿科医生」整合 300 余位权威儿科专家临床经验、覆盖 4 万余份临床指南与 3800 万余篇医学文献，已具备通过儿科执业医师考试的能力。

目前，「福棠·百川」AI 儿科医生已形成「一大四小」产品矩阵。专家版已在倪鑫院长的多学科联合门诊（MDT）正式上岗，经过 40 余场会诊、大查房，百余病例验证，与北京儿童医院专家的符合率达到 95%；家庭版已在北京儿童医院线上小程序试运行，使用用户超 20 万，下一步将依托儿科医联体全面落地。

中国医学科学院肿瘤医院：患者把 AI 当「活生生的人」，医护介入仅占 0.25%

中国医学科学院肿瘤医院副院长李宁教授分享了与百川联合开展的肿瘤患者「陪伴 AI - 百小爱」临床研究。

研究灵感来自美国 MSKCC 的一项经典研究发现：通过给患者定期发 Email 提醒肿瘤患者复查、报告自身状况，就能通过提高诊疗依从度来改善肿瘤患者生存时间。「关怀本身就是治疗。」但医生和患者沟通有顾虑、时间太紧、专业语言有差异，许多关键信息在两者之间根本无法有效传递。

按严格临床试验流程完成科学审查、伦理审查和国际注册。由患者、家属、陪伴 AI、主管医生、护士共建 5 方医患微信群，对患者肿瘤治疗期间的问题进行回答和交流。截至目前入组 103 例患者、观察 16 周，7126 个连续对话中，AI 回答偏差错误需要医护介入占比仅 0.25%，用户平均周留存率达 79.8%，远高于行业的常规水平。

李宁教授的观察：肿瘤患者把陪伴 AI 当成了「活生生的人」来交流。「不会跟医生说的话，他会跟陪伴 AI 说」。陪伴 AI 在副作用教育、情绪支持、复诊依从这些临床长期忽略的环节，正在快速弥补医患沟通的缺口。

瑞金医院：一部手机 + 3 分钟咳嗽音筛查，30 城 5 万人次基层跑通

上海交通大学医学院附属瑞金医院瞿介明教授分享了与百川联合开展的慢阻肺全病程管理研究。慢阻肺已是全球第三大致死病因，中国 40 岁以上人群患病率 13.7%，但肺功能检查率低，确诊后患者对疾病管理的知晓率不到 20%。发现难、确诊慢、管不好，是基层慢阻肺管理长期未被满足的核心痛点。

在最关键的早筛环节，百小医在微信端主动向用户推送 AI 筛查工具「咳搜」（已获国家三类医疗器械创新注册证绿色通道认定）。患者只需一部手机，录制 3 分钟咳嗽音，即可完成高精度的慢阻肺初筛。

「咳搜」接入百小医之后，扫码、筛查、确诊、管理、复访五步，真正在基层与上级医院之间闭环跑通。3 个月内，已在 30 座城市 186 个社区落地，累计高危人群筛查 50,472 人次，筛出慢阻肺高风险患者比例达 25.3%。

更多阅读

创业者闭门探讨：Make for Agent ，其实还是 Make for Human
拆解 Anthropic：最好的 AI 公司，可能也是一种组织发明
对话 Lucius 赵赫：AI 员工的本质，是一份有 SLA 的劳动合同
AGI Playground 2026，欢迎来新加坡！

转载原创文章请添加微信：founderparker

菜单

分享

王小川：医疗行业对大模型有三大刚性要求，但通用模型一条都不达标

01

医疗对大模型有三条刚性要求，

但通用模型一条都不达标

02

Baichuan-M4 登顶三大榜单，

幻觉率全球最低

03

百小医：

首个「全病程管理」AI 家庭医生

不替代真人医生，更多是「接手」

不止管单人，更要统管家人健康

四级诊疗新范式

04

北儿、东肿、瑞金，

AI 家庭医生跑通了最严苛的临床场景

北京儿童医院：专家会诊符合率 95%，「我们要一起造 100 万个儿科医生」

中国医学科学院肿瘤医院：患者把 AI 当「活生生的人」，医护介入仅占 0.25%

瑞金医院：一部手机 + 3 分钟咳嗽音筛查，30 城 5 万人次基层跑通

创业者闭门探讨：Make for Agent ，其实还是 Make for Human

拆解 Anthropic：最好的 AI 公司，可能也是一种组织发明

对话 Lucius 赵赫：AI 员工的本质，是一份有 SLA 的劳动合同

AGI Playground 2026，欢迎来新加坡！

中国智能驾驶技术行业发展现状及前景研究报告

盐城市大丰区招商局朱金瑜局长一行来访五度易链，聚焦大数据精准招商

中国智能座舱行业市场现状及发展趋势研究报告

2021厦门投洽会 | “五度易链”创始人金永顺博士：数据驱动产业高质量发展！

2026年中国汽车芯片行业市场现状与发展前景研究报告

Y12T110 广州港科大：偏振无关角度无关的垂直耦合光栅

心梗猝死来临前的6个求救信号别忽视！记住这些关键时刻能救命

中国新能源汽车行业市场现状与未来发展趋势研究报告

“笃威尔数字技术”受邀出席2024 H-Tech Data创新情报论坛！

喜报 | “北京笃威尔数字技术有限公司”获评2024年国家高新技术企业