lch
发布于 2026-04-14 / 0 阅读
0

刚刚!中科院多模态大模型 S1-VL-32B 正式开源!5 项 SOTA 登顶...

近日,由中科闻歌与中国科学院磐石(ScienceOne)团队联合技术攻关,面向科学领域的多模态大模型 S1-VL-32B开源并发布,在多项科学多模态评测中表现SOTA。


S1-VL-32B支持两种推理模式:


  • Multimodal Reasoning多模态推理模式

即基于链式思维的多模态科学推理,适用于复杂、多步问题的分析与求解;


  • Thinking with Images图像思考模式

即模型可在推理过程中主动调用代码工具,对图像进行裁剪、放大、增强、框选与关键点标注等操作,结合局部信息完成后续推理。


这意味着,模型不再只是“看见图像后回答问题”,而是具备“通过代码操作图像”的能力。对于高信息密度的科研图表、高分辨率遥感图像、显微图像、天文观测图像等任务,这种能力尤其关键。


图像思考 5项性能SOTA


S1-VL-32B在复杂科研图像理解、多步逻辑分析和高分辨率视觉推理任务中具备明显优势。

在公开benchmark测评中,S1-VL-32B共完成2个维度、13个benchmark测评。


图像操作推理方向,5项基准均排名第一

S1-VL-32B在5项benchmark中全部排名第一,全面验证了其在高分辨率图像理解、真实视觉推理以及“Thinking with Images”任务上的能力优势。在32B参数规模下,S1-VL-32B已经实现了兼顾精度与效率的高质量多模态推理能力。


科学多模态推理方向,整体超越基座模型 Qwen3-VL-32B

S1-VL-32B在 MMMU、MathVision、VRSBench-MINI 等多个主流benchmark上取得领先表现,整体效果超过其基础模型Qwen3-VL-32B,并在与更大参数规模开源模型及部分闭源旗舰模型的对比中保持了较强竞争力。


案例实测


在实际任务中,S1-VL-32B在医学影像、复杂场景识别和图文联合推理等任务中展现出强大的能力。


案例1:CT 图像局部裁剪与器官识别

问题:观察这张CT图像。你能识别出高亮区域中的器官吗?

A. 咽缩肌  B. 颌下腺  C. 喉声门  D. 甲状腺

面对 CT 图像中的高亮区域,模型先裁剪并放大目标区域,再结合局部增强图像完成器官判断,最终准确识别出 Larynx glottis。


案例2:遥感图像中的居民区识别

问题:住宅区域中主要可见的物体是什么?

面对同时包含农田、道路与居民区的遥感图像,模型先定位问题所指向的住宅区域,再通过裁剪与放大聚焦目标区域,最终准确判断出该区域中主要可见的是房屋,并识别出其中还分布有道路和少量绿化。


案例3:复杂自然场景下目标定位与数字识别

问题:蓝色标签上写的数字是多少?

A. 25   B. 21   C. 32   D. 23

面对花丛中部分遮挡的蓝色标签,模型在首次裁剪未命中目标后,能够主动调整聚焦区域,最终准确识别出标签数字23。


案例4:力学图文题联合分析与公式推导

问题:两等长杆 AB 与 BC 在 B 点用铰链接,又在杆的 D 和 E 两点连一个弹簧,如图所示。弹簧系数为 k,当距离 AC 等于 a 时,弹簧的拉力为零。如在 C 点作用一个水平力 F,杆系处于平衡。设 AB = l,BD = b,假设杆重及摩擦可以略去不计,求距离 AC 之值。

面对包含力学示意图与中文题干的复杂问题,模型能够同时理解图示结构、文字条件与变量关系,完成公式推导并给出结果 x = a + Fl² / kb²。


技术细节


团队通过建立跨学科体系的数据处理管道,对视觉推理轨迹进行多维度效用评估与筛选,确保训练推理轨迹的质量;并采用多阶段后训练流程,逐步解锁S1-VL-32B 模型的科学推理能力:


首先,基于涵盖数、理、化、天、地、生等多学科的大规模多模态指令数据进行混合训练,提升模型科学视觉理解和逻辑推理能力,使模型在学术图像问答、医学影像分析、化学结构识别等方面奠定坚实基础;


然后,引入Thinking with Images推理范式,通过高质量科学推理数据退火,使模型具备在推理过程中通过代码进行图像操作的能力,在需要精细化图像分析的场景中表现尤为突出


开源地址


S1-VL-32B现已正式上线ModelScope(魔搭社区)及 Hugging Face,诚邀全球开发者体验与交流。


🤗https://huggingface.co/ScienceOne-AI/S1-VL-32B

🤖https://modelscope.cn/models/ScienceOne-AI/S1-VL-32B