
CVPR 2026 医学影像 AI 趋势梳理:从看懂影像,到接管科研工作流
Quick Take
CVPR 2026 highlights a shift in medical AI from image recognition to integrated research workflows.
Key Points
- Models now focus on efficient adaptation and clinical semantic understanding.
- AI agents optimize biomedical imaging workflows with minimal human intervention.
- New methods enhance medical reasoning with fewer labeled data.
Article Content
From source RSS / original summary模型正从影像识别走向高效适配、临床语义理解与跨模态推理。 作者丨郑佳美 编辑丨马晓宁 医学 AI 过去很长一段时间都在回答一个问题:模型能不能看得比人更准? 于是,大量研究围绕病灶识别、器官分割、影像分类和报告生成展开,目标是在标准数据集上取得更高指标。 但现在,这个问题已经不够了。 真实的医学与生物科研场景并不是一个干净、统一、标注充分的 benchmark,而是由不同设备、不同协议、不同数据质量、不同任务目标和不同专业知识共同组成的复杂系统。 因此,新的研究重点开始发生转移。 一个模型是否有价值,不再只取决于它在某个数据集上的分数,而取决于它能否在新实验室的数据上快速适配,能否用更少标注学到有效推理,能否把 CT、超声、病理、报告、空间转录组、运动传感器、脑活动和多视角 X-ray 等异质信息连接起来。 也就是说,医学与生物视觉正在从“会看图”走向“会理解任务”,从“模型本身更大”走向“系统整体更有用”。
CVPR 2026 相关论文中也能看到这种趋势:一方面,AI agent、数据筛选和轻量化适配方法正在减少人工调参、数据标注和模型微调成本;另一方面,三维 CT 基础模型、超声图文预训练、空间转录组预测、IMU-视频对齐、fMRI 视频重建和双视角 X-ray 推理等工作,则不断扩展医学视觉模型能够处理的信息边界。 这些研究共同指向一个方向:医学 AI 的下一步,不只是训练更大的模型,而是让模型真正进入真实科研与临床流程。 01少数据、少微调、少人工来自加州理工学院、康奈尔大学、德克萨斯大学奥斯汀分校和伦斯勒理工学院的研究团队在《Simple Agents Outperform Experts in Biomedical Imaging Workflow Optimization》中,关注的是如何用简单的 AI agent 自动优化生物医学图像分析工作流。 研究的重点不是重新训练一个新模型,而是让 agent 为已有的成熟工具自动编写图像预处理和后处理代码,从而解决不同实验室、不同成像设备、不同数据分布下工具效果下降的问题。
论文在 Polaris、Cellpose 和 MedSAM 这 3 个真实生物医学图像分析流程上进行了实验,覆盖单分子点检测、细胞实例分割和医学图像分割等不同尺度任务,结果发现简单的基础 agent 就能超过专家手写的官方优化方案,尤其在 MedSAM 任务上提升非常明显。 论文地址:https://arxiv. org/pdf/2512. 06006v1研究的亮点在于,它证明了在这种工程性很强、数据量有限、目标明确的科研工作流优化场景中,简单、透明、低成本的 agent 往往已经足够有效,复杂的 agent 架构、专家函数库或 AutoML 并不一定稳定带来收益,甚至可能因为任务差异、搜索空间偏置或小验证集过拟合而降低效果;同时,论文还分析了不同任务中 API 空间和参数空间的差异,解释了为什么同一种 agent 设计在不同工具上表现不同。 雷峰网整体来看,这项工作把 LLM agent 从泛泛的自动化概念落到了真实科研工具适配中,说明 agent 可以帮助科研人员减少大量手工调参和代码适配工作,并有潜力成为生物医学图像分析工具落地应用中的实用辅助系统。
在工具工作流的自动适配之外,《Towards Efficient Medical Reasoning with Minimal Fine-Tuning Data》把问题转向医学推理模型的训练数据选择。 来自华东师范大学、穆罕默德·本·扎耶德人工智能大学、蒙纳士大学和上海人工智能实验室的研究团队提出 DIQ,即 Difficulty-Influence Quadrant,希望用极少量微调数据提升医学推理模型的效率。 研究指出,医学 VLM / LLM 的监督微调通常依赖大量带推理链的数据,但其中存在许多重复、低质量或优化价值不高的样本,直接扩大数据规模会带来较高计算成本,也不一定提升复杂临床推理能力。 论文认为,单纯按“难度”选数据容易选到噪声大、过难且难以优化的样本,单纯按“梯度影响”选数据又容易偏向浅层、好学但推理不深的样本,因此 DIQ 同时计算每个样本的医学推理难度和训练影响力,把样本划分到不同象限,并优先选择“高难度、高影响力”的数据,让模型在很小数据量下也能学到有价值的临床推理模式。
实验显示,在 Huatuo 和 FineMed 等医学推理数据上,DIQ 只用 1% 选中数据就能接近甚至超过全量微调效果,用 10% 数据时整体优于随机选择、困惑度选择、相似度选择和 LESS 等基线;同时在人类和 LLM-as-a-judge 评估中,DIQ 选出的数据在鉴别诊断、安全检查和证据引用等方面更符合专家临床推理习惯。 论文地址:https://arxiv. org/pdf/2508. 01450v3它的亮点在于,不是继续堆更多医学推理数据,而是从“样本是否有推理价值”和“样本是否真正推动模型优化”两个角度做精细筛选,说明高质量数据选择比粗暴扩大数据规模更有效;同时,DIQ 的影响力计算基于一阶梯度点积,避免传统影响函数的高成本,难度分数又通过医学 BiomedBERT 分类器估计,因此整体方法相对轻量、可复用。 雷峰网整体来看,这项工作为医学推理模型提供了一种更省数据、更省计算的微调方案,尤其适合医学数据昂贵、标注困难、但又需要模型具备可靠临床推理能力的场景。
进一步来看,《Decoupling Vision and Language: Codebook Anchored Visual Adaptation》关注的不是训练数据筛选,而是视觉语言模型在特定领域中的轻量化适配。 亚马逊云科技和加州大学洛杉矶分校的研究团队提出 CRAFT,全称是 Codebook Regulated Fine-Tuning,主要研究如何在不改动大语言模型部分的情况下,让大型视觉语言模型更好适应医学图像、细粒度分类、植物病害识别等特定视觉领域。 论文指出,现有方法通常会微调视觉编码器、投影层或 LLM,但这样容易造成视觉特征空间变化,需要重新对齐语言模型,甚至会让模型在短答案数据上过拟合,损害原本的指令遵循和解释能力;CRAFT 的核心思路是只微调离散视觉编码器,并把视觉特征锚定到一个固定的离散 codebook 中,让视觉编码器学会选择和排列已有的“视觉词汇”,从而向冻结的语言模型传递更适合目标领域的视觉信息。
训练时,方法结合 surrogate LLM 的对齐损失、commitment loss 和对比学习损失,保证离散 token 既贴近图像内容,又能被语言模型理解;推理时还加入基于 token 稀有度的剪枝机制,去掉大量背景或重复 token,让模型更关注关键视觉区域。 实验覆盖 IconQA、OCRVQA、ScienceQA、VQA-RAD、EuroSAT、Flowers、Kvasir、PlantVillage、Cars、Dogs 等 10 个分类和视觉问答基准,结果显示 CRAFT 相比原始离散模型平均提升 13. 51%,在最强设置下平均准确率达到 68. 58%,并且在推理解释能力上比 LoRA、projector fine-tuning 和连续特征微调更稳定。 论为地址:https://arxiv. org/pdf/2602. 19449v1它的亮点在于把“视觉适配”和“语言推理”解耦:只更新视觉编码器,不重新训练或破坏 LLM,却能让同一个适配后的编码器迁移到共享 codebook 的不同语言模型上;同时,离散 codebook 起到了稳定接口的作用,避免连续特征微调带来的跨模态错位。
整体来看,这项工作为领域专用 LVLM 适配提供了一种更轻量、更可复用的方法,尤其适合那些视觉分布特殊、但又不希望重新训练大语言模型的应用场景。 02从三维 CT 到超声图文理解在《Scaling Self-Supervised and Cross-Modal Pretraining for Volumetric CT Transformers》中,荷兰埃因霍温理工大学电气工程系(ARIA 实验室、AIMS 实验室)提出了面向三维 CT 的开放式基础模型 SPECTRE。 它的目标是学习既包含体积影像空间结构、又包含放射科报告临床语义的通用 CT 表征。 论文关注的核心问题是:三维 CT 不同于普通二维图像,直接使用常规视觉基础模型会遇到 token 数量过大、体素各向异性、扫描范围和层厚不一致、医学报告监督噪声较强等困难。 论文地址:https://arxiv. org/pdf/2511.
17209v2为此,作者设计了“局部 ViT + 全局 ViT”的两级纯 Transformer 架构,先在局部三维窗口中提取精细结构特征,再在全局层面整合完整扫描信息;训练上则结合自监督学习和 CT-文本跨模态对齐,让模型同时具备几何理解能力和临床语义理解能力。 实验显示,SPECTRE 在肿瘤生物标志物预测、器官分割和文本到 CT 检索等任务上整体优于多数基线,尤其在文本检索影像任务中提升明显。 论文的亮点在于,它不是简单把二维视觉模型扩展到三维医学影像,而是针对体积 CT 的计算结构、空间特性和报告语义进行了系统设计;同时,它强调使用公开数据训练并开源模型和代码,降低了医学影像基础模型对私有数据的依赖。 整体来看,这项工作为三维 CT 基础模型提供了一个更可复现、更适合体积医学影像特点的方案,也说明纯 Transformer 架构在经过合适设计后,可以在 CT 表征学习中兼顾空间细节和临床语义。
与 SPECTRE 面向三维 CT 的体积建模不同,《Ultrasound-CLIP: Semantic-Aware Contrastive Pre-training for Ultrasound Image-Text Understanding》把重点放在超声这一更依赖临床经验、图像表现更复杂、诊断属性更细粒度的医学影像模态上。 来自浙大城市学院、香港浸会大学、浙江大学、浙江大学医学院附属妇产科医院、浙江大学医学院附属第一医院和香港城市大学的研究团队提出 Ultrasound-CLIP,主要研究如何为超声图像构建更适合临床语义理解的图文预训练模型。 现有 CLIP 或医学 VLP 模型大多偏向 CT、MRI、病理等模态,超声数据占比很低,而且超声报告里有很多专门的诊断属性,比如回声、边界、后方声学现象和血流情况,普通图文对比学习很难准确处理这些细粒度语义。 为了解决这个问题,论文先构建了大规模超声图文数据集 US-365K,包含约 36. 4 万对图像—文本样本,覆盖 52 个解剖类别;论为地址:https://arxiv. org/pdf/2604.
01749v1同时提出超声诊断分类体系 UDT,把解剖层级和 9 类诊断属性统一起来,再基于这些知识设计 Ultrasound-CLIP,通过语义软标签减少“相似病例被当成完全负样本”的问题,并用异构图编码器建模病灶和诊断属性之间的结构关系。 实验显示,该方法在超声多属性分类、图文检索以及下游零样本、线性探测和微调任务上都优于通用 CLIP 和多种医学 CLIP 基线,例如平均分类准确率达到 59. 61%,明显高于最强基线 BiomedCLIP 的 33. 81%,图像到文本检索的 R@10 也提升到 0. 3745。 这项工作的亮点在于,它不是简单收集超声数据后套用标准 CLIP,而是把超声影像特有的解剖层级、诊断属性和语义相似性显式放进训练目标中,使模型更能理解超声报告里的临床语言;同时,数据集、分类体系和模型框架一起提出,也为后续超声图文理解、检索、辅助诊断和跨数据集泛化提供了比较系统的基础资源。
03从病理、运动到 X-ray 双视角《HyperST: Hierarchical Hyperbolic Learning for Spatial Transcriptomics Prediction》来自厦门大学、上海人工智能实验室、清华大学和鹏城实验室的合作研究,关注的是如何从病理 H&E 全切片图像中预测空间转录组的基因表达。 论文提出的方法叫 HyperST,核心问题在于:现有方法大多只做单个 spot 图像和基因表达之间的局部匹配,容易忽略空间转录组数据本身的层次结构,例如单个 spot 与周围组织微环境 niche 之间的关系,以及病理形态信息与更细粒度分子表达信息之间的不对称关系。 为了解决这个问题,论文把图像和基因表达都建模成多层级表示,一方面提取 spot 级和 niche 级的病理图像特征与基因表达特征,另一方面把这些表示投影到双曲空间中,通过层次化对比对齐和层次化蕴含约束,让模型显式学习“spot 到 niche”“图像到基因表达”这类由粗到细、由一般到具体的结构关系,从而得到更有分子语义的图像表征。
Reader Mode unavailable (could not extract clean content).
Want this in your inbox every morning?
Daily brief at your local 8am — bilingual EN/中文, free.

