首页/详情

US-365K 超声专属大规模图文数据集与 Ultrasound‑CLIP 语义感知对比学习框架(CVPR 2026)

量子位2026/04/12 15:21机翻/自动摘要/自动分类
0 阅读

内容评分

技术含量
8/10
营销水分
4/10

摘要

中国团队构建了首个 100% 超声专属的大规模图文数据集 US‑365K(36.4 万对),并基于 UDAF 知识框架设计了 Ultrasound‑CLIP 语义感知对比学习模型。通过异质图编码、软标签和双目标优化,模型在多任务分类、图文检索及四个下游超声数据集上均显著超越现有医学 CLIP 基线,代码与数据已开源,为超声 AI 的临床语义理解奠定基础。

正文

超声影像因实时、无辐射的特性在临床诊断中占据重要位置,但现有跨模态视觉语言模型难以直接迁移,主要原因是:① 超声样本在公开医学多模态数据中比例不足 5%,缺乏大规模、标准化的专属训练集;② 超声报告表述多样,语义对齐模糊;③ 诊断依赖病灶‑属性的结构化推理,通用模型只能做关键词匹配。

为破解上述瓶颈,浙江大学城市学院等联合团队构建了首个 100% 超声专属的大规模图文数据集 US‑365K(36.4 万对图像‑文本,覆盖 9 大系统、52 个器官),并提出面向超声场景的 Ultrasound‑CLIP 框架。

数据集构建(UDT 知识框架)

  • UHAT(超声层级解剖分类):9 大系统、52 个器官的层级结构,统一解剖标注。
  • UDAF(超声诊断属性框架):9 大诊断维度(系统、器官、结果、形状、边缘、回声性、内部特征、后方声学现象、血流),为每个维度提供标准化词表。
  • 从 5 个国际权威数据库抽取超声视频,按 0.5 s 切帧,使用+结构化提示生成标签,随后由医学专家逐例审校,确保标签一致性与高质量(有效率 >90%)。

Ultrasound‑CLIP 框架

  1. UDAF 引导的异质图编码器:将每条文本标注转化为包含诊断节点与属性节点的二分图,使用轻量级异质图神经网络编码后通过跨注意力融合到文本嵌入,实现结构化语义注入。
  2. 基于 UDAF 的语义软标签:为 9 大诊断维度预定义相似度矩阵,计算样本对在各维度的语义亲和力并加权聚合,得到批内软先验相似度矩阵,细粒度捕捉表述差异。
  3. 双目标优化
    • 对比损失 L(CLIP) 对齐图像‑文本相似度;
    • 语义损失 L(semantic)(MSE+KL)使模型预测的相似度矩阵匹配软标签矩阵。 两者联合训练,使模型既实现跨模态对齐,又保留细致的临床语义结构。

实验结果

  • 多任务分类平均准确率 59.61%,其中病灶边缘 84.44%,诊断结果 64.05%。
  • 图像‑文本检索 I2T@10 = 37.45%,T2I@50 = 80.22%。
  • 在乳腺、胃肠等四个公开超声下游数据集上,零样本、线性探测、全均取得领先表现,验证了模型的跨场景泛化能力。

资源:代码、模型、US‑365K 数据集已在 GitHub 与 HuggingFace 开源,论文已被 CVPR 2026 接收(arXiv:2604.01749),为后续超声 AI 研究提供可复用基线。

该工作展示了通过专业知识图谱化、软标签对齐以及双目标训练,突破通用视觉语言模型在超声领域的适配瓶颈,实现了对临床诊断语义的真实理解。

标签