大模型资讯聚合站

首页/详情

US-365K 超声专属大规模图文数据集与 Ultrasound‑CLIP 语义感知对比学习框架（CVPR 2026）

量子位2026/04/12 15:21机翻/自动摘要/自动分类

0 阅读

内容评分

技术含量

8/10

营销水分

4/10

摘要

中国团队构建了首个 100% 超声专属的大规模图文数据集 US‑365K（36.4 万对），并基于 UDAF 知识框架设计了 Ultrasound‑CLIP 语义感知对比学习模型。通过异质图编码、软标签和双目标优化，模型在多任务分类、图文检索及四个下游超声数据集上均显著超越现有医学 CLIP 基线，代码与数据已开源，为超声 AI 的临床语义理解奠定基础。

正文

超声影像因实时、无辐射的特性在临床诊断中占据重要位置，但现有跨模态视觉语言模型难以直接迁移，主要原因是：① 超声样本在公开医学多模态数据中比例不足 5%，缺乏大规模、标准化的专属训练集；② 超声报告表述多样，语义对齐模糊；③ 诊断依赖病灶‑属性的结构化推理，通用模型只能做关键词匹配。

为破解上述瓶颈，浙江大学城市学院等联合团队构建了首个 100% 超声专属的大规模图文数据集 US‑365K（36.4 万对图像‑文本，覆盖 9 大系统、52 个器官），并提出面向超声场景的 Ultrasound‑CLIP 框架。

数据集构建（UDT 知识框架）

UHAT（超声层级解剖分类）：9 大系统、52 个器官的层级结构，统一解剖标注。
UDAF（超声诊断属性框架）：9 大诊断维度（系统、器官、结果、形状、边缘、回声性、内部特征、后方声学现象、血流），为每个维度提供标准化词表。
从 5 个国际权威数据库抽取超声视频，按 0.5 s 切帧，使用+结构化提示生成标签，随后由医学专家逐例审校，确保标签一致性与高质量（有效率 >90%）。

Ultrasound‑CLIP 框架

UDAF 引导的异质图编码器：将每条文本标注转化为包含诊断节点与属性节点的二分图，使用轻量级异质图神经网络编码后通过跨注意力融合到文本嵌入，实现结构化语义注入。
基于 UDAF 的语义软标签：为 9 大诊断维度预定义相似度矩阵，计算样本对在各维度的语义亲和力并加权聚合，得到批内软先验相似度矩阵，细粒度捕捉表述差异。
双目标优化：
- 对比损失 L(CLIP) 对齐图像‑文本相似度；
- 语义损失 L(semantic)（MSE+KL）使模型预测的相似度矩阵匹配软标签矩阵。两者联合训练，使模型既实现跨模态对齐，又保留细致的临床语义结构。

实验结果

多任务分类平均准确率 59.61%，其中病灶边缘 84.44%，诊断结果 64.05%。
图像‑文本检索 I2T@10 = 37.45%，T2I@50 = 80.22%。
在乳腺、胃肠等四个公开超声下游数据集上，零样本、线性探测、全均取得领先表现，验证了模型的跨场景泛化能力。

资源：代码、模型、US‑365K 数据集已在 GitHub 与 HuggingFace 开源，论文已被 CVPR 2026 接收（arXiv:2604.01749），为后续超声 AI 研究提供可复用基线。

该工作展示了通过专业知识图谱化、软标签对齐以及双目标训练，突破通用视觉语言模型在超声领域的适配瓶颈，实现了对临床诊断语义的真实理解。

标签

医学数据集语义软标签跨模态对比学习异质图神经网络超声影像