ECML-PKDD 2025 · CCF B

SVCT: Stable Vision Concept Transformers for Medical Diagnosis

中文项目页

VCT example with and without perturbation

TL;DR

SVCT 将概念增强 ViT 与去噪扩散平滑结合,在扰动下保持诊断准确率并输出稳定的概念层解释。


图 1:VCT 示例(OCT2017)

输入图像、无扰动概念输出和扰动后概念输出,展示为什么需要 SVCT 来获得稳定解释。

VCT example: concept with/without perturbation


摘要

透明性是医疗 AI 的关键问题。概念瓶颈模型(CBMs)将潜空间限制为人类可理解的概念,但现有方法通常仅依赖概念特征进行预测,忽略医学图像中的内在特征嵌入,并且在输入扰动下不稳定。我们提出 Vision Concept Transformer (VCT),以 ViT 为骨干网络并使用 label-free 概念层,进一步融合概念特征与图像特征进行决策,以在保持可解释性的同时保留准确率。随后我们提出 Stable Vision Concept Transformer (SVCT),通过集成 Denoised Diffusion Smoothing (DDS) 使 top-k 概念索引和预测在扰动下保持稳定,从而提供忠实解释。四个医学数据集(HAM10000、Covid19-CT、BloodMNIST、OCT2017)上的实验表明,VCT 和 SVCT 保持了准确率与可解释性,且 SVCT 在扰动下提供稳定解释。


图 2:SVCT 框架概览

SVCT framework

Stable Vision Concept Transformer (SVCT) 模型概览。


方法:VCT 与 SVCT

VCT (Vision Concept Transformer)

  • ViT 骨干网络加上以 label-free 方式学习的 Concept Bottleneck Layer(例如 CLIP-Dissect)。
  • 概念特征 f_c(X) 与骨干网络特征融合:F(X) = concat(f(X), W_c f(X)),用于最终分类器,避免仅依赖概念的 CBM 出现准确率下降。

SVCT (Stable VCT)

  • 应用 Denoised Diffusion Smoothing:向 token embeddings 加入高斯噪声,再用 diffusion model 去噪。
  • 得到稳定概念模块:(i) 解释稳定性:扰动下 top-k concept overlap ≥ β;(ii) 预测鲁棒性:预测间 Rényi divergence 有界。
  • 默认噪声水平 σ = 8/255;评估使用扰动半径 ρ_u ∈ [6/255, 10/255]。

实验(来自论文)

数据集: HAM10000, Covid19-CT, BloodMNIST, OCT2017。扰动: PGD radius ρ_u ∈ [6/255, 10/255];DDS noise σ = 8/255。

准确率(有/无扰动)

方法 HAM10000 Covid19-CT BloodMNIST OCT2017
Standard(无可解释性) 99.13% 81.62% 97.05% 99.70%
Label-Free CBM 93.61% 79.75% 94.97% 97.50%
Post-hoc CBM 97.60% 76.26% 94.83% 98.60%
VCT 99.00% 80.62% 96.21% 99.10%
SVCT 99.05% 81.37% 96.96% 99.50%
ρ_u=8/255 − LF-CBM 90.08% 67.98% 80.53% 91.88%
ρ_u=8/255 − SVCT 97.97% 74.45% 94.07% 98.70%
ρ_u=10/255 − LF-CBM 88.70% 65.12% 75.63% 90.58%
ρ_u=10/255 − SVCT 97.24% 71.65% 92.65% 98.48%

稳定性:CFS 与 CPCS

CFS ↓(越低越好),CPCS ↑(越高越好)。SVCT 的稳定性始终最优。

方法 HAM10000 (CFS/CPCS) Covid19-CT (CFS/CPCS) BloodMNIST (CFS/CPCS) OCT2017 (CFS/CPCS)
ρ_u=6/255 − LF-CBM 0.3335 / 0.9405 0.6022 / 0.8117 0.5328 / 0.8511 0.3798 / 0.9254
ρ_u=6/255 − SVCT 0.1354 / 0.9900 0.5555 / 0.8359 0.3589 / 0.9320 0.3257 / 0.9468
ρ_u=8/255 − LF-CBM 0.3719 / 0.9256 0.6707 / 0.7710 0.6280 / 0.7947 0.3941 / 0.9196
ρ_u=8/255 − SVCT 0.1555 / 0.9867 0.6446 / 0.7818 0.4383 / 0.8977 0.3459 / 0.9387
ρ_u=10/255 − LF-CBM 0.4027 / 0.9123 0.7224 / 0.7336 0.6906 / 0.7545 0.4055 / 0.9145
ρ_u=10/255 − SVCT 0.1725 / 0.9836 0.7096 / 0.7389 0.5058 / 0.8625 0.3620 / 0.9321

敏感性与特异性

方法 HAM10000 (Sen/Spec) Covid19-CT (Sen/Spec) BloodMNIST (Sen/Spec) OCT2017 (Sen/Spec)
Label-free CBM 0.8878 / 0.9827 0.7984 / 0.8608 0.9407 / 0.9956 0.9750 / 0.9960
SVCT 0.9899 / 0.9999 0.8191 / 0.8037 0.9667 / 0.9958 0.9950 / 0.9994
ρ_u=10/255 − LF CBM 0.6779 / 0.9615 0.5794 / 0.9810 0.5880 / 0.9998 0.8380 / 0.9880
ρ_u=10/255 − SVCT 0.9180 / 0.9932 0.7136 / 0.9303 0.8681 / 0.9948 0.9790 / 0.9923

消融(DDS)

去噪(Denoising)平滑(smoothing) 都很关键。二者同时启用时准确率与稳定性最佳(最低 CFS、最高 CPCS)。完整消融表见论文。

模型配置与计算成本

配置(论文表 4): batch_size 512, saga_batch_size 256, proj_batch_size 5000, clip_cutoff 0.25, proj_steps 1000, interpretability_cutoff 0.45, lam 0.0007, n_iters 1000, ρ_u ∈ [6/255, 10/255], S = 8/255.

成本: ViT 85.8M 参数 / 17.56 GFLOPS;Label-free CBM 85.76M (+40K);SVCT 85.85M (+43K),GFLOPS 相同。


可视化

图 3:概念可视化 — 每个数据集一个样本,扰动前后对比。

Concept visualization before/after perturbation

图 4:概念干预示例 — 专家可修正概念预测以辅助诊断。

Concept-intervention examples

各数据集概念权重可视化(Covid19-CT, BloodMNIST, HAM10000, OCT2017 各一个样本)。

Concept weights Covid19-CT Concept weights BloodMNIST Concept weights HAM10000 Concept weights OCT2017


代码与仓库

引用

@inproceedings{hu2025stable,
  title     = {Stable Vision Concept Transformers for Medical Diagnosis},
  author    = {Hu, Lijie and Lai, Songning and Hua, Yuan and Yang, Shu and Zhang, Jingfeng and Wang, Di},
  booktitle = {Proceedings of the European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECML-PKDD)},
  year      = {2025}
}

← 返回首页