报告人:胡锦帆
报告地点:腾讯会议ID: 102134041
报告时间:2025年06月15日星期日09:00-10:00
邀请人:刘俊
报告摘要:
尽管深度学习模型在性能层面实现显著突破,但其“黑箱”特性导致工作机制缺乏透明度。用户与开发者难以追溯模型决策的内在逻辑依据,尤其在结果出现偏差或异常时,无法有效归因根本原因。此外,由于模型学习机制不明,性能优化往往陷入经验性试错,效率低下且缺乏理论指导方向。
本次报告工作之一提出了基于因果效应图(Causal Effect Maps, CEM)的解释框架,通过引入因果干预理论,系统性分析底层视觉模型的工作机制,揭示模型内部输入 - 输出关系的因果本质。本工作设计了有意义的底层视觉干预,突破相关性分析的局限,量化输入区域对模型输出的因果影响。利用CEM这一可解释性工具,我们能看到(1) 使用输入图像的更多信息(如更大的感受野)并不总是产生积极的结果。(2) 盲目嵌入通道注意力等全局感受野机制,可能对去噪模型性能提升无效。(3) 混合多任务来训练一个通用模型可能会鼓励网络优先考虑局部信息。
本次报告工作之二重新审视了底层视觉模型中的泛化性问题。通过控制退化信息和图像背景内容的复杂度,揭示底层视觉模型的 “偷懒” 现象:模型倾向于优先学习甚至过拟合退化模式与图像内容中复杂度更低的一方。本工作提出,通过调整训练集图像内容的复杂度可引导模型聚焦图像内容,避免模型对退化模式的过拟合,另外还可以结合预训练图像模型的内容先验,增强模型对真实场景中复杂内容的理解,提升泛化能力。
主讲人简介:
胡锦帆,2022年加入中国科学院深圳先进技术研究院XPixel团队,目前正攻读博士学位,师从董超研究员。2019年和2022年先后于电子科技大学获得学士和硕士学位。主要研究方向为底层计算机视觉的可解释性问题。以一作/合作身份在TPAMI,TNNLS,CVPR,ECCV,ICLR等权威期刊及会议发表论文,其中 3 篇入选 ESI 高被引论文,相关技术成果落地明犀AI,SupPixel AI。曾获国家奖学金,ECCV 2022 MIPI 图像复原挑战赛亚军,谷歌学术引用量超 800 次。出版合著《底层视觉之美》。