报告人:周文杰
报告地点:觅讯会议ID:68290928,密码:1204
报告时间:2025年12月04日星期四9:00-10:00
邀请人:徐东坡
报告摘要:
本报告将聚焦海瑟矩阵(Hessian)特征值谱的微观维度重构对深度学习训练动态的理解。报告首先回顾 Cohen 等人关于“边缘稳定性”(Edge of Stability, EOS)的奠基性工作,阐述训练过程中锐度(Sharpness)渐进增长并锁定在稳定性阈值的普遍规律,揭示梯度算法在从 MLP 到 LLM 等不同尺度模型中的隐式偏差;进而,报告将深入剖析 EOS 状态下的物理图景,指出海瑟矩阵谱的低秩性与高度集中的“二分”(Dichotomy)结构对应着“河谷”(River-Valley)地形,导致优化轨迹呈现出在陡峭方向(主导特征值)高频振荡与平坦方向(主体特征值)缓慢漂移的独特运动模式;最后,基于上述子空间二分现象,报告将重点介绍一种新型训练加速框架 BSFA,该算法通过解耦主导子空间与主体子空间并施加差异化更新策略,在有效抑制振荡的同时大幅提升收敛效率,实现了从理论洞察到算法创新的闭环。
主讲人简介:
周文杰,中国科学院计算技术研究所博士生,所在实验室为智能算法安全重点实验室,导师为陈薇研究员。主要研究方向为深度学习理论和优化理论,以及大模型的预训练动态分析和优化器等。相关工作以一作身份发表于EMNLP 2025主会会议并获选为口头报告(Oral)等。