当前位置: 首页 > 学术活动 > 正文
Training Dynamics in Neural Network: EOS, Landscape and Optimizers
时间:2025年12月03日 11:48 点击数:

报告人:周文杰

报告地点:觅讯会议ID:68290928,密码:1204

报告时间:2025年12月04日星期四9:00-10:00

邀请人:徐东坡

报告摘要:

本报告将聚焦海瑟矩阵(Hessian)特征值谱的微观维度重构对深度学习训练动态的理解。报告首先回顾 Cohen 等人关于“边缘稳定性”(Edge of Stability, EOS)的奠基性工作,阐述训练过程中锐度(Sharpness)渐进增长并锁定在稳定性阈值的普遍规律,揭示梯度算法在从 MLP 到 LLM 等不同尺度模型中的隐式偏差;进而,报告将深入剖析 EOS 状态下的物理图景,指出海瑟矩阵谱的低秩性与高度集中的“二分”(Dichotomy)结构对应着“河谷”(River-Valley)地形,导致优化轨迹呈现出在陡峭方向(主导特征值)高频振荡与平坦方向(主体特征值)缓慢漂移的独特运动模式;最后,基于上述子空间二分现象,报告将重点介绍一种新型训练加速框架 BSFA,该算法通过解耦主导子空间与主体子空间并施加差异化更新策略,在有效抑制振荡的同时大幅提升收敛效率,实现了从理论洞察到算法创新的闭环。

主讲人简介:

周文杰,中国科学院计算技术研究所博士生,所在实验室为智能算法安全重点实验室,导师为陈薇研究员。主要研究方向为深度学习理论和优化理论,以及大模型的预训练动态分析和优化器等。相关工作以一作身份发表于EMNLP 2025主会会议并获选为口头报告(Oral)等。

©2019 东北师范大学数学与统计学院 版权所有

地址:吉林省长春市人民大街5268号 邮编:130024 电话:0431-85099589 传真:0431-85098237

师德师风监督举报电话、邮箱:85099577 sxdw@nenu.edu.cn