报告人:方聪
报告地点:人民大街校区惟真楼523报告厅
报告时间:2025年12月12日星期五10:15-11:00
邀请人:郑术蓉
报告摘要:
随机梯度下降算法是机器学习中的常用优化方法。在高维学习问题中,该算法的迭代次数通常少于模型参数的数量,此时算法对模型所产生的隐式正则效应,是模型具备良好泛化能力的关键原因。本次讲座中,我们将探讨随机梯度下降算法在不同学习场景下所求解模型的泛化性能,并深入理解其工作机制。在线性模型部分,我们将讨论算法在不同学习尺度(即样本数与问题维度之间的不同依赖关系)以及协变量偏移条件下的学习效率,试图阐明算法对学习任务的适应性及涌现现象的成因。在非线性高阶张量分解模型中,我们将揭示模型特殊的过参数化表达与随机梯度下降能有效缓解统计计算鸿沟(computational-to-statistical gap)。最后,基于理论分析,我们将启发设计一种内存节约型的大模型训练算法,算法能在GPT-2等标准测试平台上实现更优越的性能。
主讲人简介:
方聪,北京大学智能学院助理教授、博士生导师、国家级高层次青年人才、北京大学博雅青年学者。于2019年在北京大学获得博士学位,先后在普林斯顿大学和宾夕法尼亚大学进行博士后研究。主要研究方向是机器学习基础理论与算法,已发表包括PNAS、AoS、IEEE T.IT、JMLR、COLT、NeurIPS、PIEEE 等30余篇顶级期刊与会议论文,担任机器学习顶级会议NeurIPS、ICML领域主席(Area Chair),团队获得2023年度吴文俊人工智能自然科学奖一等奖。