On ADMM in Deep Learning: Convergence and Saturation-Avoidance-东北师范大学数学与统计学院

当前位置：首页 > 学术活动 > 正文

On ADMM in Deep Learning: Convergence and Saturation-Avoidance

时间：2023年09月13日 16:42 点击数：

报告人：曾锦山

报告地点：腾讯会议ID: 8898648458; 会议密码: 115119

报告时间：2023年09月18日星期一09:00-10:00

邀请人：徐东坡

报告摘要：

当前主流的基于SGD和深度ReLU神经网络的训练框架在逼近论和优化上存在不一致性问题，即为了得到高精度的逼近结果通常需要很深的网络，而网络层数太深又容易产生梯度消失的问题。针对该不一致性问题，本报告首先证明深度sigmoid网络在逼近论上优于主流的深度ReLU网络，之后为了克服深度sigmoid网络的饱和性，设计相应的ADMM求解算法，并建立相应的收敛理论结果。数值结果表明所提ADMM方法可有效克服深度sigmoid网络的饱和性并体现其在逼近上的优势。

主讲人简介：

曾锦山，江西师范大学计算机信息工程学院副院长，特聘教授，博士生导师。2015年博士毕业于西安交通大学数学系，先后在中科院电子所、美国加州大学洛杉矶分校、香港科技大学和香港城市大学从事博士后或访问合作研究。入选江西省“双千计划”和江西省杰青，承担国家自然科学基金3项，曾两度获得“世界华人数学家联盟最佳论文奖”（2018、2020年），单篇论文入选“中国数学领域热点论文（2017-2021）”榜单（排名第5），单篇论文最高（谷歌学术）引用逾千次。现已在JMLR、IEEE TPAMI/TSP/TKDE/TGRS和ICML等主流期刊和会议上发表高水平论文50余篇。主要研究方向是人工智能中的优化理论与方法。