当前位置: 首页 > 学术活动 > 正文
Adaptive Temporal Difference Learning with Linear Function Approximation
时间:2020年07月13日 13:51 点击数:

报告人:孙涛

报告地点:腾讯会议

报告时间:2020年07月16日星期四13:00-14:00

邀请人:徐东坡

报告摘要:

时间差分学习算法(TD)是强化学习中的一类简单但是十分重要的算法。通常情况下,普通TD算法的性能对步长选择很敏感,导致其收敛缓慢。我们提出了第一个步长自适应的TD学习算法。我们称之为AdaTD。与最初的TD相比,AdaTD性能稳健,并且对步长选择不那么敏感。理论上我们给出了AdaTD的收敛速度。实验也证明了我们的新方法比现有方法更为有效。

会议网址:https://meeting.tencent.com/s/iTiOrtob1HFt

会议ID:750 883 003

会议密码:202007

主讲人简介:

孙涛,1991年生。2008-2018年在国防科技大学获得计算数学本科、硕士、博士学位。2019年入职国防科技大学计算机学院PDL实验室任助理研究员。作为第一作者曾经在NeurIPS,AAAI,IJCAI等会议以及IEEE TIP, IEEE TSP, IEEE TKDE等杂志发表多篇论文。主持国家自然科学基金青年基金1项,实验室稳定支持基金1项。谷歌学术网页为https://scholar.google.com/citations?user=fPNZpAe5WXIC&hl=zh-CN。

©2019 东北师范大学数学与统计学院 版权所有

地址:吉林省长春市人民大街5268号 邮编:130024 电话:0431-85099589 传真:0431-85098237

师德师风监督举报电话、邮箱:85099577 sxdw@nenu.edu.cn