Adaptive Temporal Difference Learning with Linear Function Approximation-东北师范大学数学与统计学院

当前位置：首页 > 学术活动 > 正文

Adaptive Temporal Difference Learning with Linear Function Approximation

时间：2020年07月13日 13:51 点击数：

报告人：孙涛

报告地点：腾讯会议

报告时间：2020年07月16日星期四13:00-14:00

邀请人：徐东坡

报告摘要：

时间差分学习算法（TD）是强化学习中的一类简单但是十分重要的算法。通常情况下，普通TD算法的性能对步长选择很敏感,导致其收敛缓慢。我们提出了第一个步长自适应的TD学习算法。我们称之为AdaTD。与最初的TD相比，AdaTD性能稳健，并且对步长选择不那么敏感。理论上我们给出了AdaTD的收敛速度。实验也证明了我们的新方法比现有方法更为有效。

会议网址：https://meeting.tencent.com/s/iTiOrtob1HFt

会议ID:750 883 003

会议密码：202007

主讲人简介：

孙涛，1991年生。2008-2018年在国防科技大学获得计算数学本科、硕士、博士学位。2019年入职国防科技大学计算机学院PDL实验室任助理研究员。作为第一作者曾经在NeurIPS,AAAI,IJCAI等会议以及IEEE TIP, IEEE TSP, IEEE TKDE等杂志发表多篇论文。主持国家自然科学基金青年基金1项，实验室稳定支持基金1项。谷歌学术网页为https://scholar.google.com/citations?user=fPNZpAe5WXIC&hl=zh-CN。