报告人:孙涛
报告地点:腾讯会议
报告时间:2020年07月16日星期四13:00-14:00
邀请人:徐东坡
报告摘要:
时间差分学习算法(TD)是强化学习中的一类简单但是十分重要的算法。通常情况下,普通TD算法的性能对步长选择很敏感,导致其收敛缓慢。我们提出了第一个步长自适应的TD学习算法。我们称之为AdaTD。与最初的TD相比,AdaTD性能稳健,并且对步长选择不那么敏感。理论上我们给出了AdaTD的收敛速度。实验也证明了我们的新方法比现有方法更为有效。
会议网址:https://meeting.tencent.com/s/iTiOrtob1HFt
会议ID:750 883 003
会议密码:202007
主讲人简介:
孙涛,1991年生。2008-2018年在国防科技大学获得计算数学本科、硕士、博士学位。2019年入职国防科技大学计算机学院PDL实验室任助理研究员。作为第一作者曾经在NeurIPS,AAAI,IJCAI等会议以及IEEE TIP, IEEE TSP, IEEE TKDE等杂志发表多篇论文。主持国家自然科学基金青年基金1项,实验室稳定支持基金1项。谷歌学术网页为https://scholar.google.com/citations?user=fPNZpAe5WXIC&hl=zh-CN。