学术活动

北京大学光华管理学院副教授彭一杰应邀做“SEM管理科学”青年学者论坛报告

  •   4月20日,经管学院“SEM管理科学”青年学者论坛邀请到北京大学光华管理学院副教授彭一杰带来题为“基于风险度量的强化学习”的学术报告。本次论坛在中关村教学楼线上线下同步进行。

      彭一杰的主要研究方向包括仿真建模与优化、金融工程与风险管理、人工智能、健康医疗等。主持多项科研项目,包括国家优秀青年科学基金项目、国家青年科学基金项目、北京市青年骨干个人项目等。在Operations Research,INFORMS Journal on Computing和IEEE Transactions on Automatic Control等高质量期刊上发表学术论文20余篇。曾获得2019年INFORMS Outstanding Simulation Publication Award、2020年Winter Simulation Conference Best Theory Paper Finalist、2017年IEEE Robotics and Automatic Society Best Paper Award Finalist。目前担任Asia-Pacific Journal of Operational Research期刊与IEEE Control Systems Society 会议编委、中国运筹学会金融工程与金融风险管理分会常务理事、中国仿真协会人工社会专委会委员、中国人工智能协会社会计算分会理事、中国管理现代化研究会风险管理专业委员会委员、北京运筹学会副秘书长。

    彭一杰作报告

      2008年金融危机引发了人们对尾部风险的关注。传统的强化学习目标是最大化累计收益的期望值,而彭一杰团队把累计收益的分位数作为优化目标,其中策略函数用神经网络建模,对神经网络参数做优化,从而把策略优化问题变为参数优化问题。彭一杰强调,神经网络往往有百万甚至上亿的参数,因此只能采用随机梯度方法进行优化。他根据这一问题,提出了二尺度迭代算法,并在一定假设下证明了算法的收敛性。同时,他将上述算法与深度增强学习(PPO,Proximal Policy Optimization)结合,提出了QPPO(Quantile-Based Proximal Policy Optimization)算法,使用测度变换并约束更新幅度,提升算法效果。彭一杰也提到,实际操作中迭代算法的步长选择是一个难点。其研究将均值意义下的强化学习,拓展到了风险测度意义下的强化学习,拓宽了强化学习的应用范围,为之后的研究提供了理论基础。

    互动环节

      报告结束后,在场师生和同学们对论文中的模型细节进行了讨论和交流。本次讲座对同学们研究强化学习、风险测度和优化算法等有较大启发,得到了师生的一致好评。

    责编 :刘虹洁