北京大学光华管理学院副教授彭一杰应邀做“SEM管理科学”青年学者论坛报告

首页 - 学术活动

北京大学光华管理学院副教授彭一杰应邀做“SEM管理科学”青年学者论坛报告

2022年04月25日作者：文/赵熠图/冯芳（经济与管理学院）来源：刘虹洁

　　4月20日，经管学院“SEM管理科学”青年学者论坛邀请到北京大学光华管理学院副教授彭一杰带来题为“基于风险度量的强化学习”的学术报告。本次论坛在中关村教学楼线上线下同步进行。

　　彭一杰的主要研究方向包括仿真建模与优化、金融工程与风险管理、人工智能、健康医疗等。主持多项科研项目，包括国家优秀青年科学基金项目、国家青年科学基金项目、北京市青年骨干个人项目等。在Operations Research，INFORMS Journal on Computing和IEEE Transactions on Automatic Control等高质量期刊上发表学术论文20余篇。曾获得2019年INFORMS Outstanding Simulation Publication Award、2020年Winter Simulation Conference Best Theory Paper Finalist、2017年IEEE Robotics and Automatic Society Best Paper Award Finalist。目前担任Asia-Pacific Journal of Operational Research期刊与IEEE Control Systems Society 会议编委、中国运筹学会金融工程与金融风险管理分会常务理事、中国仿真协会人工社会专委会委员、中国人工智能协会社会计算分会理事、中国管理现代化研究会风险管理专业委员会委员、北京运筹学会副秘书长。

彭一杰作报告

　　2008年金融危机引发了人们对尾部风险的关注。传统的强化学习目标是最大化累计收益的期望值，而彭一杰团队把累计收益的分位数作为优化目标，其中策略函数用神经网络建模，对神经网络参数做优化，从而把策略优化问题变为参数优化问题。彭一杰强调，神经网络往往有百万甚至上亿的参数，因此只能采用随机梯度方法进行优化。他根据这一问题，提出了二尺度迭代算法，并在一定假设下证明了算法的收敛性。同时，他将上述算法与深度增强学习（PPO，Proximal Policy Optimization）结合，提出了QPPO（Quantile-Based Proximal Policy Optimization）算法,使用测度变换并约束更新幅度，提升算法效果。彭一杰也提到，实际操作中迭代算法的步长选择是一个难点。其研究将均值意义下的强化学习，拓展到了风险测度意义下的强化学习，拓宽了强化学习的应用范围，为之后的研究提供了理论基础。

互动环节

　　报告结束后，在场师生和同学们对论文中的模型细节进行了讨论和交流。本次讲座对同学们研究强化学习、风险测度和优化算法等有较大启发，得到了师生的一致好评。

责编：刘虹洁

北京大学光华管理学院副教授彭一杰应邀做“SEM管理科学”青年学者论坛报告

最新动态

专题热点