top
请输入关键字
工程科学讲堂第22讲‖强化学习与随机优化:面向序贯决策问题的通用框架
2023.03.30

2023年3月24日,工学院工程科学国际讲堂第22期邀请美国普林斯顿大学Warren B. Powell教授进行题为“Reinforcement Learning and Stochastic Optimization: Toward a Universal Framework for Sequential Decision Problems”的线上讲座。讲座由北京大学工学院工业工程与管理系尤鹏程助理教授主持。

Warren Powell是普林斯顿大学荣誉退休教授,Optimal Dynamics首席创新官,CASTLE(ComputAtional STochastic optimization and LEarning)实验室创始人和主任。该实验室专注于随机优化学习领域的研究及其在货运物流、能源、医疗卫生、电子商务、金融等领域的应用。Powell教授发表论文250余篇、出版书籍4部,培养了60多名研究生和博士后,荣获2021运输科学与物流学会Robert Herman终身成就奖、2022年Saul Gass Expository Writing Award。

Powell教授进行线上报告

在本次报告中,Powell教授首先介绍了智能的五个层面——信息获取、交流与存贮、处理与执行、学习、以及决策。在实际应用中,随着新信息的不断获取,需要及时调整决策,从而产生序贯决策问题。Powell教授开创性提出了一种新的通用模型框架,概括了状态变量、决策变量、外生变量、转换函数、目标方程五个核心要素,适用于对任何序贯决策问题的建模分析,对交通、物流、医疗、能源、电子商务和金融等领域的分析决策均有实际应用价值。Powell教授在报告最后还无偿分享了他新书的下载信息,并鼓励中国的青年教师开设序贯决策分析与仿真相关的本科生和研究生课程,进一步推广序贯决策分析方法,解决实际问题。