统计与管理学院将于2022年7月9-12日在线上举办“从统计学到人工智能国际研讨会-强化学习专题 (From Statistics to Artificial Intelligence-Reinforcement Learning)”。
强化学习是当今机器学习与人工智能领域发展最为迅速也最为热门的专题之一,统计学的思想或方法对其诞生与发展产生了深远影响。研讨会旨在让国内外的统计学者了解强化学习领域的最新热点,探讨新的统计与深度学习的结合点,促进我院硕、博研究生和相关教师在相关领域的学习和研究工作。
本次研讨会由上海财经大学统计与管理学院、数据科学与统计研究院共同主办,Applied Reinforcement Learning Seminar和上海市数据科技与决策前沿科学研究基地协办,并得到上海鸣石投资管理有限公司的支持。
会议议程
7月9日
时间 | 主持人 | 主要内容 |
8:10-8:20 | 开幕式 | |
8:20-9:10 | 冯兴东 | 汪昭然 (西北大学) 讨论人:郝博韬 (DeepMind) 报告名称:Demystifying (Deep) Reinforcement Learning with Optimism and Pessimism (用乐观和悲观的态度揭开强化学习的神秘面纱) |
9:10-10:00 | 陈增敬 (山东大学) 讨论人:严晓东(山东大学) 报告名称:Strategic central limit theorem in two-armed bandit process (双臂老虎机过程中的策略中心极限定理) | |
10:00-10:10 | 休息 | |
10:10-11:00 | 周帆 | 郝博韬 (DeepMind) 讨论人:陈海鹏 (哈佛大学) 报告名称:Efficient Local Planning with Simulators (使用模拟器进行高效的本地规划) |
11:00-11:50 | 顾全全 (UCLA) 讨论人:陈海鹏 (哈佛大学) 报告名称:Nearly Minimax Optimal Reinforcement Learning for Linear Mixture Markov Decision Processes (线性混合马尔可夫决策过程的近极小极大最优强化学习) | |
休息 | ||
13:30-14:20 | 邱怡轩 | 安波 (南洋理工大学) 讨论人:史成春(伦敦政治经济学院) 报告名称:Deep Learning for Solving Large Scale Complex Games (解决大规模复杂游戏的深度学习) |
14:20-15:10 | 俞扬 (南京大学) 讨论人:张伟楠 (上海交通大学) 报告名称:On Causal Learning in Reinforcement Learning(强化学习中的因果学习) | |
15:10-15:20 | 休息 | |
15:20-16:10 | 史成春 | 张伟楠 (上海交通大学) 讨论人: 安波(南洋理工大学) 报告名称:Advances of Model-based Reinforcement Learning (基于模型的强化学习进展) |
16:10-17:00 | 柯良军 (西安交通大学) 讨论人:崔逸凡 (新加坡国立大学) 报告名称:智能博弈理论、方法与应用 | |
7月10日
时间 | 主持人 | 主要内容 |
8:00-8:50 | 孙强 | 王梦迪 (普林斯顿大学) 讨论人:郝博韬 (DeepMind) 报告名称:Off-Policy Fitted Q-Evaluation with Differentiable Function Approximators: Z-Estimation and Inference Theory (基于可微函数逼近的离线策略Fitted Q-评估:Z 估计及推断理论) |
8:50-9:40 | 范剑青 (普林斯顿大学) 讨论人:焦雨领 (武汉大学) 报告名称:The Efficacy of Pessimism in Asynchronous Q-Learning (悲观主义在异步 Q学习中的作用) | |
9:40-9:50 | 休息 | |
9:50-10:40 | 周慧娟 | 孙伟 (普渡大学) 讨论人:周文卓 (UIUC) 报告名称:Rate-Optimal Contextual Online Matching Bandit (速率最优的上下文在线匹配老虎机) |
10:40-11:30 | 张崇洁 (清华大学) 讨论人:周文卓 (UIUC) 报告名称:Multi-Agent Reinforcement Learning with Value Factorization (通过价值分解的多智能体强化学习) | |
休息 | ||
13:30-14:20 | 李文东 | 秦志伟 (Lyft) 讨论人:周帆 (上海财经大学) 报告名称:Reinforcement Learning for Ridesharing: An Overview (共享出行中的强化学习应用综述) |
14:20-15:10 | 罗世楷 (字节跳动) 讨论人:周帆 (上海财经大学) 报告名称:Practical applications of Uplift&RL models in tech companies (Uplift和强化学习模型在科技公司的实际应用) | |
15:10-15:20 | 休息 | |
15:20-16:10 | 刘鑫 | 严晓东 (山东大学) 讨论人:史成春(伦敦政治经济学院) 报告名称:A/B Testing with a reinforcement learning framework based on strategic central limit theorem (使用基于策略中心极限定理的强化学习框架进行 A/B 测试) |
16:10-17:00 | 焦雨领 (武汉大学) 讨论人:史成春(伦敦政治经济学院) 报告名称:Oracle Inequality for Over-parameterized Deep Fitted Q-iteration (过度参数化的DFQ算法的Oracle 不等式) | |
7月11日
时间 | 主持人 | 主要内容 |
8:00-8:50 | 刘强 | 陈溪 (纽约大学) 讨论人: 蔡亨瑞 (UC Irvine) 报告名称:Privacy-Preserving Dynamic Personalized Pricing with Demand Learning (隐私保护下的动态个性化定价) |
8:50-9:40 | 赵拓 (佐治亚理工学院) 讨论人: 蔡亨瑞 (UC Irvine) 报告名称:Robust Neural Policy Optimization with Stackelberg Adversarial Regularization (基于斯塔克伯格对抗正则化的鲁棒神经网络策略优化) | |
9:40-9:50 | 休息 | |
9:50-10:40 | 刘旭 | 程光 (UCLA) 讨论人: 李翔 (北京大学) 报告名称:A Statistical Journey through Trustworthy AI (值得信赖的人工智能的统计之旅) |
10:40-11:30 | 杨林 (UCLA) 讨论人: 李翔 (北京大学) 报告名称:Nearly tight sample complexity bounds for learning in constraint MDP with a generative model (使用生成模型的带约束MDP的近乎紧的样本复杂度边界) | |
11:30-12:20 | 黄隆波 (清华大学) 讨论人: 李翔 (北京大学) 报告名称:Designing Efficient and Robust Deep Reinforcement Learning Algorithms (设计高效稳健的深度强化学习算法) | |
7月12日
时间 | 主持人 | 主要内容 |
8:30-9:00 | 吴梦云 | 蔡亨瑞 (UC Irvine) 报告名称:Doubly Robust Interval Estimation for Optimal Policy Evaluation in Online Learning (在线学习中最优策略评估的双重稳健区间估计) |
9:00-9:30 | 李翔 (北京大学) 报告名称:Polyak-Ruppert-Averaged Q-Learning is Statistically Efficient (Polyak-Ruppert-Averaged Q学习在统计上是有效的) | |
9:30-10:00 | 万润哲(北卡州立大学) 报告名称:Towards Scalable and Robust Structured Bandits: A Meta-Learning (迈向可扩展和稳健的结构化Bandits:元学习框架) | |
10:00-10:10 | 休息 | |
10:10-10:40 | 宋馨雨 | 白辰甲(哈尔滨工业大学) 报告名称:Uncertainty-Driven Offline Reinforcement Learning (不确定性度量的离线强化学习算法) |
10:40-11:10 | 朱周帆 (上海财经大学) 报告名称:The crossing issue in Distributional Reinforcement Learning (值分布强化学习中的交叉问题) | |
11:10-11:40 | 王嘉宁 (上海财经大学) 报告名称:Value Enhancement of Reinforcement Learning via Efficient and Robust Trust Region Optimization (通过高效和稳健的信任区域优化方法的强化学习的价值增强) | |
直播平台
腾讯会议直播:
7月9日
https://meeting.tencent.com/l/Mnwgnau4ILEu
7月10日
https://meeting.tencent.com/l/CSQwsGRwlUgX
7月11日
https://meeting.tencent.com/l/DuNKlbDoyoPA
7月12日
https://meeting.tencent.com/l/DJBBHaRAmEiW
Bilibili直播:
https://live.bilibili.com/22533038
Youtube直播:
https://www.youtube.com/channel/UCYtw_0jwqtNW0-6NFsPY9BA/live
会议组委会
组委会主席
冯兴东(上海财经大学)
朱宏图 (北卡罗来纳大学教堂山分校)
组委会成员
周帆(上海财经大学)
孙强(多伦多大学)
史成春 (伦敦政治经济学院)


