基本信息

朱圆恒  男    中国科学院自动化研究所
电子邮件: yuanheng.zhu@ia.ac.cn
通信地址: 北京市中关村东路95号
邮政编码: 100190

研究领域

深度强化学习,多智能体强化学习,游戏人工智能,智能驾驶,群体疏散

招生信息

我每年招收硕士研究生1-2名,欢迎具有自动控制、计算机、电子、数学专业的考生联系报考, 可与我邮件联系 yuanheng.zhu@ia.ac.cn 。

招生专业
081101-控制理论与控制工程
招生方向
强化学习, 自适应动态规划, 深度强化学习

教育背景

2010-09--2015-07   中国科学院自动化研究所   博士学位
2006-09--2010-07   南京大学   学士学位

工作经历

2017-10~现在, 中国科学院自动化研究所, 副研究员
2017-12~2018-12,美国罗德岛大学, 访问学者
2015-07~2017-10,中国科学院自动化研究所, 助理研究员

社会兼职
2020-01-01-今,IEEE Computational Intelligence Society, 暑期学校委员会主席
2019-04-23-今,中国自动化学会 数据驱动控制、学习与优化专业委员会, 委员
2017-09-30-今,中国自动化学会 自适应动态规划与强化学习专业委员会, 委员
2016-01-01-2016-12-31,IEEE Computational Intelligence Society, 旅行资助委员会主席

教授课程

强化学习
智能控制

专利与奖励

(1) 朱圆恒(1/1); 中国科学院公派出国留学, 中国科学院, 2016.

(2) 朱圆恒(3/9); 《控制理论与应用》2017年度优秀论文奖, 《控制理论与应用》编辑委员会, 2018 (赵冬斌*; 邵坤; 朱圆恒; 李栋; 陈亚冉; 王海涛; 刘德荣; 周彤; 王成红).
(3) 朱圆恒(3/4); 2019年中国AI+创新创业大赛,一等奖, 中国人工智能学会, 指导老师, 2019 (陈亚冉; 张启超; 朱圆恒; 赵冬斌).

专利成果
( 1 ) 基于加速度前馈的异构车队协同自适应巡航控制方法, 发明, 2020, 第 1 作者, 专利号: 201911110197.3
( 2 ) 多电池储能系统的优化控制方法、系统及存储介质, 发明, 2020, 第 1 作者, 专利号: 201810967603.7
( 3 ) 智能驾驶车道保持方法及系统, 发明, 2018, 第 5 作者, 专利号: 201811260601.0
( 4 ) 弹簧质量阻尼器的鲁棒跟踪控制方法, 发明, 2018, 第 3 作者, 专利号: 201810004181.3
( 5 ) 基于数据的Q函数自适应动态规划方法, 发明, 2013, 第 2 作者, 专利号: 201310036976.X
( 6 ) 储能电池充放电异常行为检测方法及检测系统, 发明, 2016, 第 3 作者, 专利号: 201610687158.X
( 7 ) 基于反事实回报的多智能体深度强化学习方法、系统, 发明, 2020, 第 3 作者, 专利号: 201911343902.4

出版信息

   
发表论文
(1) 基于前馈策略对协同自适应巡航控制的设计, Synthesis of Cooperative Adaptive Cruise Control with Feedforward Strategies, IEEE Transactions on Vehicular Technology, 2020-02, 第 1 作者
(2) 基于深度和强化学习对开源赛车仿真器的视觉驾驶, Vision-based control in the open racing car simulator with deep and reinforcement learning, Journal of Ambient Intelligence and Humanized Computing, 2019-09, 第 1 作者
(3) 基于LMI设计协同自适应巡航控制系统满足弦稳定的控制器, LMI-Based Synthesis of String-Stable Controller for Cooperative Adaptive Cruise Control, IEEE Transactions on Intelligent Transportation Systems, 2019-08, 第 1 作者
(4) 控制受限自适应动态规划方法对多电池存储系统的设计, Control-limited adaptive dynamic programming for multi-battery energy storage systems, IEEE Transactions on Smart Grid, 2019-07, 第 1 作者
(5) 对动力学带有不确定性的异构协同自适应巡航控制系统的自适应最优控制, Adaptive optimal control of heterogeneous CACC system with uncertain dynamics, IEEE Transactions on Control Systems Technology, 2019-07, 第 1 作者
(6) 不变自适应动态规划方法求解离散时间系统最优控制, Invariant Adaptive Dynamic Programming for Discrete-Time Optimal Control, IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2019-04, 第 1 作者
(7) 强化学习和课程迁移学习结合实现星际争霸微操控制, StarCraft Micromanagement With Reinforcement Learning and Curriculum Transfer Learning, IEEE Transactions on Emerging Topics in Computational Intelligence, 2019-02, 第 2 作者
(8) 针对连续时间最优控制的在线自适应动态规划方法的综合比较, Comprehensive comparison of online ADP algorithms for continuous-time optimal control, Artificial Intelligence Review, 2018-04, 第 1 作者
(9) 深度强化学习进展: 从 AlphaGo 到 AlphaGo Zero, Recent progress of deep reinforcement learning: from AlphaGo to AlphaGo Zero, 控制理论与应用, 2017-12, 第 4 作者
(10) 自适应动态规划实现未知连续时间非线性系统的鲁棒网络控制, Adaptive dynamic programming for robust neural control of unknown continuous-time non-linear systems, IET Control Theory & Applications, 2017-09, 第 4 作者
(11) 利用自适应动态规划实现对部分未知、控制受限系统的事件驱动最优控制, Event-Triggered Optimal Control for Partially Unknown Constrained-Input Systems via Adaptive Dynamic Programming, IEEE Transactions on Industrial Electronics, 2017-05, 第 1 作者
(12) 基于在线数据使用迭代自适应动态规划求解未知非线性零和博弈问题, Iterative Adaptive Dynamic Programming for Solving Unknown Nonlinear Zero-Sum Game Based on Online Data, IEEE Transactions on Neural Networks and Learning Systems, 2017-03, 第 1 作者
(13) 利用平方和编程实现对多项式非线性系统H无穷最优控制的策略迭代求解, Policy iteration for Hinfty optimal control of polynomial nonlinear systems via sum of squares programming, IEEE transactions on cybernetics, 2017-02, 第 1 作者
(14) 数据驱动自适应动态规划求解部分输入受限的连续时间完全合作博弈问题, Data-driven adaptive dynamic programming for continuous-time fully cooperative games with partially constrained inputs, Neurocomputing, 2017-02, 第 3 作者
(15) 概率近似正确的强化学习算法解决连续状态空间控制问题, Probably approximately correct reinforcement leaming solving continuous-state control problem, 控制理论与应用, 2016-12, 第 1 作者
(16) 使用强化学习技术求解在系统动力学未知情况下连续时间非线性最优追踪问题, Using reinforcement learning techniques to solve continuous-time non-linear optimal tracking problem without system dynamics, IET Control Theory Applications, 2016-07, 第 1 作者
(17) 对离散时间系统无衰减最优控制使用近似策略迭代的收敛性证明, Convergence Proof of Approximate Policy Iteration for Undiscounted Optimal Control of Discrete-Time Systems, Cognitive Computation, 2015-06, 第 1 作者
(18) 基于数据的在线强化学习算法实现概率近似正确原理, A data-based online reinforcement learning algorithm satisfying probably approximately correct principle, Neural Computing and Applications, 2015-04, 第 1 作者
(19) MEC对连续确定性系统的近似最优在线强化学习算法, MEC-A Near-Optimal Online Reinforcement Learning Algorithm for Continuous Deterministic Systems, IEEE Transactions on Neural Networks and Learning Systems, 2015-02, 第 2 作者
(20) 对非线性离散时间HJB系统的收敛分析和模糊HDP方法应用, Convergence analysis and application of fuzzy-HDP for nonlinear discrete-time HJB systems, Neurocomputing, 2015-02, 第 1 作者

科研活动

   
科研项目
( 1 ) 非完全信息条件下的博弈决策子课题-知识与数据共同驱动的深度强化学习算法, 参与, 国家级, 2020-01--2022-12
( 2 ) “蜂群”多智能体系统群智激发汇聚研究与实现子课题-“蜂群”系统群智实时推理与对抗技术, 参与, 国家级, 2020-01--2023-05
( 3 ) 基于事件驱动自适应动态规划的模型未知非线性系统最优控制, 主持, 国家级, 2017-01--2019-12
( 4 ) 深度自适应动态规划理论方法和应用, 参与, 国家级, 2016-01--2019-12
( 5 ) 基于深度强化学习的单弹和双弹围捕机动目标三维制导律研究, 主持, 院级, 2019-11--2020-11
( 6 ) 多个储能控制单元自治协调控制策略研究, 主持, 院级, 2018-01--2018-10
( 7 ) 储能系统多源数据融合与分析装置, 主持, 院级, 2016-05--2016-11
参与会议
(1)Optimal Pedestrian Evacuation in Building with Consecutive Differential Dynamic Programming   2019-07-14
(2)Driving Control with Deep and Reinforcement Learning in The Open Racing Car Simulator   2018-12-13
(3)Convolutional fitted Q iteration for vision-based control problems   2016-07-24
(4)Model-free adaptive algorithm for optimal control of continuous-time nonlinear system   2015-11-27
(5)A data-based online reinforcement learning algorithm with high-efficient exploration   2014-12-09
(6)An high-efficient online reinforcement learning algorithm for continuous-state systems   2014-06-29
(7)Online Model-Free {RLSPI} Algorithm for Nonlinear Discrete-Time Non-affine Systems   2013-11-03

合作情况

   
项目协作单位

电科院, 航天二院, 华为


指导学生

   
协助指导学生

学生        学位     时间                     毕业去向

邵坤        硕博     2014.9/2019.7     华为

唐振韬     直博     2016.9/至今

李伟凡     普博     2018.9/至今

胡光政     普博     2019.9/至今

刘民颂     硕博     2018.9/至今