关键词:
强化学习
连续时间非线性系统
无模型控制
自适应动态规划
最优控制
摘要:
连续时间非线性系统是描述物理系统动态行为的经典数学模型,广泛应用于各种工业领域。然而,传统非线性系统控制理论对精确的模型信息较为依赖,这在一定程度上限制了非线性系统的智能化发展。作为人工智能的重要分支,强化学习技术利用智能体与环境的交互信息来解决复杂的决策问题,从而放松了对模型信息和专家知识的依赖。近年来,非线性系统的强化学习控制研究引起了控制领域理论界和工业界研究学者的广泛关注,其中,值函数和控制输入被迭代求解。由于所考虑的绝大部分动态系统拥有连续的状态空间和动作空间,研究中往往需要引入函数估计器来近似状态函数值。这样融合了函数估计、强化学习和最优控制的一类方法也被称为自适应动态规划,在智能控制领域已取得显著成果。
然而,连续时间非线性系统的强化学习控制研究仍存在局限性。首先,基于策略迭代算法的强化学习控制通常需要初始可允许控制策略,而对于复杂的非线性系统来说,这样的初始策略往往是难以得到的。因此,研究非线性系统的广义策略迭代算法具有实际意义。其次,系统中存在的其他输入,例如外界扰动或多个玩家同时进行控制时,对系统性能造成的影响也值得研究。然后,非线性系统的策略优化算法通常需要大量的数据和探测试验才能学习到有效的策略,这在实际应用中是难以满足的,特别是当收集数据的成本高昂时。如何提高数据的使用效率是具有研究价值的问题。最后,当控制对象由单个系统拓展为多个非线性系统互联时,因系统状态维数增长而难以实现集中式控制。因此,有必要利用强化学习研究互联非线性系统分散控制问题,拓展互联系统控制问题现有的学习方案。本文主要工作和创新性如下:
·针对外部扰动给闭环稳定性带来的挑战,以及系统动力学模型未知导致的控制器设计难点,考虑连续时间非线性系统的鲁棒控制问题,把外部扰动视为破坏系统输入性能的敌对玩家,将原问题转换为二人微分零和博弈,提出从上、下性能指标寻找博弈鞍点的新颖思路。进一步,建立基于状态、输入信息的数据驱动广义策略迭代算法,利用引入的更新长度参数调节算法的收敛速度,兼具策略迭代和值迭代算法的优势,放松对系统模型的依赖。结合贝尔曼方程相关性质建立了离策略广义策略迭代算法的收敛性分析。
·针对主从优化结构给控制性能带来的挑战,以及个体间非对称交互关系这一限制,研究不对等多输入的带扰动连续时间非线性系统的最优控制问题,通过引入协态进行主从优化问题转换,提出基于参数方程逼近斯塔克尔伯格-鞍点的求解思路。进一步,利用神经网络估计器,提出辨识器-行动者-评论家-扰动者的实现结构,建立神经网络权重收敛和闭环系统稳定分析。所提算法将斯塔克尔伯格博弈拓展到被扰动的连续时间系统,避免了处理基于模型的递归微分黎卡提方程,提高了求解效率。
·针对完全未知动力学给系统辨识和控制设计带来的挑战,以及非仿射系统中控制输入与状态耦合限制,研究模型未知的非仿射连续时间系统的折扣成本最优控制问题,提出新的值函数来提高数据使用效率并建立了新的贝尔曼方程。通过对原系统的采样得到相应的离散化系统,对应地,提出基于时序差分和经验回放的多步Q学习算法,建立优势函数的收敛性分析。该章内容通过加强相邻两个采样状态之间的联系提高了学习效率,填补了连续时间系统Q函数无法评价单步行为影响的研究空白。
·针对系统不确定性和外部干扰给机器人运动带来的挑战,研究具有模型不确定性和未知周期扰动的两轮差速驱动移动机器人的轨迹追踪控制问题,基于机器人的运动学和动力学模型建立易于求解的速度误差动态系统。提出基于神经网络近似和逻辑更新的迭代学习算法,补偿系统不确定性和外部扰动,克服了未知动态和周期扰动对系统稳定性的负面影响。利用李雅普诺夫理论建立参数估计收敛性分析和误差系统稳定性证明。所提方案验证了自适应动态规划思想在实际控制场景中的可行性和有效性。
·针对多智能体系统中非线性个体间的交互关系复杂且难以测量这一挑战,研究由多个模型未知非线性系统耦合成的互联系统,提出基于子系统局部状态信息的分散稳定控制策略设计方案,克服了互联项难以测量和集中控制维度过高而带来的求解难题。提出基于行为策略数据驱动的策略迭代算法,利用最小二乘法进行了对子系统最佳反应的迭代求解。进一步地,建立闭环互联系统的稳定性分析。该研究内容拓展了互联系统的分散稳定控制策略学习方案。