关键词:
自适应动态规划
强化学习
最优控制
微分博弈
摘要:
近年来,基于自适应动态规划理论的研究工作受到国内外众多学者的关注,并在多个领域得到广泛应用。实际工程中,物理系统的环境信息和状态信息可能无法精确获取或测量成本较高,基于系统模型的控制策略难以保证其在实际场景中顺利完成任务,因此研究无模型的自适应动态规划方法更具有实际应用价值。此外,在博弈过程中,由于系统个体(控制单元)间交互作用下的行为选择与系统总体目标并不总是保持一致,而是在个体间形成复杂的合作、竞争及非对称关系,因此研究包含个体自主智能行为的微分博弈问题更具有理论价值和实际意义。本文利用微分博弈理论刻画个体间的交互行为,基于自适应动态规划方法设计个体控制策略,在系统模型信息完全未知的情况下,分别针对零和微分博弈、非零和微分博弈和Stackelberg微分博弈问题,设计了基于自适应动态规划理论的无模型控制策略。具体研究内容如下:首先,研究基于无模型积分输出反馈的迭代算法,解决连续时间零和微分博弈问题。针对系统模型和状态信息完全未知的连续时间线性系统,首先将被控系统的博弈问题转化为增广系统的最优问题,并分析博弈代数Riccati方程(GARE)解的存在唯一性和折扣因子上界;其次,为了消除对系统状态的依赖,通过状态重构技术,利用系统有限数量的测量输出重构系统状态;然后,构建基于输出反馈的Bellman方程,设计基于积分强化学习的无模型Off-Policy输出反馈最优控制策略和最坏扰动策略迭代算法,并给出算法的收敛性证明;最后,通过数值仿真验证所设计的积分输出反馈迭代算法的有效性。其次,研究基于无模型Q学习输出反馈的迭代算法,解决离散时间非零和微分博弈问题。针对系统模型和状态信息完全未知的离散时间线性系统,首先给出基于状态反馈的策略迭代算法,并进一步推导出基于Q学习状态反馈的最优控制策略;其次,通过状态重构技术,利用系统输入输出历史采样数据重构系统状态,消除了需要系统状态可测的限制;然后,构建基于系统历史输入输出数据的Q函数Bellman方程,设计基于Q学习的无模型最优输出反馈算法,并对算法的收敛性和无偏性进行说明;最后,通过数值仿真验证所设计的Q学习输出反馈迭代算法的有效性。最后,研究基于无模型单评价网络结构的在线同步近似优化算法,解决非线性Stackelberg微分博弈问题。针对系统模型完全未知的连续时间非线性系统,首先利用系统输入输出的在线测量数据,建立模型神经网络重构系统方程,以消除对系统动态特性的依赖,并证明模型神经网络权值的收敛性;其次,为了减轻通信和计算负担,对参与者分别设计单评价网络来近似其值函数,在线实时同步调整网络权重矩阵和协态信息,从而降低算法在学习过程的计算复杂度;然后,基于Lyapunov稳定性理论证明闭环系统和网络权重估计误差的一致最终有界;最后,通过数值仿真对比验证所设计的在线同步近似优化算法的有效性。