关键词:
强化学习
自适应动态规划
最优控制
跟踪控制
离散时间非线性系统
集成迭代
摘要:
近年来,强化学习在各个领域都取得了令人瞩目的成就。针对不同的应用场景,研究人员提出不同的强化学习方法来克服各种困难,其中一类强化学习方法是建立在执行-评判结构上,即自适应评判设计,被广泛应用到智能控制领域。考虑到绝大部分动态系统的状态空间和动作空间是连续的,所以,需要在评判结构里引入函数逼近器来估计状态和动作的价值。在智能控制领域,将融合了动态规划、函数逼近技术和执行-评判结构的一类方法统称为自适应动态规划。传统迭代自适应动态规划算法主要包括值迭代和策略迭代,策略迭代产生的控制策略可以保证是可容许的,而值迭代算法产生的控制策略的可容许性是未知的。除此之外,折扣因子对于闭环系统稳定性的影响尚不明确,也不清楚是否存在更快收敛速度的迭代自适应动态规划框架。针对目前迭代自适应动态规划还存在的稳定性,收敛速度等问题,本文针对目前存在的问题和挑战,提出稳定性、精度和快速性保证的集成自适应动态规划。针对基于迭代自适应动态规划的离散时间非线性最优控制问题,本文首先对迭代控制策略的可容许性问题进行了全面深入的分析。进一步探讨了代价函数中的折扣因子对于闭环系统稳定性的影响。其次,受逐次松弛方法的启发,本文提出了一种收敛速度可调节的新型迭代自适应动态规划框架。最后,针对基于迭代自适应动态规划的跟踪控制,给出了跟踪误差消除的稳定性分析新方法,并将新型迭代自适应动态规划框架推广到误差消除的最优跟踪控制问题上。论文的主要研究内容总结如下1)对于传统值迭代过程中产生的迭代控制策略,本文首先给出了稳定性和吸引域判据,同时从理论层面揭示了传统值迭代算法可以在有限次迭代过程中得到可容许控制策略,进一步提出了稳定性保证的集成迭代自适应动态规划算法。在此基础上,详细探讨了策略更新过程中,不同迭代演化策略综合作用下的闭环系统稳定性问题。2)针对具有折扣因子的迭代自适应动态规划,本文详细研究了折扣因子对于迭代控制策略可容许性的影响,给出了多个不同的稳定性判据。对于动态系统函数未知的情况,通过使用神经网络对未知系统动态进行建模来克服该问题,并详细讨论了模型网络权值偏置均更新的情况下网络参数误差以及系统状态估计误差的最终一致有界稳定性。除此之外,还提出了精度保证的集成折扣值迭代算法。3)针对迭代自适应动态规划的值函数收敛速度问题,本文提出了速度可调节的新型迭代自适应动态规划架构。在新型值迭代算法下,进一步研究了值函数序列不同的收敛性质、正定性和产生控制策略的可容许性,从理论层面保证了值函数序列收敛的快速性。基于给出的收敛性质,提出了三种实用的加速学习方案。这些方案与传统值迭代算法相比具有更快的收敛速度,同时降低了计算代价。4)针对基于自适应动态规划的跟踪控制问题,本文引入新的性能指标函数来实现跟踪误差的完全消除,进而给出跟踪控制的稳定性分析新方法。融合本文提出的新型迭代自适应动态规划加速方案,实现了跟踪控制值迭代算法的加速迭代学习。