关键词:
Markov跳变系统
Q学习
值迭代
自适应最优控制
摘要:
在交通运输、航空航天、金融经济等领域中,随机突发状况或者工况随机改变会导致实际系统存在多个可以相互转换的工作模式,通常可以建立Markov跳变系统(Markov Jump Systems,MJSs)模型加以描述。然而,随着MJSs应用场景的日益复杂,不确定因素越来越多,精确的系统模型很难甚至不可能得到,这就给如何设计最优控制器带来了新的挑战。Q学习作为一种强化学习方法,为解决上述困难提供了可行的方案。该算法可以在缺失系统模型相关信息的情况下,通过不断在线学习,逐步更新出最优控制器,并且实现一定程度的自适应功能。然而,针对MJSs仍然存在很多尚未解决的问题,尤其是离散时间MJSs的相关研究成果较少,其理论框架和实现方法均需要进一步完善。因此,本文基于Q学习研究离散时间MJSs的自适应最优控制问题。主要工作如下:(1)针对离散时间MJSs的线性二次型调节问题,研究基于Q学习的值迭代(Value Iteration,VI)算法,获取无模型自适应最优控制策略。该算法分为值更新和策略更新两个步骤,在系统动力学完全未知的情况下,两个步骤交替进行,在边学边控中实现系统的自适应最优控制。与线性系统不同,MJSs涉及多个工作模态,为确保学习算法可行,在算法设计时采用模态增广方法,增加了估计参数的维度。(2)针对离散时间MJSs的H_∞控制问题,研究在线VI算法,获取基于双人零和博弈(Zero-Sum Game,ZSG)的自适应最优控制策略。首先,将H_∞控制问题转化为双人ZSG问题。其次,构造动作和模式相关Q函数,并设计在线VI算法,获得最严峻干扰下,最小化代价函数的最优策略。最后,证明该策略的收敛性。该算法可以在MJSs动力学未知的情形下实现随机镇定和干扰抑制。由于VI算法本身通过在线获取系统的状态以更新策略,故在一定程度上具备对系统参数变化的自适应能力。(3)针对离散时间MJSs的最优跟踪控制问题,研究基于影响力函数(Influence Function,IF)的VI算法,获取基于双人非零和博弈(Non-Zero-Sum Game,NZSG)的自适应最优跟踪策略。首先,将双控制输入下的最优跟踪控制问题转化为双人NZSG问题,求解最小化各自代价函数的最优策略,并实现整体纳什均衡,以应对多任务和容错。其次,引入辅助函数,建立连续两次迭代中动作和模式相关的耦合Q函数之间的关系,证明该Q函数单调递增有上界,从而证明算法的收敛性。基于IF的VI算法可以有效剔除异常数据点,同时并行更新每个模态下的策略,因此能提高算法的学习能力和适用范围。