关键词:
自适应动态规划
最优控制
离散时间非线性系统
神经网络
值迭代
摘要:
自适应动态规划(Adaptive Dynamic Programming,ADP)是一种融合了动态规划、强化学习以及函数逼近等技术的智能控制方法,因其成功地避免了“维度灾难”问题,自提出以来一直被认为是解决非线性系统最优控制问题的有效方法。近年来,学术界和工业界开始逐步关注ADP从理论研究向实际应用的转化。然而,要实现这一阶段性的跨越,尚有一些有实际意义的理论问题亟待解决,模型未知及约束条件下非线性系统的最优控制就是其中典型的问题。基于此,本文从模型完全未知的离散非线性系统的最优控制问题出发,从无约束系统到有约束系统,逐步研究了具有未知模型、非对称输入饱和以及状态约束的离散非线性系统的自适应动态规划最优控制。本文的主要结果如下:
1.针对模型未知离散非线性系统的最优控制问题,提出了一种基于混合数据驱动的值迭代ADP算法。首先,将脱策学习机制引入传统基于状态值函数的ADP算法中,既实现了利用真实数据学习,又提高了算法对数据的鲁棒性和利用率。进一步,通过引入确定数据学习机制,避免了迭代控制策略的近似误差。另外,通过将脱策学习、确定数据学习以及模型网络三者结合,既降低了迭代过程中引入的模型误差,还放松了对模型网络泛化能力的要求。理论层面上,在考虑模型近似误差的前提下,给出了一种值迭代ADP收敛性分析新方法,并进一步对算法产生控制策略作用下的闭环系统稳定性进行了分析。
2.针对模型未知离散非线性系统的最优跟踪问题,提出了一种基于误差代价的数据驱动值迭代ADP算法。首先,引入了一种新的代价函数,既从理论上保证了跟踪误差能够被完全消除,又避免了估计期望控制所引入的模型误差。其次,针对新代价函数的效用函数依赖系统模型的问题,设计了完全基于数据形式的效用函数,实现了效用函数的无模型。然后,融合本文提出的混合数据驱动ADP框架,提高了算法对学习数据的鲁棒性。在理论层面上,针对效用函数非正定,迭代值函数无法用作李雅普诺夫函数的情况,提出了值迭代跟踪控制的稳定性分析新方法。
3.针对具有非对称输入饱和约束的未知离散非线性系统的最优跟踪问题,提出了一种基于改进惩罚函数的值迭代ADP算法。首先,设计了一种新的针对饱和约束的惩罚函数。对比基于传统惩罚函数的ADP算法,基于新惩罚函数设计的ADP算法输出的控制策略与原有优化目标所对应的最优控制策略间的偏差更小。其次,通过将该惩罚函数以放大系数的形式作用于值迭代ADP算法的效用函数,在不引入折扣因子的前提下解决了惩罚函数无法应用于最优跟踪控制的问题。此外,融合本文所提的数据驱动ADP框架,实现了对具有未知模型信息和非对称输入饱和约束的离散非线性系统的最优跟踪控制。
4.针对同时具有输入饱和和状态约束的未知离散非线性系统的最优跟踪问题,提出了一种基于安全策略提升的值迭代ADP算法。首先,定义了系统的安全控制空间,对状态约束和输入饱和进行了形式上的统一。其次,针对安全控制空间边界未知的问题,提出了一种空间压缩安全搜索机制,确保了策略提升计算得到的控制输入满足约束条件;进一步,将上述两个步骤与传统策略提升结合,形成了可以同时处理状态约束和输入饱和的安全策略提升机制,并且给出了基于该机制的值迭代ADP算法框架。此外,融合本文所提的数据驱动ADP框架,实现了对同时具有输入饱和及状态约束的离散非线性系统的无模型最优跟踪控制。