关键词:
最优控制
参数辨识
自适应动态规划
持续激励
跟踪一致性
摘要:
在实际工程应用中,大多被控对象呈现高度的非线性特性和强耦合特征,这可能会对系统的性能产生负面影响,甚至导致系统不稳定。鉴于社会资源的高效利用与可持续发展的迫切需求,非线性系统控制方法的设计不仅要实现系统的稳定性,更需追求在保持系统稳定的同时,最大化性能指标或最小化能耗,以实现系统最优控制。然而,无论是针对单智能体系统还是多智能体系统,传统的最优控制方法均要求满足持续激励(Persistency of Excitation,PE)条件,这在现实工程环境中往往难以实现,因此处理持续激励问题仍是最优控制领域的一大挑战。此外,实际系统的大规模特性及非线性耦合特征使得系统精确建模变得异常困难,这无疑为依赖模型的最优控制方法增加了难度。为应对这些难题,本文深入研究了系统模型未知情况下的最优控制问题,结合参数辨识和自适应动态规划,提出了在弱PE条件下的非线性系统最优控制设计方法,并通过对现有基于参数辨识的学习方法进行有效改进,显著提升了控制性能的收敛速度和瞬态响应。本文的主要研究结果如下:
1.研究了基于Kreisselmeiers回归扩展与混合的仿射非线性系统最优控制问题。针对系统动力学未知的仿射非线性系统,提出一种新的基于辨识-评价网络的最优控制算法。其中,辨识网络和评价网络分别用于估计系统的未知动力学信息和性能指标函数。不同于经典的辨识-评价网络框架,本文将权值更新问题转化为线性回归方程的参数估计问题,并利用Kreisselmeiers回归扩展与混合参数辨识技术设计这两类神经网络的权重更新规则,在区间激励(Interval Excitation,IE)的情况下保证权重估计误差收敛的同时提升了收敛速度和瞬态性能。此外,通过理论推导了回归量在IE条件下的精确下界。最后利用李亚普诺夫理论证明了所得最优控制策略的收敛性以及闭环系统的稳定性。
2.研究了基于动态回归扩展与混合的仿射非线性系统最优控制问题。利用动态回归扩展与混合技术设计了基于辨识-评价网络的最优控制算法。在网络学习过程中,推广了Kreisselmeiers回归扩展与混合实施过程中滤波算子的选取范围,并考虑滤波产生的误差项,以提供更完善的理论分析。为了实现算法的收敛性,提出新的弱PE收敛条件。与现有弱PE最优控制方法不同的是,所提出的新收敛条件不仅能实现在线检测,并从理论上证明其弱PE性质。最后,通过与传统依赖PE条件的自适应动态规划最优控制方法和现有的弱PE自适应动态规划最优控制方法进行仿真对比,证明了所提算法的优越性。
3.研究了基于改进动态回归扩展与混合的仿射非线性系统最优控制问题。针对基于动态回归扩展与混合最优控制算法中出现的激励维持短暂的情况,提出了改进动态回归扩展与混合的辨识-评价网络框架。通过神经网络线性化以及滤波技术,将系统模型重构和最优控制求解转化为线性回归方程的参数估计问题。引入辅助系统嵌入动态回归扩展与混合技术生成具有更好激励性能的标量回归,以此设计网络权重更新规则,在保证原有收敛性能的基础之上,提升系统的激励维持时长。提出的改进最优控制算法,在IE条件下实现了系统动力学未知的仿射非线性系统的最优控制。不同于其他IE条件下的最优控制方法,改进后的算法可以将激励不足的原始回归转化为满足PE条件的标量回归,这是提升激励性能的关键。最后,不仅通过仿真对比了该改进算法的有效性,还验证了该算法跟踪系统时变参数的警觉性。
4.研究了基于在线参数辨识的多智能体系统最优一致性控制问题。将提出的基于参数辨识技术应用在多智能体系统中,考虑领导者动力学和状态均未知情况下的非线性多智能体系统最优一致性控制问题,提出了一种基于Kreisselmeiers回归扩展与混合辨识技术的分布式自适应控制算法。首先,针对领导者动力学和系统状态信息未知的问题,为每个智能体设计了一种基于参数辨识的分布式观测器,与现有的状态观测器设计方法相比,提出的分布式观测器设计方法可实现领导者动力学和状态信息的同时在线估计。然后,将多智能体系统的最优一致性问题转化成每个跟随者智能体对领导者的最优跟踪问题,提出了一种融合评价网络学习和基于参数辨识的网络参数更新机制的控制方法,实现了每个智能体控制器的在线优化。同时,给出了该算法的收敛性和闭环系统的稳定性证明。最后,通过仿真验证了所提出的分布式自适应控制方法在多智能体系统一致性控制问题求解中的有效性。