关键词:
自适应动态规划
积分强化学习
动态面控制
输出约束
多智能体系统
摘要:
随着工业系统规模日益庞大,控制任务变得更加复杂,人们对系统性能的要求也随之提高.近年来,多智能体系统(multi-agent systems,MASs)的优化控制问题已成为学者们的研究热点之一.如果实际工程系统的输出超出了既定的约束范围,其控制品质、稳定性及安全性都会受到严重影响.同时,实际复杂系统中常常存在未建模动态,这也会严重影响系统的性能和稳定性.目前,关于MASs优化控制的研究已经取得一定成果,但现有文献中考虑未建模动态和输出约束的研究并不多.因此,本文针对几类具有未建模动态的输出受限MASs,提出了几种自适应最优控制策略.本论文的主要工作和创新点如下:第一,针对具有未建模动态的时变输出受限不确定严格反馈非线性MASs,提出一种最优一致控制方法.利用一对一非线性映射将受限系统转化为等价的无约束系统,利用动态信号处理未建模动态,在动态面控制(dynamic surface control,DSC)方法的基础上引入误差补偿信号设计前馈控制器,结合自适应动态规划(adaptive dynamic program-ming,ADP)和积分强化学习(integral reinforcement learning,IRL)方法设计最优反馈控制器,利用神经网络(neural networks,NNs)在线逼近相应代价函数,并设计权重更新律.理论分析证明了所设计的控制器不仅保证全部跟随者组成的闭环系统是半全局一致最终有界(semi-globally uniformly ultimately bounded,SGUUB)的,同时跟随者的输出保持在给定的时变约束集中,而且使得代价函数达到最小.仿真结果验证了所提出控制算法的有效性.第二,针对具有未建模动态和时变输出约束的不确定严格反馈非线性MASs,提出一种最优包含控制方法.利用一种新型积分型障碍Lyapunov函数(integral barrier Lya-punov function,iBLF)处理输出约束,利用动态信号处理未建模动态,利用 DSC 方法设计前馈控制器,利用ADP和IRL方法设计最优反馈控制器,利用NNs在线估计代价函数,并设计权重更新律.理论分析证明了所有跟随者的输出收敛到领导者生成的凸包中,全部跟随者组成的闭环系统是SGUUB的,同时跟随者的输出保持在给定的约束集中,代价函数实现最小化.仿真结果验证了所提出方法的有效性.第三,针对具有未建模动态的时变输出受限MIMO块结构非线性MASs,提出一种最优包含控制方法.利用iBLF处理输出约束,利用动态信号处理未建模动态.基于DSC方法设计前馈控制器,并从第二步开始引入误差补偿信号,在ADP方法中引入IRL的思想设计最优反馈控制器,利用负梯度下降算法更新NNs权重.理论分析证明了所有跟随者的输出收敛到领导者生成的凸包中,全部跟随者组成的闭环系统是SGUUB的,同时跟随者的输出保持在给定的约束集中,代价函数达到最小.仿真结果验证了所提出方法的有效性.