关键词:
多智能体系统
领导跟随一致
最优控制
输出调节
图博弈
强化学习
神经网络
摘要:
多智能体系统是指由多个智能体协同工作,以实现某个任务或解决某个问题的系统。这类系统因具有可以提高生产效率、降低成本、改善生活质量等优点被应用于诸多领域,如无人机编队飞行、智能交通、智能电网等。一致性问题是多智能体系统研究的基础问题,目的是设计可以使多智能体系统的状态或输出趋于一致的有效控制策略,从而完成单个智能体无法独立完成的复杂任务。随着不可再生资源的日益枯竭,人们对控制代价越发重视,于是最优一致性问题成为多智能体系统的研究热点,旨在设计最优控制策略,使多智能体系统在实现一致性的同时最小化特定代价函数。解决这类最优控制问题的关键在于求解包含非线性项的耦合Hamilton-Jacobi方程。该方程的求解要求系统模型信息完全已知,然而,完整的模型信息在实际应用中很难准确获取。此时,强化学习技术为求解该方程提供了有效途径,可以利用与环境的交互和迭代学习的方法来获取最优控制策略。因此,本文研究基于强化学习的多智能体系统最优一致性问题,具体的研究内容如下:
1.针对一类模型参数未知的同构多智能体系统,在通信过程存在随机不确定性的情况下,研究其鲁棒领导跟随一致性问题。首先,将单系统的最优控制与多智能体系统的鲁棒控制相结合,为单系统的最优控制问题设计数据驱动的强化学习算法,利用策略迭代的思想得到单系统最优控制增益。然后,利用含有乘性不确定性的相对状态信息设计多智能体系统鲁棒控制器。最后,基于均方稳定性理论证明了多智能体系统的鲁棒控制增益在一定条件下等价于单系统的最优控制增益,由此表明可利用为单系统最优控制器设计的强化学习算法在系统模型参数未知的情况下获得多智能体系统的鲁棒控制器。
2.针对一类模型参数未知的异构多智能体系统,在具有外部扰动的情况下,研究其最优输出调节问题。首先,探讨了多智能体系统的一般输出调节问题,并为确保所有智能体能够获取参考信号而设计了外部系统状态补偿器。利用补偿器的状态信息、智能体自身状态信息以及输出调节方程的解,设计了有效的状态反馈控制器。然后,基于一般输出调节问题设计不存在邻居影响的代价函数,并应用最优控制理论方法解决了基于此代价函数的最优输出调节问题。最后,为应对未知系统模型参数,设计了数据驱动的强化学习算法,并在不需要求解输出调节方程的情况下实现了异构多智能体系统的最优输出调节。
3.针对一类模型参数部分未知的异构多智能体系统,基于图博弈理论研究其最优领导跟随一致性问题。首先,考虑每个智能体的代价函数受邻居控制输入的影响,将基于此代价函数的最优一致性问题转换为异构多智能体系统的图博弈问题。随后,利用图博弈理论方法获得可实现最优领导跟随一致的最优控制策略,并证明该控制策略是相对于其邻居固定控制策略的最佳响应策略,同时也是纳什均衡的。最后,利用积分强化学习技术设计了数据驱动算法来求解具体最优控制策略,并构建单评价神经网络架构以实现该算法。
4.针对一类模型参数未知的异构多智能体系统,基于图博弈理论研究其最优领导跟随一致性问题。首先,考虑每个智能体仅能获得局部信息且代价函数受邻居控制输入的影响,为了获得分布式控制策略,将邻居控制输入视为对抗性输入,基于纳什均衡解的图博弈问题转换为基于分布式最大最小策略的图博弈问题。随后,利用图博弈理论方法得到可以实现最优领导跟随一致的分布式最大最小策略。最后,利用积分强化学习技术设计了数据驱动算法来求解该策略。
5.针对一类具有多重未知扰动的同构多智能体系统,基于图博弈理论研究其最优领导跟随一致性问题。首先,将多重扰动建模为匹配项和不匹配项共存的扰动,利用积分滑模控制来处理匹配扰动项,以获得只含不匹配扰动项的滑模动态。随后,将邻居控制输入和扰动项整体视为对抗性输入,将最优领导跟随一致性问题转化为图博弈中的分布式最大最小策略求解问题,并利用图博弈理论获得该策略。随后,基于强化学习给出策略迭代算法进行求解。最后,利用单评价神经网络架构实现该算法,并基于经验回放技术和引入Lyapunov候选项的方法设计神经网络权值调整律,不仅放松了持续激励条件,还取消了对初始容许控制策略的要求。