关键词:
高超声速飞行器
强化学习
事件触发控制
最优控制
全状态约束
摘要:
高超声速飞行器(Hypersonic Flight Vehicle,HFV)凭借其极高的飞行速度和优异的机动性能,在军事和航空航天领域具有重要的战略价值。然而,由于HFV具有高度的非线性动力学、全状态约束、复杂外界扰动、控制输入约束以及通讯资源受限等特性,HFV的控制系统设计面临诸多挑战。针对这些问题,本文结合强化学习(Reinforcement Learning,RL)技术,对HFV纵向运动控制问题开展研究,主要工作如下:
1.针对HFV的全状态约束与传统控制方法的局限性问题,提出基于安全RL的鲁棒近似最优控制方案。全状态约束在HFV的安全控制中至关重要,传统的控制方法难以有效处理这些约束所带来的性能限制。首先,通过引入障碍函数,将具有全状态约束的安全控制问题转化为无约束的优化控制问题。其次,设计基于执行-评价框架的近似最优控制器。随后,针对由该框架引入的网络近似误差,提出一种鲁棒补偿项旨在减小误差影响。最后,通过Lyapunov稳定性理论证明系统的渐近稳定性和神经网络权值估计误差的一致最终有界性(Uniformly Ultimately Bounded,UUB)。
2.针对HFV的全状态约束问题以及在复杂外界环境中可能遭遇的干扰和不确定性,提出一种基于安全RL的HFV零和博弈控制策略。首先,提出基于障碍函数的系统转换,将所提出的在全状态约束条件下的安全控制问题转化为零和博弈框架下的最优控制问题。随后,结合执行-评价-扰动结构,在线学习飞行器的最优控制策略与外界扰动的最差策略,确保了系统在面对极端环境和干扰时的鲁棒性和稳定性。同时,通过经验回放技术加速神经网络的收敛过程,提升学习效率。最后,通过Lyapunov理论证明所提方法能够保证系统稳定性和网络权值近似误差的UUB。
3.针对HFV在实际应用中计算资源有限和控制输入受限的问题,提出基于自适应评判网络的事件触发控制方案。首先,对受限的控制输入信号设计非二次型性能指标函数。在实际飞行过程中,传统的时间触发控制策略往往需要频繁更新控制信号,导致大量的通信和计算资源浪费。为解决这一问题,设计事件触发控制,通过设计固定的触发条件,只有在满足特定条件时才更新控制信号,从而显著减少通信频率和计算成本。同时,将求解最优控制策略转化为求解事件触发最优控制问题。随后,采用评价网络结构来近似最优控制策略,并引入经验回放技术以放宽持续激励条件的要求,加速网络权值的收敛过程。最后,利用Lyapunov理论,证明闭环系统在该事件触发控制下的渐近稳定性,网络权值近似误差的UUB,以及Zeno行为的避免。
4.针对静态事件触发控制在HFV动态变化环境下的局限性,提出基于Actor-Critic策略的动态事件触发控制方案。首先,设计静态事件触发条件,建立Actor-Critic网络求解事件触发下的哈密顿-雅可比-贝尔曼(HJB)方程。随后,利用Lyapunov理论证明在静态事件触发控制下系统的稳定性和网络权值估计误差的UUB,并排除Zeno行为的发生。静态事件触发控制虽能减少资源消耗,但其触发条件固定,难以适应飞行器在不同飞行状态下的需求。在此基础上,引入动态变量,提出动态事件触发条件,使触发条件能够自适应调整,既能适应不同飞行状态下的需求,又能进一步降低控制信号的更新频率,优化系统的通信和计算资源利用。同时,采用Actor-Critic网络求解动态事件触发控制下的HJB方程。最后,对系统在动态事件触发控制下的稳定性进行分析,并避免Zeno行为。
综上所述,本文提出的多种基于RL的HFV控制方法,对HFV在全状态约束、复杂环境干扰、控制输入受限以及信号更新频率优化等方面的挑战分别进行了研究。本文的研究方法不仅为HFV控制设计的现有成果起到补充作用,还为其在实际工程中的应用提供必要的理论储备。
该论文有图64幅,表5个,参考文献171篇。