关键词:
无人机对抗
最优控制
智能博弈
多智能体强化学习
摘要:
随着计算机信息技术和传感技术的发展,越来越多的场景实现了无人化与智能化,如扫地机器人、送货机器人、无人驾驶等。军事领域的无人化和智能化进程也在快速发展,空中战斗机的智能化程度对于战争的胜负起着至关重要的作用。近年来深度强化学习技术发展迅速,其在围棋、扑克、麻将等民用智能博弈领域中已超越人类专业玩家。近年来,关于无人机自主对抗的研究也越来越多,但是大多是基于三自由度粒子模型,目前对于六自由度模型的无人机对抗研究较少。在军用六自由度固定翼无人机的对抗领域中仍存在以下挑战:无人机飞行受到复杂的物理模型约束,状态动作连续且高维;对抗过程中对手策略难以建模,传统自对抗又容易陷入策略循环;在多机对抗中无人机需要学习如何协作且面临多机信用分配问题;这些问题都给固定翼无人机对抗的智能化带来了巨大挑战。空战对抗博弈包含了进攻策略(传感器使用策略、电子干扰策略、武器使用策略、进攻型机动策略),防御策略(防御性机动策略、自卫干扰策略等),而本文所研究的无人机对抗指的是无人机的近距缠斗,在近距离对抗中通过雷达观测对手,可以使用武器进攻,在机动占位方面同时考虑了进攻和防御策略。因此,本文以六自由度无人机为研究对象,使用深度强化学习方法研究了无人机的近距格斗。本文首先设计了六自由度无人机的仿真训练环境以支持对抗训练,然后从无人机的底层机动控制方法开始研究,针对一对一对抗任务提出了渐进式的策略训练方法以降低训练难度和改进对抗策略,最后设计了分层的策略和独立基线多机对抗方法以加快算法收敛和缓解合作场景下的多机信用分配问题。通过对训练过程曲线和胜率等数据进行分析对比,验证了本文所提方法的有效性。本文的主要研究工作包括如下:
1.针对缺少适用于深度强化学习训练的简单易用的高保真的无人机对抗仿真环境问题,搭建了支持空中无人机对抗的仿真训练环境。该仿真训练环境集成了开源的高保真飞行器物理引擎JSBSim,提供了强化学习算法所需的接口,支持执行动作、获取观测、自定义奖励函数、环境重置等重要功能,为后续的算法研究提供了重要支持。
2.在无人机的底层机动控制任务上,针对无模型强化学习样本利用效率低的问题,提出了基于神经网络和最优控制算法的双向引导策略搜索方法。具体而言,该方法使用基于模型的最优控制方法作为局部控制器引导全局神经网络策略进行搜索更新,与无模型强化学习相比,该方法提高了样本利用效率,与传统的PID控制方法相比,该方法能够实现最优控制。使用全局神经网络策略为局部最优控制器预测初始标称轨迹,可以减少局部策略的迭代次数,改进局部策略的优化结果。该方法减少了局部策略的迭代次数,并实现了全局神经网络策略在任意状态下的对无人机进行左转、右转、向上、向下、加速平飞、匀速平飞和减速平飞这七种机动动作的控制。创新点在于该方法将神经网络和最优控制相结合,避免了无模型强化学习样本效率低的问题,加快了算法的收敛速度,通常迭代2到3次就可以实现左转、右转等机动动作。
3.针对空中六自由度无人机一对一对抗中状态动作空间大且训练困难的问题,提出了渐进式的策略训练方法。第一阶段上层使用强化学习算法来选择底层离散的机动动作,以训练一个初代的具有对抗能力的智能体策略,第二阶段使用模仿学习和强化学习训练一个端到端的连续动作策略,第三阶段使用采用多样性自博弈的训练方式以提升智能体策略的对抗能力。这种渐进式的训练方式一方面可以有效减小无人机对抗训练的难度,另一方面可以稳定的提升智能体的策略而避免策略的改进陷入循环的问题。创新点在于渐进式的策略训练方法相比于通常的分层策略可以有效提升智能体的策略,因为离散化的动作空间和不合理的分层都会限制策略的改进。
4.针对空中无人机多对多对抗中训练困难的问题,提出了分层的强化学习训练方法,上层使用集中式训练分布式执行的多智能体算法为每个智能体生成一个虚拟对手,将多机对抗任务转化为一对一对抗任务,下层一对一策略控制无人机飞行对抗,这种方式可以有效减小在多机对抗任务中的训练难度,加快算法的收敛。针对合作环境中多智能体信用分配的问题,提出了基于注意力值网络的独立基线方法,这种分别学习独立的基线的方法可以让每个智能体学习到自己当前动作对于团队奖励的贡献的大小,从而让每个智能体都能够积极地学习并改进策略,避免了部分智能体提前停止学习的现象,并在必要的时候可以牺牲个体利益而保护团队利益。通过消融实验仿真结果的对比可知,本文提出的分层方法和独立基线的方法在一定程度上有效解决了无人机多对多对抗中的训练困难问题和信用分配问题。创新点在于提出了一种新颖的分层策略,将多机对抗转化为了一对一对抗,有效降低了训练难度,加快了算法收敛。基于注意力机制的独立基线算法缓解了多机信用分配问题,促进了多机之间的协调合作。