关键词:
主动碎片清除
空间连续型机械臂
动力学跟踪控制
强化学习
协同规划控制
摘要:
历经半个多世纪的航天事业发展,人类的空间探索在广度和深度上均得到了长足的进步,大量的航天器被陆续投入使用。但自其发射至失效/解体的过程中产生了大量的空间碎片,对人类空间活动构成了极大的威胁。数量不断增长的空间碎片持续恶化着航天器的工作环境,空间碎片主动清除技术已成为未来空间研究的重要方向。
近年来学者们提出了多种成熟的碎片移除方案,相比于刚性机械臂,连续型机械臂高度灵活的弯曲特性,使其对具有复杂操作需求的任务环境具有良好的适应能力,为复杂空间环境下主动碎片清除技术提供了新的思路,展现出巨大的应用潜力。本文在总结国内外研究的基础上,面向空间连续型机械臂系统执行空间碎片清除任务背景,进行机械臂设计与建模、基于强化学习算法的单臂智能动力学跟踪控制、双臂协同规划跟踪控制等方面的研究。本文主要研究内容如下:
(1)建立了空间多模块串联的线驱动连续型机械臂刚-柔耦合动力学模型。通过合理的驱动线布局和模块化臂节设计,使得所提出的连续型机械臂能够在捕获区域内进行灵活的弯曲运动。考虑机械臂的刚-柔耦合特性,推导空间多模块连续型机械臂运动过程中的动力学方程,使所建立的模型能够体现其跟踪逼近碎片过程中驱动线牵引整个连续型机械臂运动的物理机制,并进行了原理样机验证。
(2)提出了用于非线性系统动力学控制的深度强化学习算法。鉴于线驱动连续型机械臂动力学模型所具有的强非线性特征,在没有完备的先验数据监督下,传统的连续动作空间内的强化学习方法学习速度和精度相对较低,难以直接应用到连续型机械臂动力学控制中。因此提出一种基于模型预测的强化学习算法,结合传统模型预测控制理论中的在线预测及滚动优化机制,使得强化学习在训练过程中能够考虑系统的动态特性,以此加速算法的策略收敛,提高计算效率,并在基准环境中进行仿真验证。
(3)考虑连续型机械臂执行空间碎片清除作业过程中存在的外部环境干扰及自身模型误差,综合强化学习策略网络和机械臂动力学控制的优势,设计基于模型预测的强化学习控制器。针对动力学解算过程中较高计算成本问题,提出一种数据驱动的多层前馈神经网络模型,将该模型用于非线性系统建模,预测系统在当前控制策略下的预期动态响应。然后在基于Actor-Critic框架的深度强化学习算法的基础上,结合模型预测控制原理,根据系统长期性能表现,在连续动作空间内实时优化变结构控制器参数,从而进一步提升控制器控制能力,实现空间主动碎片清除操作中连续型机械臂的自适应跟踪控制,并进行仿真验证。此外,将轨迹规划机制引入到机械臂实时动力学控制中,由此设计了基于强化学习算法的智能动力学-运动规划一体化实时动力学控制器,进一步提升机械臂系统灵活跟踪操作的智能性,并进行仿真验证与原理样机验证。
(4)将连续型机械臂智能跟踪控制推广到多机械臂系统中。相比于单臂操作,双臂协同操作方式具有更高的智能性与安全性,具有较高的应用与研究价值。本文考虑双臂协同作业过程中存在的双臂自碰撞风险,基于博弈论原理,引入协同作业防碰撞竞争机制,融合多智能体深度强化学习方法对双连续型机械臂进行在线规划控制仿真,最终实现空间碎片清除任务中带防自碰撞功能的双臂智能协同跟踪控制操作。