关键词:
可重构机器人
最优控制
值迭代
零和博弈
事件触发机制
摘要:
随着现代科技发展,机器人技术不断进步并开拓更广泛的应用领域。人们期盼机器人具有更加灵活的适应性,以便能够完成更为复杂的工作任务。传统机器人的机械结构限制了它们在适应工作环境和任务变化方面的能力。要重新开发机器人以满足这些变化,通常需要巨大的投资和长时间的开发周期。有些工作环境是不可预测的,例如在地震救援中,人们无法准确得知被困者所处的具体情况,因此,我们需要一种机器人系统,它可以根据新的工作环境和任务要求改变自身结构以完成任务。其中,一种可行的解决方案是开发可重构机器人系统。可重构机器人系统由多个模块组成,这些模块可以相互替换,且具有不同的几何尺寸和特定功能,因此能够适应不同的工作需求。这个特性使得可重构机器人在应对不同的工作需求时更加灵活多变,越来越多的研究者开始关注并重视可重构机器人技术的发展。可重构机器人系统需要考虑并确保其在未知环境下的稳定性、鲁棒性和节能性等指标。此外,在环境信息不确定时,选择适当的控制策略非常重要。最优控制研究是现代控制理论的一个重要组成部分,其核心问题是为给定的被控系统选择合适的控制策略,以使该系统的某些性能指标达到近似最优。考虑可重构机器人在受到外部干扰的情况下,本文将采取二人零和博弈来改进系统的最优控制方法,这种方法通过分析系统受到的外部干扰和控制器输出之间的相互作用,将可重构机器人的最优控制问题转换为干扰项和控制器博弈的问题,通过求解对应的哈密顿-雅可比-埃塞克斯(Hamilton-Jacobi-Issacs,HJI)方程,得到最优控制策略。HJI方程是一种非线性偏微分方程或者差分方程,很难获得其解析解。自适应动态规划(Adaptive Dynamic Programming,ADP)是一种求解最优控制策略的有效工具,在求得可重构机器人系统的最优控制策略方面具有无与伦比的优势。ADP中的迭代方法主要由两个部分组成,其中主要包括值迭代和策略迭代。策略迭代的过程稳定性取决于初始容许控制策略,但合适的初始容许控制策略往往很难获得。值得一提的是,值迭代算法不受此条件的限制,通过选择半正定函数作为初始值函数,通过迭代收敛到最优值,并且可以确保系统整个控制过程的稳定性。为了在提高可重构机器人控制性能的同时降低控制器的能耗,本文基于可重构机器人系统的最优控制问题,并结合二人零和博弈理论以及值迭代算法,深入研究了基于零和博弈的可重构机器人系统最优控制问题,具体包括:(1)可重构机器人系统的动力学建模为了考虑动力学模型的实际应用性和普适性,我们将整个可重构机器人系统的动力学模型分解为若干个子系统,并进行建模。我们采用牛顿-欧拉迭代算法和关节力矩反馈方法,分别建立了适用于可重构机器人系统的动力学模型,通过深入分析模型的不确定性,为之后的零和博弈方法的应用、模型不确定性的补偿以及对最优控制策略求解奠定了坚实的基础。(2)外部干扰下基于值迭代的可重构机器人零和神经最优控制基于已构建的可重构机器人子系统动力学模型,提出了一种基于值迭代的零和神经最优控制方法,并成功地克服了可重构机器人在受到外部环境影响时无法精确跟踪其位置和速度轨迹的问题。采用自适应模糊控制方法进行辨识惯性项、重力项以及哥氏力和向心力项。所提出的值迭代算法以任意半正定值函数开始计算,可重构机器人系统控制过程中的稳定性得以保证,且确保迭代值函数收敛到最优解并给出了收敛性分析。基于值迭代算法采用神经网络来近似求解HJI方程,求得最优控制策略和最坏干扰律。在本章中,我们进行了不同构形可重构机器人仿真实验,证明提出控制方法的可靠性和有效性。(3)基于值迭代的可重构机器人事件触发零和博弈自适应模糊最优控制基于关节力矩反馈的机器人动力学模型,描述了可重构机器人系统的运动学和力学特性,针对具有不确定扰动的可重构机器人,提出了一种基于值迭代的事件触发零和微分博弈自适应模糊控制方法。建立了一种基于模糊逻辑模型(Fuzzy Logic Model,FLM)的辨识器,用于辨识系统未知动力学。再将二人零和微分博弈理论应用在具有不确定扰动的可重构机器人的最优控制问题上,且在在事件触发和值迭代算法的基础上,通过建立执行-评判结构,近似求解了事件触发的HJI方程。与传统的自适应动态规划算法不同,该方案引入了值迭代算法,克服了策略迭代的初始条件限制,通过选择半正定函数作为初始值函数,通过迭代收敛到最优值,并且可以确保系统整个控制过程的稳定性。此外,根据李雅普诺夫稳定性定理得出结论,闭环系统的跟踪误差具有一致最终有界性。最后,通过实验验证和方法比较,证实了该方法的可靠性和有效性。