关键词:
数据驱动
近似动态规划
强化学习
离策略
多输入系统
非零和博弈
零和博弈
管道泄漏定位
摘要:
在过去几十年中,随着社会不断进步,传统控制理论已不能满足日益提高的工业生产需求。最优控制作为一种日趋成熟的控制方法,能够同时保证动态系统稳定性和系统按最优指标运行,自从它被提出以来一直是控制领域的研究热点。在科学技术不断发展的当今社会,传统的最优控制方法面对复杂的多输入控制系统和苛刻的运行环境时往往表现乏力。本文主要研究多输入控制系统的最优控制问题。在面对这类问题时,通常会要求计算耦合的里卡蒂方程或耦合的汉密尔顿-雅克比方程,而这些方程一般都很难直接解出解析解。为了解决多输入系统的最优控制问题,本文提出了一种基于数据驱动的近似动态规划方法,该方法借助迭代计算,可获得多输入系统的最优控制序列。另外,因为本文提出的算法直接使用采集数据,可以避免传统算法中精确测量系统动态参数带来的困难。利用本文提出的数据驱动近似动态规划方法,可解决模型未知的离散非零和博弈问题、多输入博弈的最优跟踪控制问题、状态不可测离散非零和博弈问题和系统部分未知的多输入连续时间最优跟踪问题。最后,针对一类管道泄漏定位问题,提出了一种基于数据驱动近似动态规划的管道泄漏定位方案。本文的主要成果如下:
(1)提出了一种基于离策略(Off-policy)近似动态规划的优化控制方法,有效解决了模型未知线性离散系统的非零和博弈问题。首先,根据离策略算法结构建立新的贝尔曼方程,设计了一种基于模型的离策略迭代方法。其次,证明了该算法的收敛性,并分析了探测噪声对该算法的影响。然后,在此基础上提出了一种新的无模型离策略迭代算法,可在系统动态参数不确定的情况下解决线性离散非零和博弈问题。
(2)针对一类线性离散时间系统非零和博弈的最优跟踪控制问题,提出了一种基于离策略的无模型近似动态规划算法。通过构建由系统动态和参考轨迹组成的增广系统和将折扣因子添加到性能指标函数中,在传统基于同策略(On-policy)的策略迭代近似动态规划算法基础上,推导出一种针对非零和博弈最优跟踪控制问题的基于模型的离策略近似动态规划算法。证明了所提出的离策略近似动态规划算法的解收敛于最优解,并证实了为满足持续性激励条件而引入的探测噪声对离策略迭代算法结果没有影响,而传统的同策略迭代算法的结果会被干扰。最终借助最小二乘法直接利用系统的状态和输入数据计算得到了所研究的离散时间系统的非零和博弈最优跟踪控制策略。
(3)提出了一种基于输出反馈的离策略近似动态规划算法,有效解决了一类状态无法测量的线性离散时间系统非零和博弈问题。该算法借助输出反馈控制技术,改进了策略迭代近似动态规划算法,使其计算过程只需使用系统输入和输出数据,从而克服了获取系统精确状态信息的困难。通过将迭代控制策略和行为控制策略分离,构建了新形式的离策略贝尔曼方程,与改进的策略迭代算法相结合,使其计算过程无需详细的系统动态信息,并维持了其计算结果的收敛性。与传统的策略迭代算法相比,提出的算法计算过程对探测噪声具有鲁棒性。更重要的是,该方法无需精确测量系统状态和系统动态信息,更适合推广应用于工业生产领域。
(4)针对一类系统部分未知的多输入连续时间非线性最优跟踪控制问题,设计了一种基于异步策略迭代的离策略近似动态规划算法。利用系统跟踪误差和参考轨迹对原系统扩维,构建了多控制器增广系统,并设计了其对应的带有折扣因子的性能指标函数。在此基础上提出了基于模型的异步策略迭代算法,并证明了异步策略迭代算法中迭代控制输入的可容许性和算法计算结果的收敛性。使用神经网络近似值函数和控制输入,进一步设计了基于数据驱动的异步策略迭代算法,解决了系统内部动态未知情况下的多控制器连续时间非线性最优跟踪控制问题,并给出了闭环系统稳定性证明。与现有处理非线性最优跟踪控制问题的方法不同的是,所提方法能够有效降低迭代过程的计算负担,同时可以直接利用状态数据求解最优跟踪控制,避免了获取系统动态信息的困难。
(5)针对一类管道泄漏定位的问题,提出了一种数据驱动的近似动态规划方法以计算管道泄漏位置。针对根据负压波特性构建的压力变化动力学系统,分析了系统所对应的双人零和博弈问题,并把管道泄漏定位问题转化成离散时间系统所面临的零和博弈最优跟踪控制问题。通过构建增广系统和对应的性能指标函数,提出了基于数据驱动近似动态规划算法的管道泄漏定位新方法。相比已有的管道泄漏定位方法,所提算法可直接利用采集数据进行计算,结合算法自身对输入数据的鲁棒性,能够有效减小管道测量误差和采集数据误差对结果的影响,提高定位准确率。