关键词:
线性离散随机系统
最优控制问题
代数黎卡提方程
策略迭代
Q学习
摘要:
控制工程领域和现实中的实际系统通常存在内部噪声以及外部扰动,随机模型更能描述这些实际系统。最优控制问题一直是控制领域的重要议题,控制系统由初始状态运动到指定目标,并致力于优化性能指标值达到最优。最优控制问题的传统求解方法在于求解系统对应的代数黎卡提方程(Algebraic Riccati Equation,ARE),该方法需要获取系统全部的动力学信息,但是有时系统动力学信息无法获取。因此,只需系统状态信息在线求解最优控制问题的自适应动态规划(Adptive Dynamic Programming,ADP)应运而生,以减少对系统模型参数的依赖。然而,现有的成果大都是针对确定性系统,对于随机系统的相关研究还较少。基于此,本文针对带有乘性噪声的线性离散随机系统,研究解决随机系统最优控制问题的迭代算法,分别设计改进的离线迭代法和在线数据驱动的Q学习算法解决随机系统的最优控制问题。本研究的主要内容如下:第一,针对线性离散随机系统,在系统参数已知的情况下,分别提出加权迭代算法和λ策略迭代解决最优调节器问题。首先,基于ARE本身的迭代形式,提出带有可调参数的加权迭代算法。其次,基于离线策略迭代(Policy Iteration,PI)和离线值迭代(Value Iteration,VI)算法,结合PI和VI算法两者的优点,提出λ策略迭代算法,通过调整参数λ加快算法的收敛速度,并放松算法迭代所需的初始条件。第二,针对随机系统参数未知的情况,提出基于λ策略迭代的Q学习数据驱动算法。首先,分别给出在线解决随机系统最优调节器问题的基于PI的Q学习和基于VI的Q学习。其次,结合λ策略迭代与Q学习算法,通过系统的输入/状态数据信息进行策略评估和策略改进,实现模型参数自由,并且基于λ策略迭代的在线Q学习算法实际上等价于离线λ策略迭代算法。最后通过数值仿真验证了Q学习算法的有效性。第三,针对随机系统的最优跟踪问题,首先,将原系统和参考轨迹系统构建为增广系统,将最优跟踪问题转变为最优调节器问题的形式。其次,为了减少对于系统模型参数的依赖,基于Q学习算法研究离散随机系统的最优跟踪问题,并以单相电源UPS逆变器为仿真模型,验证了算法的有效性。综上,本文对于线性离散随机系统的最优调节器问题和最优跟踪问题,提出了加权迭代算法、λ策略迭代算法和在线Q学习算法,并进行理论分析和收敛性证明,通过仿真实例验证了算法的有效性。