关键词:
强化学习
最优控制
B样条函数
Q-Learning
分层强化学习
摘要:
随着科技的不断进步,控制系统的规模持续扩大,结构日益复杂,对高效且鲁棒的控制方法提出了更高要求。传统PID控制因其结构简单、实现方便,在单变量系统中得到广泛应用。然而,对于多输入多输出、多变量耦合及动态复杂环境,其控制性能受限,难以满足高精度需求。现代控制方法如线性二次调节(LQR)与模型预测控制(MPC),依赖状态空间建模与滚动优化机制,在高端制造等领域取得了重要进展。但其应用高度依赖于精确建模,面临建模成本高、开发周期长以及模型失配等问题,限制了其在复杂系统中的应用。
最优控制理论作为现代控制体系的核心分支,通过动态系统的最优性条件(如庞特里亚金极大值原理)与目标泛函的优化设计,在保证系统稳定性的同时实现对轨迹跟踪、能耗最小化等性能指标的精确优化。该方法以状态方程、目标泛函和控制约束为三大核心要素,通过解析或数值方法求解最优控制律,在航空航天、工业过程控制等领域具有成熟应用。然而,传统最优控制高度依赖精确的数学模型构建,当系统存在强非线性、时变特性或高维状态空间时,其面临建模误差累积与计算复杂度剧增的双重挑战。在此背景下,强化学习通过无模型的自适应机制,为复杂系统控制开辟了新路径。其核心在于:智能体通过马尔可夫决策过程框架下的试错学习,借助价值函数与策略网络的双重优化,逐步逼近最优控制策略。相较于传统方法,该技术突破了对显式数学模型的依赖,特别适用于存在未建模动态或环境干扰的复杂场景。
本文围绕基于强化学习的线性系统最优控制展开研究,主要解决两个核心问题。首先,针对线性随机系统中的概率密度函数(PDF)跟踪控制问题,提出了一种基于B样条函数建模的无模型强化学习控制方法,以解决在系统参数未知的情况下PDF输出控制的问题。该方法能够在无模型环境下通过数据驱动方式逼近最优控制策略,实现高效、精确的概率分布跟踪控制。其次,针对最优控制中的性能指标加权矩阵Q和R的选取问题,提出了一种基于分层强化学习(HRL)的自适应优化策略,通过构建高层策略与底层策略协同优化,实现最优控制器参数的自动调节,从而提高控制器的智能调参能力和自适应能力。
本文的研究方法充分结合了最优控制和强化学习的优点,突破了传统最优控制对精确数学模型的依赖,利用强化学习的无模型特性,提高了控制系统在复杂、不确定环境下的适应性和优化能力。通过数值仿真和实验分析,验证了所提出方法在动态复杂环境下的有效性,实验结果表明,相较于传统的LQR控制方法,本方法在提高控制精度、增强系统鲁棒性以及优化学习效率方面具有明显优势,为无模型环境下的最优控制提供了一种新的解决方案。