关键词:
深度强化学习
流体模型
柔性作业车间调度
多品种小批量
动态调度
多目标优化
摘要:
随着云计算、物联网和大数据技术的不断发展,企业开始采用物联网技术对车间进行实时监控,实现了各种类型数据的实时采集和处理。这为车间调度系统精准数据利用和高效计算决策提供了基础。目前,启发式和元启发式算法在调度领域仍占主导地位,但这两类方法在克服决策短视性、搜索时间长及实时性改进等方面依然有待提升。深度强化学习在处理大规模状态空间和高效实时决策方面具有优势,因而适用于解决车间调度中面临的复杂性、动态和不确定性挑战;但深度强化学习解决车间调度问题时常面临对生产状态的表征能力不足和调度决策的局部最优性问题。
因此,本文利用流体模型在连续系统建模方面的优势,将多品种多工序的生产过程近似为流体的连续流动,以辅助状态特征的提取,进而增强深度强化学习对车间生产状态的理解。同时,利用流体模型的渐进最优性设计调度规则,以提升深度强化学习的决策性能和全局优化能力。针对具有多品种和小批量生产特点的动态柔性作业车间调度问题(Dynamic Flexible Job Shop Scheduling Problem,DFJSP),提出了一套融合深度强化学习和流体模型的求解方法。本文从以下三个方面逐层递进展开研究:研究问题由单一目标的动态调度到复杂多目标动态调度,训练方法由传统的值函数法和策略梯度法到更高效的组合并行方法,深度强化学习模型由单一的智能体模型到复杂的分层多智能模型。论文主要研究工作如下:
首先,构建了一种融合流体模型和深度强化学习的集成调度框架。其中,提出了柔性作业车间调度中以最大完工时间最小化为目标的线性流体模型。通过嵌入该模型到深度强化学习调度框架中,增强深度强化学习状态识别能力的同时提升其决策动作质量。此外,基于集成调度框架设计了一种结合双重深度Q网络的求解算法。基于公开的标准测试集,通过与CPLEX和现有求解算法的对比实验,验证了该框架的高效性和优越性。
其次,针对考虑新订单随机到达的单目标DFJSP问题,以总延期时间为目标,提出了一种基于集成调度框架的异步优势双重演员评论家算法。该算法基于流体模型和目标特性构建了一组状态特征向量,以全面捕捉决策场景;并设计了多种调度规则,以扩充策略网络的动作空间。同时,构建了一个双重演员网络框架,包括工序策略和机器策略,以支持分层决策,增强算法的学习效率及收敛性能;为进一步提升策略学习效率,设计了基于并行深度强化学习的训练方法。通过与知名调度规则、深度强化学习和元启发式方法相比较,验证了该算法的有效性和优越性。
针对考虑机器故障这一随机扰动的双目标DFJSP问题,同时以最大完工时间和总延期时间为目标,提出了一种基于集成调度框架的多策略近端策略优化算法,以同步优化多个策略网络来获得一组高质量的非支配策略,为决策者提供多样化的解决方案。通过结合流体模型和双目标特征,构建相关的状态向量作为策略网络状态输入;并设计了复合调度规则作为策略网络动作输出。为实现多策略网络的协同进化,引入了一种多策略协同进化机制;同时,设计了一种结合目标权重的奖励函数,来引导网络学习各自目标权重下的优化策略;并引入多策略协同训练方法,以提升训练速度和稳定性。实验结果表明,该算法的决策效率与知名调度规则相当,且与其他多目标深度强化学习方法相比获得了更优的Pareto前沿解。
针对考虑机器故障和新订单到达的复杂多目标DFJSP问题,同时以最大完工时间、总延期时间以及车间总能耗为目标,提出了一种基于集成调度框架的分层多策略软演员评论家算法,以实现对三个目标的实时动态优化和对动态事件的快速响应。该算法综合考虑流体模型和三重目标特性,设计了相关的状态特征和调度规则;并采用多目标复合奖励函数引导算法朝着全局帕累托前沿的方向探索。为促进多目标的有效权衡,设计了一种包含一个主控制策略网络和三个子目标策略网络的分层多策略网络框架;同时,采用了结合最大熵强化学习的两阶段训练方法,旨在增强训练稳定性的同时提升Pareto解的多样性。实验结果证明,该算法在保持与知名调度规则相当决策效率的同时,生成的Pareto前沿的收敛性和分布均匀性,均优于现有的多目标深度强化学习方法。
最后,针对G企业缸体加工车间,深入分析其生产特性,结合生产数据,采用本文提出的理论和方法进行求解,进一步验证了所提方法的有效性。