关键词:
柔性作业车间调度问题
多目标优化
深度强化学习
调度规则
图神经网络
actor_critic算法
摘要:
近年来,日益增长的个性化定制需求对制造企业生产线的柔性提出了更高的要求,如何在柔性制造环境下,将有限的机器资源在合理的时间内分配给多个加工任务,得到生产效率、生产能耗等目标最优化的调度方案,即柔性作业车间调度问题(Flexible Job Shop Scheduling Problem,FJSP)。探求FJSP优化方法,为柔性制造过程提供优质调度方案,对于推动制造企业柔性升级具有重要意义。目前,用于求解FJSP的传统方法主要包括调度规则和元启发式算法两大类,前者对生产环境具有较强的依赖性,后者的计算效率仍无法满足实际生产环境的实时调度需求。而作为一种学习型的优化方法,深度强化学习已被应用于解决多个领域的调度问题并表现出了良好的性能,故而,本文针对FJSP,研究基于深度强化学习的求解方法,主要研究内容如下:1、建立了求解FJSP的马尔可夫决策模型。将FJSP的求解过程转化为析取弧的定向过程,分别为单智能体和多智能体深度强化学习方法设计了对应的状态、动作和奖励,为后续设计FJSP求解方法提供模型支撑,其中,状态为析取图,动作为修改弧的操作,奖励函数的设计和优化目标有关。2、研究并提出了一种求解FJSP的单智能体深度强化学习方法。该方法使用神经网络模型和调度规则结合的分层决策模型进行决策。使用图神经网络计算析取图的高维嵌入,并计算工序概率进行工序排序;调度规则用于机器选择。采用多线程异步优势评判算法优化模型参数,以缩短训练时间。进而,在标准测试实例上进行实验,结果验证了所提出方法的可行性和高效性。3、研究并提出了基于分组多智能体的FJSP深度强化学习求解方法。该方法将每台机器对应一个智能体,不同智能体分别决策工序排序,另设置总智能体,通过总智能体与各机器智能体的通信以及计算机器优先级的方式实现各机器智能体间的协同。同时采用分组策略将机器分组,同组机器对应的智能体共享一个决策模型,以降低模型数量。采用可以离线训练的近端策略优化算法优化模型参数。进而,在标准用例生成的测试集上进行实验,验证了所提出方法在求解FJSP时相比于传统求解方法在计算结果和计算时间上的优势。4、将所提出的单智能体和多智能体深度强化学习方法应用到基于加权回报的多目标FJSP求解中,使用加权的方法计算奖励值并优化模型。通过在标准用例生成的测试集上进行实验,验证了所提出方法的良好可扩展性。