关键词:
深度强化学习
柔性作业车间调度问题
多近端策略优化算法
紧急插单
区间调度
摘要:
柔性作业车间调度问题具有复杂性和多样性,相关领域的研究主要集中在求得近似解方面,在车间调度过程中把握好求解质量和求解效率的平衡十分重要。求得高质量解的同时拥有更优的泛化能力也是智能工业界长期关注的焦点。近年来,利用深度强化学习解决作业车间调度问题的方法被广泛使用,但是在柔性作业车间上的研究相对较少。另外,在调度系统在面对出现紧急订单的情况下处理能力较差,同时几乎没有利用已经训练好的调度策略对调度系统中出现的紧急订单问题进行解决。这些情况已经不能有效的满足智能制造工厂目前的需求。本文利用深度强化学习的方法对柔性作业车间调度问题进行研究,提出了一种使用图神经网络端到端自主学习解决柔性作业车间调度问题的算法。同时也对柔性作业车间调度环境下紧急订单调度的问题进行了研究,提出使用新的区间调度的方法来解决目前所求解质量较低的问题。本文的具体工作如下:(1)分析柔性作业车间问题的约束条件及假设,建立起相应的数学模型,根据强化学习的相关原理,使用多重马尔可夫决策过程对柔性作业车间调度问题进行建模,给出状态、动作和奖励的定义,为强化学习提供数学基础。使用析取图的方式表示柔性作业车间调度问题,并采取了图神经网络嵌入局部状态的方式,解决了状态表示方面的问题。(2)针对建立起的多重马尔可夫决策过程,设计了由两个编码器-解码器组成的多指针图网络,用于生成工件操作动作策略和机器动作策略。在两个编码器-解码器中加入注意力机制。改进了Actor-Critic框架下近端策略优化算法,提出了多近端策略优化算法来学习两个子策略。同时针对Brandimarte算例和Behnke算例进行了仿真实验。将机器最大负荷最小和工件等待时间最小下的最大完工时间作为评价调度性能的指标。将启发式算法、元启发式算法和其他深度强化学习算法与本次提出的算法进行对比实验。实验结果表明,本次提出的算法在Brandimarte算例上的最大完工时间均相比于启发式算法提高了35%以上,相比于元启发式算法提高了7%以上,并且在相同的算例上,本次提出的算法比其他深度强化学习算法的最大完工时间在大部分算例中的表现都更优,同时相对百分比偏差降低了23%以上,其性能优秀且更加稳定。通过对更大规模Behnke算例的研究,本文提出的算法在最大完工时间均优于启发式算法和元启发式算法,其相对百分比偏差比启发式算法降低了33%以上,性能更加稳定。为了更好的体现本文提出算法的优异性能,将目前两种性能优秀的元启发式算法与本文提出的算法在大规模算例中进行了求解时间的对比,实验结果表明,本文提出的算法的平均求解时间相比于元启发式算法减少了十倍以上。(3)在柔性作业车间调度环境下,针对紧急订单问题,使用了更优的区间调度策略来对解决紧急订单进入柔性制造系统的问题,以工件的平均奖励期望为信号,以机器最大负荷最小,工件等待时间最小下的最大完工时间为目标。在加入紧急加工工件的Brandimarte算例上与两种传统的重调度方式进行对比实验。实验结果表明,区间调度策略求解最大完工时间相比于另外两种重调度策略提升了17%和12%。通过对静态以及动态事件下的柔性作业车间调度问题进行研究,本次所提出算法有了较高水平的提升,在未来智能工厂生产制造方面有着较大的应用潜力。