关键词:
柔性作业车间调度问题
深度强化学习
图神经网络
卷积神经网络
近端策略优化
摘要:
随着数字化进程的推进,深度学习(Deep Learning,DL)技术的有了突飞猛进的进展为解决生产调度问题提供了新的解决思路。基于深度学习的近似方法展现出显著的应用潜力,其突出优势在于能够自主获取高质量的调度方案而无需人工干预。基于此,本研究聚焦于两类典型的FJSP问题,采用基于深度学习的方法展开深入研究和探索。研究通过建立精确的数学模型,创新性地将多种人工神经网络与近端策略优化(Proximal Policy Optimization,PPO)算法相结合,构建了高效的深度强化学习求解框架。具体研究工作主要包含以下几个方面:
针对以完工时间最小化为目标的单目标柔性作业车间调度问题,本研究提出了一种基于图神经网络(Graph Neural Network,GNN)与近端策略优化(Proximal Policy Optimization,PPO)算法相结合的集成算法框架。首先,通过对柔性作业车间调度问题的特点进行深入分析,引入析取图将问题转化为序列决策问题,并基于马尔可夫决策过程(Markov Decision Process,MDP)理论建立了相应的数学模型。其次,基于图注意力机制,设计了一种高效的两阶段调度策略。该策略在训练过程中通过剔除冗余调度状态,显著提升了计算效率。最后,针对两阶段调度策略的特点,设计了一种基于近端策略优化算法的2S-PPO训练方法,实现了工序选择与机器分配的联合优化调度。为验证所提出算法的有效性,本研究在合成数据集和经典公开数据集上进行了广泛的数值实验。实验结果表明,与传统优先级调度规则及其他深度强化学习算法相比,本文提出的算法在求解质量、泛化性能和计算效率方面均表现出显著优势。具体而言,该算法不仅能够快速生成高质量的调度方案,还展现出较强的适应性和鲁棒性,为柔性作业车间调度问题的求解提供了新的思路和方法。
针对降低完工时间的同时降低碳排放量的多目标柔性作业车间调度问题,本研究提出了一种基于卷积神经网络(Convolutional Neural Networks,CNN)与近端策略优化(Proximal Policy Optimization,PPO)算法相结合的算法框架。通过采用加权和方法,将多目标优化问题转化为单目标优化问题进行求解,从而有效平衡了完工时间与碳排放之间的权衡关系。具体而言,研究首先建立了考虑机器操作与冷却液处理的碳排放柔性作业车间数学模型,并将其建模为马尔可夫决策过程(Markov Decision Process,MDP),为引入深度强化学习解决多目标FJSP问题奠定了数学基础。其次,研究提出了一种基于深度强化学习的调度模型,用于处理多目标FJSP问题。该模型利用CNN对调度信息进行特征提取和参数化表示,并结合PPO算法进行训练,从而驱动深度强化学习算法自动学习更优的调度方案,实现工件选择与机器分配的联合优化。最后,通过在加入碳排放指标的改进公开数据集上进行数值仿真实验,验证了所提出算法的有效性。实验结果表明,与现有算法相比,本文提出的算法在求解质量方面具有显著优势,能够生成兼顾完工时间与碳排放的高质量调度方案,为多目标柔性作业车间调度问题的求解提供了新的解决方案。