关键词:
柔性作业车间
生产调度
深度强化学习
图神经网络
异构图
摘要:
柔性作业车间是一类广泛存在于离散制造系统中的生产环境,柔性作业车间调度问题在理论研究与工程应用中具有重要意义。由于问题的复杂性和多样性,相关领域研究逐渐集中于问题的近似求解,如何兼顾求解质量和效率,提高方法泛化性能成为工业界和学术界的共同关注焦点和长期研究方向。近年来,基于机器学习的近似解法表现出了应用潜力,能够自动学习并取得较优的解。但在状态表示中普遍存在局限性,或存在对专家知识的依赖,现有针对其他问题的研究更难以直接应用到柔性作业车间调度问题。本文研究基于深度强化学习方法的柔性作业车间优化调度问题,提出一种图神经网络深度强化学习算法,包括模型构建、状态表示及其特征提取网络设计和动作决策及智能体训练方案设计等。具体工作如下:首先,分析柔性作业车间特性和假设约束,建立了调度问题的数学规划模型,基于强化学习原理,建立了柔性作业车间调度问题的马尔科夫决策过程模型,为强化学习提供数学基础;其次,针对车间环境特点和马尔可夫决策过程的状态表示存在的局限性,通过扩展传统析取图建立了异构图模型,更全面地描述车间生产状态,同时降低了图密集程度,设计了两阶段异构图神经网络,实现了状态特征的有效提取;最后,基于多层感知机设计了策略网络,将分别描述工序、机器和车间状态的多个特征向量首尾连接为一个向量,由此可将多种工序和机器组合并行输入策略网络,实现了不受规模影响的调度问题求解算法。为验证算法有效性,通过生成问题实例和经典问题实例进行测试,分析求解质量、求解效率和泛化性能。测试结果表明:经过中小规模调度问题上训练和测试,本文算法求解效率略慢于调度规则,但同为秒级求解时间,平均而言本文算法求解质量优于调度规则;将在中小规模问题上训练得到的模型直接应用于求解经典问题实例和大规模调度问题,本文算法同样能够在秒级求解时间内取得优于调度规则的求解结果质量,表现出了较好的泛化性能;与现有基于深度强化学习的方法在经典问题实例中的实验相比,本文算法在秒级求解时间内取得了平均而言更好的求解质量;与OR-Tools求解器相比,本文算法的求解效率更高,随着问题规模增大,合理时间内的求解质量能够逐步逼近直至超越求解器。根据柔性作业车间调度的功能需求和设计要求,设计并开发了智能调度软件。面向操作人员和研究人员,提供车间实例调度、模型性能测试、加工过程仿真和模型训练等功能,运行测试展示了本文算法的应用潜力。