关键词:
柔性作业车间调度
强化学习
多智能体
深度学习
图卷积神经网络
摘要:
随着社会的发展,产品需求趋向多元化,制造业的生产模式趋向于以个性化小批量生产为主,包容多种生产批量等级的长尾生产模式;随着硬件的提升和人工智能(Artificial Intelligence AI)技术的应用,制造系统趋向于智能化,并逐渐形成信息物理深度融合的信息物理生产系统(Cyber-Physical Production System,CPPS),它一方面要求智能制造设备的分布式协同,另一方面要求制造过程的集成优化。柔性作业车间调度问题(Flexible Job-Shop Scheduling Problem,FJSSP)是推进制造系统如此发展的关键技术问题。长尾生产模式要求柔性作业车间调度具有高柔性和可变批量的调度能力;CPPS既要求分布式制造环境下的智能设备具有自组织调度能力,又要求作业车间内各制造过程的集成调度。因此,本文基于深度强化学习(Deep Reinforcement Learning,DRL)理论,重点从可变批量调度、个性化高柔性调度、分布式多智能体协同调度和过程集成调度四个方面研究FJSSP。
(1)为了实现可变批量调度,首先根据产品的加工工艺网络和柔性作业车间的设备环境,形成包含所有可行加工路线的工艺-工序-设备网络图,再根据图论构建基于概率的有向无环图(Probability-based Directed Acyclic Graph,P-DAG)模型,将调度问题转化为图的拓扑结构预测问题,基于图中边的连接概率来分配各个加工设备上的加工任务种类和数量,从而实现柔性作业车间的可变批量自适应调度;其次,将柔性作业车间调度的P-DAG模型映射于马尔科夫决策过程(Markov Decision Process,MDP),构建基于强化学习的柔性作业车间调度模型。在该模型的基础上,提出更适用于个性化高柔性环境下的基于深度强化学习的柔性作业车间调度算法,采用演员-评论家(Actor-Critic)算法提高动态随机环境适应性;采用图卷积神经网络(Graph Convolutional Networks,GCN)提取环境关键特征一方面提高了算法效率,一方面提高了算法泛化能力;在生成对抗网络(Generative Adversarial Networks,GAN)架构下结合长短期记忆网络(Long Short-Term Memory,LSTM)能充分挖掘历史数据提高动态调度准确性和稳定性;通过对比仿真实验和消融分析论证算法具有较高的动态响应能力、泛化能力和可变批量调度能力。
(2)针对多智能体柔性作业车间调度的分布式协同趋势,基于P-DAG的强化学习模型提出了多智能体协同的柔性作业车间调度算法,实现多个设备智能体和多个作业智能体间的协同调度。作业智能体采用集中训练分布式执行(Centralized Training Distributed Execution,CTDE)架构下的深度确定性策略梯度强化学习算法(Deep Deterministic Policy Gradient,DDPG),在分布式部分可观测(Decentralized Partially Observable,Dec-PO)的环境下,将作业任务分配给加工设备;加工设备智能体基于改进的作业排队规则对等待加工的作业进行排序;为充分挖掘多智能体间的行为交互关系,提出了一种基于GCN的多作业智能体的全局行为特征提取算法,它以轻量级的数据表达多智能体间的复杂行为相关关系,提升多智能体协同能力,提高算法效率。
(3)以柔性作业车间多智能体协同调度的结果为问题原型,研究自动导引小车(Automatic Guided Vehicle,AGV)在该环境下的物料运输问题,基于MARL提出了一个包含AGV多智能体和运输任务多智能体的协同运输算法。首先基于博弈理论分别构建运输任务智能体的二元竞争模型和AGV智能体的古诺模型,充分考虑同类智能体间的竞争交互行为;其次,采用改进的双边匹配算法使AGV智能体与运输任务智能体间具有更好的协同能力;然后,提出了一种双视角自注意力网络(Self-Attention network,SA),用以充分挖掘多智能体间的交互关系,提高自组织协同能力和计算效率。进一步地,根据运输任务与AGV的匹配结果,研究了柔性作业车间环境下的多AGV协同路径规划算法。首先提出基于快速生成随机树(Rapidly-exploring Random Trees,RRT*)算法的强化学习路径规划算法(RRT*-inspired RL,RR)。为了在Dec-PO环境下提高避障能力和算法稳定性,提出GAN架构下将SA网络和RR算法相结合的多AGV协同路径规划算法(GAN-structured SA and RR combined path planning algorithm