关键词:
绿色调度
柔性作业车间
深度强化学习
DQN算法
摘要:
绿色制造是我国应对气候变化以及向高质量发展转型的必然要求,柔性作业车间作为当前制造型企业中分布最广泛的车间类型之一,绿色柔性作业车间调度的研究已然成为组合优化领域的热点。绿色调度问题是更为复杂的NP-hard问题,目前该问题的求解方法主要是元启发式算法以及加入其他算法后构成的混合算法,此类方法能够在一定时间内求得较优解,但是缺乏稳定性、泛化性以及响应调度系统的时效性,导致需要耗费许多不必要的时间和人力成本。深度强化学习算法具有强大的决策能力,且一旦训练出成熟的网络模型,便可以对同质问题快速求解,能够以更低的计算成本、更高的计算效率解决绿色调度问题,这在一定程度上弥补了现有算法的不足,因此,本文采用深度强化学习算法求解绿色柔性作业车间调度问题,论文主要工作如下:首先,分析车间中机器运行过程中的能耗特点,综合考虑了机器开/关机能耗、加工能耗、空转能耗作为绿色指标,同时以工件完工时间作为经济指标,对绿色柔性作业车间调度问题进行数学建模。为了能够得到兼顾完工时间和总能耗的满意解,文章通过加权归一的方式将多目标转化为单目标,可以对两目标赋予不同权重值得到对应的绿色调度方案。其次,使用DQN算法求解绿色柔性作业车间调度问题,依据模型特点将绿色调度问题转化为马尔科夫决策过程,为其定义了7个通用性状态特征表明调度问题的生产状态,以特征映射为基础进行求解,设置16个调度规则、1个启发式调度规则以及2个复合调度规则作为动作候选集,为调度节点中工件和机器的选择提供行为选择基础,根据优化目标定义了合理的奖励函数,以便智能体能够根据最大化奖励值求得满意绿色调度结果。并通过算例测试、实例应用证明了问题转化设计的有效性。最后,改进DQN算法并训练得到通用性网络,利用数据集验证网络求解性能,从而证明本文算法具有泛化性。在此基础上重新训练得到三种不同生产偏好下的网络模型,直接使用网络模型对绿色柔性作业车间调度问题进行求解,可以在极短时间内得到不同生产偏好下的满意解,弥补传统求解方法的不足。