关键词:
插电式混合动力汽车
能量管理策略
深度强化学习
近端策略优化
云计算
摘要:
随着信息化以及智能化方面的进步,传统汽车制造业也在进行变革,全球汽车技术正朝着“低碳化、信息化、智能化”的方向发展,发展新能源汽车成为了全球寻求可持续发展道路上的重要选择,由于插电式混合动力汽车(Plug-in Hybrid Electric Vehicle,PHEV)动力系统的复杂性以及驾驶状况的不确定性,设计一个高效自适应的能量管理策略是一项非常有挑战的任务。随着人工智能、云计算以及车联网等相关技术的发展,能够将人工智能领域的算法应用到插电式混合动力汽车的能量管理策略之中,同时,通过云计算技术实时获取、分析和应用大量数据,可以进一步提升能量管理策略的效率和性能,本文的主要研究内容如下:
首先,本文针对功率分流式插电式混合动力汽车进行动力特性分析,对发动机、电动机等各部件进行数学建模,并根据工作原理推导能量流动和对应的工作模式,同时建立整车纵向动力学模型,为能量管理策略的研究奠定基础,并建立PHEV能量管理最优控制问题。为了降低算法求解的复杂度,通过发动机最优工作曲线简化能量管理问题中的控制变量,并使用动态规划算法进行全局最优控制量的求解,将基于动态规划的能量管理策略作为后续策略开发的基准。
然后,分析介绍了深度强化学习的原理以及价值估计算法。针对基于值函数的深度强化学习算法,提出了基于深度Q网络(Deep Q-Network,DQN)算法的能量管理策略,通过深度神经网络可以接受能量管理策略中的多维状态输入,并通过价值估计间接拟合最优的策略。但是DQN算法在策略更新时存在动作价值过高估计问题,进一步改进基于DQN算法的能量管理策略,使用两个独立的深度神经网络分别进行动作选择与动作评估,提出了基于双重深度Q网络(Double Deep Q-Network,DDQN)的能量管理策略。然后进行仿真实验并分析了基于DQN和DDQN的能量管理策略的结果,相比于DQN算法,基于DDQN的能量管理策略燃油经济性提升了4.6%。由于插电式混合动力汽车能量管理策略中的控制属于连续控制问题,基于值函数的深度强化学习算法会对其控制动作的输出进行离散化,导致训练过程不稳定并且影响策略性能。针对基于策略的深度强化学习算法,提出了基于双策略网络近端策略优化(Proximal Policy Optimization,PPO)算法的能量管理策略,相比于基于DQN和DDQN的能量管理策略,该策略能处理PHEV能量管理策略中控制时的连续动作空间,并直接进行策略优化。为了进一步简化策略框架结构,并减少两个策略网络参数同步的复杂性,通过经验池机制,提出了基于单策略网络改进PPO算法的能量管理策略。为了增强策略算法的探索性,避免陷入局部最优解,在构建损失函数时,增加策略熵,帮助智能体在探索和利用之间取得平衡,从而更好地探索环境并学习到更优的策略。经过仿真验证,基于单策略网络改进PPO算法的能量管理策略的经济性能达到基于动态规划能量管理策略的84.6%,相比于基于DQN、DDQN和双策略网络PPO算法的能量管理策略分别提升了10.7%、6.5%和4.6%,该策略作为后续基于云计算的能量管理策略中的基础策略。
考虑到车辆本身计算能力的限制,借助云计算和网络通信提出了一种基于云计算的并行深度强化学习能量管理策略训练框架。首先进行了车云通信协议的制定,然后在云端运行一个基于事件驱动的网络异步模型,这使得云端能量管理策略可以并行处理多个远端联网车辆的联网接入请求以及控制数据交互请求。同时,可以通过多辆联网车辆的经验数据同步训练出一个适应多个工况的能量管理策略。为了进一步提升云端能量管理策略的实时性,提出了基于云计算的并行实时能量管理策略,该策略通过建立一个固定数量的线程池,动态分配策略更新任务,将基于深度强化学习的能量管理策略的更新放到新线程中执行,这使得云端主线程中策略的更新与控制解耦,进一步提升了车云交互的效率。
最后,为了验证所提策略的有效性,将整个基于云计算的并行深度强化学习能量管理策略在AI云主机上使用Docker容器进行实际部署。启动云计算能量管理网络服务容器,同时与多辆联网车辆进行交互训练,结果验证了训练策略在不同工况下的平均燃油经济性能达到基于动态规划能量管理策略的82%。将并行训练的策略加载到并行实时能量管理策略中,使用多辆加载不同工况的联网车辆进行交互,在已经训练过的工况下运行的联网车辆,策略能保持稳定,并进一步优化等效燃油消耗。对于在未经训练的工况下运行的联网车辆,通过利用其他联网车辆类似的经验,经过10轮次的在线学习,即可达到基于动态规划算法的能量管理策略燃油经济性的80%。最后进行实时性的验证,增加线程池的并行实时能量管理策略控制时的平均每步交互时长相比于基于云计算的并行深度强化学习能量管理策略训练框架减少了20%。