关键词:
时序数据建模
时序推荐
电子设备故障预测
行列式点过程
上下文感知注意力
摘要:
时序数据广泛存在于现实世界中,以推荐系统为例,用户点击的商品构成一组序列,根据用户历史点击的序列,可以预测用户下一个感兴趣的商品,即时序推荐系统。同样地,电子设备运行时产生的数据也是时序数据,每组数据对应着一种状态,正常或者故障,根据电子设备当前运行数据,可以预测设备下一时刻发生故障的时间和概率。现有的基于神经网络的时序数据预测方法通常使用均方差或交叉熵作为损失函数,忽略了数据结构的多样性,从而导致模型偏好主流模式。在时序推荐中,算法更倾向于向用户推荐一些流行度较高的商品,缺乏多样性。在故障预测中,算法预测的故障模式比较单一,很难预测出多样化的故障模式。为了解决以上问题,本文针对以上两种应用场景,设计了一种结合行列式点过程的损失函数和上下文感知注意力的时序数据建模方法,主要工作和贡献如下:
1.设计了一种基于行列式点过程和上下文感知注意力的时序数据预测模型CA-DPP。基于行列式点过程设计损失函数,通过计算数据集合的行列式值来衡量数据的多样性和相关性,从而更好地建模数据的分布,最终利用该行列式值平衡预测结果的多样性和相关性。上下文感知注意力则可以同时关注局部细节和全局上下文信息,并能够根据上下文感知动态调整注意力权重,同时在模型中使用时间编码方法将时间作为重要的输入信息进行编码,使得模型能够捕捉到数据随时间变化的趋势和模式。
2.将CA-DPP分别应用在时序推荐和电子设备故障预测中。在时序推荐任务方面,在Movie Lens-1M、Amazon-Book、Tmall三个推荐系统常用数据集上与多个基线模型做性能对比,本文采用一种调和F-score性能指标,该指标能同时兼顾推荐准确性和多样性。结果表明CA-DPP模型在调和F-score上相较于基线模型提高了约3.49%。消融实验结果表明,在三个数据集中,去掉DPP模块,算法的调和Fscore下降约11.9%,去掉上下文感知注意力模块,算法的调和F-score下降约9.82%,该结果更进一步证明了DPP模块和上下文感知模块的有效性。在电子设备故障预测任务中,将CA-DPP在航空电子设备数据集上与多个基线模型作对比,实验结果表明CA-DPP模型的准确性整体上优于基准方法。