关键词:
爬虫数据
电商平台
面粉商品
分类研究
价格指数
预测研究
摘要:
随着网络零售的发展,电商平台面粉的交易数据越来越庞大,为了监测电商平台面粉价格走势,通过网络爬虫采集面粉大数据,再使用价格指数计算方法计算各期价格指数并利用时间序列预测模型对其预测十分必要。然而,网络爬虫采集的面粉数据通常存在面粉用途和原料分类混杂的问题,使得不同(相同)原料面粉被错分到单个(多个)类别中,若不对面粉进行细粒度分类将难以获得更精细的面粉数据,会对后续价格指数构建和预测带来负面影响。另外,由于电商平台反爬机制的不断更新升级和商家对面粉库存的规划调整,通过网络爬虫获取的面粉商品在各个采集期内不连续存在,且面粉商品的价格和销量分布情况也不均匀,这将导致现有价格指数计算方法不适用。此外,价格指数预测的研究多为构建单变量时间序列模型预测价格指数变化趋势或构建多变量时间序列预测模型考虑与价格指数相关的外生变量以提高预测精度,但未从商品本质特性方面考虑,商品本质特性决定了其价格指数变动情况,对预测精度的提高有显著正向作用。
本文为解决上述问题,主要做了三方面的工作:(1)构建了基于自监督学习的电商面粉原料分类模型。首先,构建面粉领域本体,具体包括概念模型和领域词库,概念模型由面粉原料类别和对应属性构成,领域词库则包含了面粉各类别的属性词汇。其次,识别爬虫数据获取的规范面粉样本,具体实现过程为根据概念模型和领域词库确定面粉类别和属性的对应规则,之后利用自监督学习思想,使用正则表达式提取商品描述信息中的类别标签和特征词汇,并检验提取到的内容是否符合对应规则,若符合则将其标记为规范样本用作机器学习的训练集,否则视为预测集。随后,通过BERT提取商品描述信息的专业实体词汇并将其纳入领域词库中,然后使用jieba分词工具和TF-IDF对面粉文本信息矩阵化并选择合适的机器学习算法实现面粉分类。(2)构建了电商面粉价格指数。首先,利用本文设计的面粉分类模型对采集到的各期数据进行分类并得到规范的各期分类面粉数据。其次,改进加权价格指数计算方法,本文综合了拉氏价格指数和帕氏价格指数的优点,再结合爬虫数据本身不连续的特性,使用报告期的销售额之和除以销量和以获得报告期价格总趋势,利用同样方法计算出基期的价格总趋势,再用报告期价格总趋势除以基期价格总趋势以得到各期价格指数。最后,使用改进的加权价格指数计算方法计算出采集到的各期面粉价格指数。(3)构建面粉价格指数预测模型。首先,构建ARIMAX预测模型,具体包括引入外生变量、确定延迟阶数、协整检验、拟合模型、白噪声检验;之后是模型预测,将划分数据集为训练集和测试集,设定预测效果的评估标准;最后是基于ARIMAX模型的预测实验和ARIMAX与ARIMA模型的预测效果对比分析。
以天猫、京东和苏宁三个电商平台的面粉数据进行实验,结果表明:本文构建的面粉分类模型的精度能达到91%,优于现有电商商品分类方法。在预测面粉价格指数时,使用ARIMA模型的预测平均误差MAE、MSE、MAPE分别是20.99%、8.51%和2.88%,ARIMAX模型的预测平均误差则分别是4.28%、0.22%和0.48%,预测误差分别降低了13.32%、8.29%和2.4%,表明引入面粉原料价格指数的预测模型ARIMAX的预测误差更小,能更准确反应电商平台面粉价格走势,也证实了本文构建的电商平台面粉价格指数预测方法在预测电商面粉价格走势方面具备可行性和有效性。