关键词:
KNN回归
随机森林回归
LightGBM回归
BP神经网络
摘要:
近些年来,我国互联网技术飞速地发展。电子商务平台借助于这一股东风也迅速成长,逐渐成为拉动我国的消费水平,帮助传统企业进行改革与升级,实现脱胎换骨,发展现代化服务行业的一个重要核心组成部分。所有人生活最简单的方式都发生了翻天覆地的变化。本文采用和鲸社区大数据竞赛平台所提供的亚马逊平台电子产品销售数据,这是已经经过脱敏处理的真实交易数据,对消费者的行为进行统计分析,对交易价格进行挖掘预测,预测未售出产品的交易价格帮助商家进行产品定价。对消费者的行为统计从两大角度来分析,一是产品销售情况,二是消费者行为。产品销售情况从时间与空间多角度展开分析,时间角度研究销售指标月度的变化情况,产品下单的星期与小时分布,空间角度研究省与省的销售指标差别。消费者行为首先构建用户画像,从性别,年龄段将用户进行分层,定义新用户,活跃用户,不活跃用户,回流用户等特征。交易价格的模型建立与评估需要经历几大步骤:第一步是处理缺失值与异常值,因为数据量的充足,转而删除缺失值并在异常值处理中进行去重处理。第二步是特征工程,原数据中已有指标选取产品信息例如产品类别,品牌,下单时间等,同时加以用户画像信息数据,例如省份、年龄等。不过这里将年龄特征处理为年龄段,省份处理为表示电商发达程度的类别数据。在这里特征指标的基础上,构建创造新的特征,例如活跃周期,品牌市场占有情况等新的特征。第三步是模型尝试与选用,尝试了广义线性加模型,KNN回归,随机森林回归,LightGBM回归以及BP神经网络,选取R平方值,RMSE与MAPE为选择依据,并进行网格调参。几经波折,LightGBM回归的精确度明显优于其他相关算法,预测准确度92%。第四步进行特征重要性度量,了解影响价格的重要特征。