关键词:
机器学习
共享住宿
价格预测
Gradient Boosting模型
摘要:
机器学习涉及多个领域,涵盖了多门学科知识,属于新兴的交叉学科,统计学、概率论等学科构成了其基础架构,其本质就是在此基础之上,在计算机当中运用这些知识来模拟或者进一步实现人类的学习行为。机器学习在近些年随着互联网技术的迅猛发展而广为人知,但其发展历史并不是如想象中那般短暂,其实早在几十年前机器学习就已经存在,甚至可以追溯到几个世纪之前,机器学习的基础架构就已然得到了构筑。像17世纪产生的最小二乘法的推导,以及马尔可夫链等,这些知识的发现使得机器学习能够在今天得到广泛的应用与研究。而在当今的时代背景下,大数据、人工智能等领域飞速发展,使得机器学习的应用前景也愈加广泛,因此本文即以机器学习为手段,来进行短租房价格预测方面的研究。随着经济社会的不断发展,不断进步,越来越多的经济活动以更新颖的方式走进大众生活,社会也需要更加有效的方式来进行资源配置,共享经济应运而生。从共享经济提出一直发展至今,共享一词几乎涉及了社会生活的方方面面,例如出行、住宿、办公、学习等,而共享住宿随着近些年由国外流入国内,逐渐得到发展,也在中国大地上刮起了一股在线短租的风潮,极大地方便了人们的生活、工作。并且由于其个性化的服务,价格的优势,以及更具人性化的特点,日益成为人们出行的首要选择,中国的共享住宿市场也得到了空前的繁荣与发展。本文以共享住宿房屋价格为研究对象,通过获取阿里天池竞赛当中的共享住宿短租数据,以Airbnb平台在北京市的房源信息为例,研究各因素与价格的相关关系,明确各影响因素的影响程度大小,确定要放入预测模型当中的变量。在本文当中,具体的研究工作主要有三部分,如下:第一部分:共享住宿数据的预处理工作。在这一部分当中本文主要是对于所获得数据进行各项预处理,包括数据清洗(异常值、空值的处理),冗余属性的处理、共享住宿数据当中定性数据的数据变换(独热编码、标签编码、标准化与平滑处理),从而为后面的建模工作提供可以直接使用的数据。第二部分:共享住宿数据的描述性分析。在这一部分当中,本文对于所获得数据进行描述性分析,将所有的属性列分为三个部分,第一部分为本文的研究对象,共享住宿房屋的价格;第二部分是共享住宿房屋的身份识别属性列;第三部分是可能对共享住宿价格有影响的影响因素属性列。本文在这一部分当中所做的主要工作,就是分析第三部分各属性列与研究对象共享住宿房屋价格的相关程度大小,从而确定最终放入模型当中的特征变量。第三部分:共享住宿价格预测的算法模型。这一部分是本文的重点研究部分,在这一部分当中,本文一共使用了四种机器学习算法模型,分别为Gradient Boosting(梯度提升)、XGBoost、Random Forest(随机森林)、Bagging 回归,并对四种模型用模型得分以及均方误差进行评价,最终发现表现最好的是Gradient Boosting模型,预测结果也能够达到研究的预期。通过上述研究,本文期待能够找出表现较好的算法模型,来对共享住宿房屋的价格进行预测,这种预测工作将会对消费者的消费决定提供支持,也会对房东的定价工作提供参考,具有十分重要的现实意义。本文创新使用了机器学习算法模型来对房屋价格进行预测,脱离了传统价格预测的线性回归模型,使之具有更好的预测准确度。同时在本文当中,也进一步对共享住宿房屋价格的影响因素做了探讨,通过各种可视化工具,使结果能够更加清晰的展现在读者眼前。