关键词:
垃圾评论识别
LDA主题模型
评论有用性
信用评价模型
智能合约
摘要:
在线点评的初衷是帮助潜在消费者高效获取信息,从而快速做出购买决策以及帮助商家调整市场策略,改进提供的商品和服务。但现实是,存在相当多的无关的评论,称之为垃圾评论。垃圾评论严重影响了在线点评应该发挥的作用,降低了潜在消费者的购买决策效率,提升了商家对商品和服务作出优化的难度,因此,如何识别和避免垃圾评论成为研究者亟待解决的重要课题。本文介绍了垃圾评论识别的研究背景和研究意义,概述了垃圾评论识别在国内外的研究现状,同时指出目前大多数的研究目标是如何识别垃圾评论,而忽略了从源头处减少垃圾评论的出现。基于以上叙述,本文所做的研究工作总结如下:(1)本文提出利用KL散度作为评论有用程度的度量,通过理论分析加上实验的方法确定了评论是否有用的判断标准。首先通过网络爬虫爬取了携程网上海地区酒店的在线点评超过10W条,用这些数据来训练LDA主题模型。使用吉布斯采样法来估计LDA主题模型的隐变量,通过不断地调整主题数量、收敛到目标分布所需要的最小迭代次数,并比较每次参数调整后的LDA主题模型的建模能力,确定了这两个参数的最佳取值。利用参数调整好并训练好的LDA主题模型推测新评论的主题分布。为了度量新评论的有用程度,本文提出利用新评论和训练数据归一化后的主题分布的KL散度来作为度量标准,并使用14784条样本数据(6423条不合格的评论,8361条合格的评论)进行实验,通过观察不同KL散度阈值下,模型对合格评论和不合格评论进行分类的准确率、精确率和召回率,得到了KL散度不超过0.34的评论有很大的概率是合格评论、超过0.34的评论基本可以断定是不合格的评论的结论。(2)基于Sporas信用评估模型进行改进,提出了I-Sporas信用评估模型。介绍了累加模型和权值模型这两种信用评估方法,指出了他们各自的不足,进而引出了基于累加模型改进的Sporas信用评估模型,分析了Sporas模型存在的不足之处,指出电商领域的信用评估应当要考虑交易金额、在线点评质量等因素,在Sporas模型的基础上,加入交易金额权重、在线点评质量惩罚因子,对Sporas模型进行改进,提出了I-Sporas信用评估模型。从数学推理的角度论证了I-Sporas模型遵循信用评估模型设计原则,并通过仿真实验从信用评估效果、抵抗攻击能力两方面对Sporas模型和改进后的I-Sporas模型进行对比,得到了I-Sporas模型对于提交不同质量在线点评的用户的信用值具有良好的区分度、I-Sporas模型比Sporas具有更强的抵御攻击能力的结论。(3)指出当前电子商务中的在线点评系统由于过于中心化,导致抵御攻击能力不强、权力不平等、不透明、容易出现后台修改,利用区块链技术可以解决这些问题,能达到从根源上减少垃圾评论的数量、提高高质量评论所占的比重的目的,并提出将改进后的I-Sporas信用评价模型应用于智能合约的思想,并给出了如何将I-Sporas信用评价模型应用到智能合约的方法和过程。