关键词:
深度学习
情感分析
长短记忆神经网络
命名实体识别
摘要:
伴随着电商平台交易规模的不断扩大,平台上所属的评论数量也在逐年增多,如何利用好这些数据,从中高效、准确的分析出更多有价值的信息,已经成为近些年的研究热点。针对此类问题,本文设计实现了一款面向电子商务平台的评论智能分类系统,该系统能够从粗细两种不同角度精准的分析出消费者的购物情感。本文主要完成的工作如下:首先,依靠对数据采集相关知识的钻研,编写出一款基于Scrapy的爬虫程序,利用其抓取来自淘宝、京东等电商平台的商品评论数据,并依据现有的研究成果选择出更加可行的预处理方案,对评论数据进行分词和去停用词操作,与此同时,详细的分析了传统分类模型的实现原理和不足之处。其次,了解了粗粒度情感分析任务的大致流程,并针对其中的文本向量表示方法对分词精度过度依赖问题,研究了基于字粒度的知识增强语义表示(ERNIE)情感分析模型。由于ERNIE模型只能通过位置编码的方式来学习序列数据中的位置信息,模型的分类精度有损失。因此,本文在原ERNIE模型的基础上,引入双向长短记忆网络和自注意力机制。实验表明,改进后的情感分析模型在F1值上提升了0.61%。然后,针对评论数据的句式结构特点,研究了随机条件场(CRF)算法的工作原理,提出了以四元组的方式实现细粒度情感分析模型的设计思路,即属性词和情感词的提取与分析。利用ERNIE模型和Bi-LSTM模型并结合CRF算法,设计出四元组中的抽取部分;而四元组中的分析部分考虑到处理数据长短的因素,皆采用ERNIE模型来完成。实验表明,以此方案设计的细粒度情感分析模型是具有可行性的。最后,利用Django框架按照系统的总体设计方案对具体的功能模块进行实现。保证系统能够高效、准确的将采集到的商品评论进行粗细粒度的情感分析,并将最终分析得到的结果以更加直观的图表形式表现出来,供用户使用。