关键词:
手机产品评论
情感标注
系统功能语言学
评价系统理论
双语情感词词典
摘要:
本研究关注情感语料中形容词性情感词的中英双语对齐问题,将系统功能语言学的理论与情感分析学科结合,设计了一套围绕形容词性情感词,关注情感词的评价对象、评价属性、评价程度等方面的标注方案,旨在解决如何对齐中、英手机产品评论语料中情感词的关键问题。标注方案中将系统功能语言学的归一性、评价系统理论的态度资源系统和级差系统融入标注方案,设置了“评价对象(ENT)”、“评价属性(ATTR)”、“积极评价(POS)”、“消极评价(NEG)”、“中性评价(NEU)”、“鉴赏类评价(APP)”、“情感类评价(AFF)”、“判断类评价(JUD)”、“增强评价程度(HIG)”、“减弱评价程度(LOW)”、“聚焦评价(SHA)”、“虚化评价(SOF)”共12个标签。
本研究采集了在东南亚市场占比排名前5的中国手机品牌(华为、小米、vivo、荣耀、OPPO)的中、英文语料。中文从国内的电商平台淘宝和京东采集,英文从东南亚知名电商平台Lazada和Shopee采集。中、英文初步采集语料分别为6993、7141条。经过对语料的清洗、词性标注、“形+名”词组(含形容词性情感词的情感语料,一条语料中可能含多个“形+名”词组)的提取,获得并标注了中、英文含形容词的语料数目为19258,8903。
本研究采用人工标注与机器自动标注相结合的方式,完成了对中文2130词、共计99989词频,英文1489词、共计47721词频的标注。标注结果分别命名为中语料情感标注数据集和英文语料情感标注数据集。依据标注数据集分析了中、英双语标注结果的异同;统计了各标签词频;提取出了中、英文手机产品评论语料中的评价对象、评价属性常见词汇分类对齐表;计算了各情感词(评价词)与评价对象、评价属性、评价程度副词之间的共现和搭配强度。统计和分析发现,尽管中文标注的语料数量超过英文的2倍(中文19258:英文8903),标注的总词频方面中文也远超英文的2倍(中文99989:英文47721),但是标注结果中,各标签总词数上中文并没有比英文多出太多(中文2130:英文1489)。英文的“评价对象(ENT)”词数(303)更是反超了中文的“评价对象(ENT)”词数(206),英文的“判断类评价(JUD)”词数(27)也多于中文的“判断类评价(JUD)”词数(11)。
研究结论如下,原始语料数量二者并无太大区别,提取获得含形容词的情感语料之后,中文数量远多于英文说明中文语料更长,提取出的情感语料更多;中英文语料最后标注的总词数数量差距,有标注的语料数量的影响,同时也体现了中文在评价用词方面更丰富于英文;英文的“评价对象(ENT)”、“判断类评价(JUD)”词数多于中文,体现了东南亚用户相比于国内的用户更关注手机的整体、部件等具体的表现,也更关注商家、客服人员、物流人员的服务态度。而国内的用户对于手机细节性能,如手机拍照的防抖功能等评价更到位,体现在中文的“评价属性(ATTR)”更多于英文。
标注后的数据集和统计结果证明了标注方案的可行性,可用于后续语料库研究和双语情感文本的对齐翻译、双语情感词典的编纂等方面。同时对于国内手机产品拓展东南亚市场也具有重要借鉴意义。本研究的理论意义在于将语言学理论与语料标注实践相结合,是将理论应用于实践的一次有效探索。实践证明了系统功能语言学理论拓展了情感标注的维度和细粒度。研究的现实意义在于促进跨境电商平台产品评论的观点挖掘,便于跨境电商商家更好地了解顾客反馈,进而推动跨境电商的发展。
本研究的创新在于将系统功能语言学的理论与情感分析相结合,设计出一套有效可行的情感文本标注方案,对情感标注进行了新的尝试。不仅关注情感词本身,也关注情感词所评价的对象、属性,关注情感词的态度分类,还关注情感词的情感评价程度,多维度地关注情感词,对情感词进行多方位的意义展现。此外,本研究还进行了标注技术自动化的尝试。本研究尝试了使用python编程进行语料处理和语料标注,对语料进行批量处理,使得效率得以提升,且标注一致性和准确率得以保证。