【研究分享】细粒度情感分析方法简述
认知计算研究部简介
作为中科闻歌的基础研究部门,认知计算研究部依托于中科闻歌多年来积累的媒体大数据、高性能云计算平台以及高素质技术人才,致力于将认知计算技术应用到广泛的业务场景中并推动前沿技术发展。认知计算研究部的研究方向包括但不限于自然语言处理、计算机视觉、认知心理学、数据挖掘等。
该篇文章是“AI研究前沿”系列的第三篇,我们希望通过技术文章的形式与各路AI研究者交流,共同进步。同时,认知计算研究部也招募计算机相关专业实习生,如有兴趣,可发送简历至“hr@wengegroup.com”进一步沟通。
随着电子商务的快速发展,越来越多的消费者在互联网平台上发表产品评论。面对用户更加直接的反馈,如何整合反馈信息,并对此做出迅速的反应,成为了企业的一大挑战。微博等社交媒体平台的兴起更是为基于网络数据的舆情分析、民意调查等活动提供了广泛的数据基础。不同于整体的情感分析,基于属性或功能(Aspect)的情感分析的分析粒度更“细”,其主要目的是根据评论信息给出一系列简明的表达,说明消费者群体对某一产品各个属性的喜好程度。如图1所示,这条奶粉评论在“品质”属性方面的情感是积极的,而在“价格”属性方面的情感是消极的。
图 1 消费者评论举例
由此,基于属性的情感分析任务一般被划分为两个子任务:属性识别,即,挖掘句子中涉及的属性;以及属性的情感识别,对每个属性进行分析,识别它们表现出的情感极性。
一
属性识别
属性识别,可以分为“属性分类识别”和“属性词提取”。属性分类识别的任务定义是:针对某个特定领域,通过对大量评论文本进行分析,预定义一些属性,再根据内容对评论进行分类。一条评论可以提及零到多个属性,以上面评论为例,该评论提及了两个属性:品质与价格。而属性词提取是指直接从原文本中提取与属性关联的单词或词组。同样以上面评论为例,“不搞活动”和“贵”都可以视为价格的属性词。目前主流的属性识别方法主要分为传统机器学习方法和基于深度学习的方法。
01
传统机器学习方法
传统机器学习方法将属性分类看作是多标签分类问题,将属性词提取视为序列标注问题。例如,Toh等人[1]首先构造了一系列特征,包括词汇特征、语义特征、句法依赖特征、词聚类特征等,然后针对属性分类问题,采用One-vs-all策略,利用传统的神经网络算法训练多个二元分类器,识别句子中涉及的属性;而针对属性词提取问题,则采用条件随机场算法,训练识别句子中与属性关联的单词或词组。
02
基于深度学习方法
相较依赖于手动提取特征的传统机器学习方法,深度学习的优势在于可以自动抽取更抽象、更高层次的特征,因此通过深度学习算法抽取的特征可以更好地辅助属性分类或属性词提取。Toh等人[2]在原来词汇特征、语义特征、句法依赖特征、词聚类特征的基础上,分别利用CNN和RNN提取更抽象、更高层次的特征,并将新抽取的深度学习特征增加到原来的神经网络算法和条件随机场中进行训练。实验结果表明,深度学习特征的加入显著增强了属性分类和属性词提取的效果。
二
属性的情感识别
属性的情感识别是指对于待分析文本,识别针对某一特定属性的情感极性。目前主流的方法主要有以下三种:基于词典的方法、传统机器学习方法以及深度学习方法。
01
基于词典的方法
基于词典的方法首先将句子涉及的属性和单词或词组关联起来,然后通过情感词典中每个单词或词组的情感极性来推理出属性的情感极性。Zhu等人[3]首先通过MAB自助算法(Multi-aspect bootstrapping algorithm)获取和每个属性相关的单词或词组集合;然后通过句子分割算法将句子重新划分,确保每个划分段只对应一个单独的属性;最后通过情感词典来判断每段文本的情感极性,进而确定句子中每个属性的情感极性。
MAB自助算法针对每个属性,从起始的种子集合开始,从候选集中依次选择RlogF分值最高的单词或词组加入种子集合中,最终生成与每个属性相关的单词或词组集合。RlogF计算公式如公式(1)所示。单词或词组与属性的相关性程度由公式(2)度量:
02
传统机器学习方法
传统的机器学习方法将属性的情感识别同样看作多分类问题,即,将每个属性的情感极性归类为积极、消极或中立。Brun等人[4]提出一个基于反馈的分类框架,如图2所示。具体来说,该方法首先构造语言学特征,包括n-gram特征、语义特征、句法依赖特征、属性类别特征等;然后通过奇异值分解进行特征降维;再采用one-vs-all策略的分类算法训练分类器;最后将模型的效果反馈到特征空间进一步优化特征。
图2 基于反馈的分类框架
03
深度学习方法
图3 ATAE-LSTM模型
三
总结
在产品营销、网络舆情、民意调查等领域,针对用户评论的情感分析具有重要的应用价值。基于属性的情感分析是一种细粒度的情感分析任务,比传统的句子级别、文章级别的情感分析任务更加复杂,首先需要识别句子或文章讨论的属性,然后识别具体属性的情感极性。目前针对属性的情感分析模型各有所长,因此在实验结果上也各有优势。因此在选择具体模型时,要考虑实际的数据情况、应用场景等,这样才能更好地满足真实需要。
文章作者:张东雷、刘舟洋、孔庆超
参考文献
[1] Toh Z, Su J. Nlangp: Supervised machine learning system for aspect category classification and opinion target extraction[C]//Proceedings of the 9th international workshop on semantic evaluation (SemEval-2015). 2015.
[2] Toh Z, Su J. Nlangp at semeval-2016 task 5: Improving aspect based sentiment analysis using neural network features[C]//Proceedings of the 10th international workshop on semantic evaluation (SemEval-2016). 2016: 282-288.
[3] Zhu J, Wang H, Tsou B K, et al. Multi-aspect opinion polling from textual reviews[C]//Proceedings of the 18th ACM conference on Information and knowledge management. ACM, 2009: 1799-1802.
[4] Brun C, Perez J, Roux C. Xrce at semeval-2016 task 5: Feedbacked ensemble modeling on syntactico-semantic knowledge for aspect based sentiment analysis[C]//Proceedings of the 10th international workshop on semantic evaluation (SemEval-2016). 2016: 277-281.
[5] Wang Y, Huang M, Zhao L. Attention-based LSTM for aspect-level sentiment classification[C]//Proceedings of the 2016 conference on empirical methods in natural language processing. 2016: 606-615.