小语种情感分析研究｜中科闻歌认知计算部

来源：发布时间：2020/03/19 浏览量：

背景及挑战

随着互联网技术的快速发展和普及，大量来自不同国家使用不同语言的用户在Twitter、Facebook等社交媒体中针对新闻时事、政策法规、消费产品等话题发表的主观评论，很好地反映了用户个体的观点、情感、态度等重要信息。研究如何利用文本分析和挖掘技术对各语种文本中用户所表达的情感进行理解，对舆论监测、商业分析等领域具有重要意义。

情感分析是自然语言处理领域的重要任务，主要方法包括早期基于规则的无监督方法、基于文本表层情感特征的传统机器学习方法，以及近期基于深度学习的方法等。针对语言丰富的语种（例如中文、英文等），学术界和工业界都提出了大量情感分析方法和工具，然而面向小语种文本的情感分析任务目前仍然面临诸多挑战，主要包括以下两个方面：

大多数小语种形态丰富，不同语系的语种表达形式差异较大，并没有通用处理文本的方法；
相关研究和有标注的公开语料资源很少，难以支撑模型训练。

小语种情感分析方法调研

通过对相关文献进行调研，我们对主要的小语种情感分析方法进行了总结，如图1所示。根据方法是否使用其它语种的信息，可以将小语种情感分析方法主要分成两大类，即：单一语种情感分析和跨语种情感分析。

图1. 小语种情感分析方法分类

具体来说，单一语种情感分析方法是指在目标小语种数据上直接进行的情感分析，如构建该语种情感词典并采用基于规则的无监督方法[1]；或是首先挖掘该语种自身文本特征，并应用有监督的分类方法[2,3]。相对而言，跨语种情感分析方法的主要思路是通过建立源语言（即中文、英文等具有丰富语言资源的语种）与目标语言（即待研究的语种）之间的映射，将源语言的情感知识迁移到目标语言上以辅助目标语言的情感分析任务，其中主要的情感知识迁移方法包括基于机器翻译的方法和基于BERT的方法等。基于机器翻译的方法[4,5,6]可以直接将目标语言文本直接翻译为源语言文本，并转化为源语言的情感分析任务；或者将已有的源语言的情感词典翻译为目标语种的情感词典，并采用基于规则的无监督情感分析方法。BERT模型[7]自从2018年发表以来，已经在多个关键的NLP任务中取得非常好的效果，如命名实体识别、文本分类、自动问答等等。相关研究[8]发现，采用维基百科中100多种语种的大量非对齐文本作为预训练语料，BERT在多语种任务中同样具有良好的表现（简称为mBERT，即Multilingual BERT）。

实验

3.1

数据集和方法选择

我们选择了三个小语种，分别为意大利语、西班牙语和葡萄牙语，并从闻海（wenhai.wengegroup.com）中搜集了相关新闻和社交媒体数据（句子级别）来进来一步对比不同小语种情感分析方法的效果。整体数据集标签分布如表1所示。在实验中，我们随机选择80%作为训练集，其余20%作为测试集。在小语种情感分析方法的选择上，我们分别在两大类方法中选了具有代表性的基于文本特征的有监督分类方法（SVM模型+小语种文本特征选择）以及mBERT模型。

表1. 整体数据标签分布

3.2

小语种文本处理方法及特征选择

小语种的文本处理方法主要分为跨语言特性和语言自身独特性两个方面[3]。跨语言特性指可以应用于在大多数相似语言中的共性处理。通常同语系语种具有类似的浅层文本特征，例如日耳曼语系（包括英语，德语等），罗曼语系（包括西班牙语，意大利语等），相关文本预处理包括标点符号、数字、重复词删除等拼写特性的处理，通用特征可以包括基于词的n元词组、基于字符的n元字组特征提取等。语言自身特性指有关语言特定信息的独特处理，包括停用词、词干还原、否定词用法等预处理方法，另外还包括语种自身的情感词统计特征提取等。针对不同语种文本，我们做了不同的预处理和特征提取工作（详见表2），并采用TF-IDF特征抽取方法对文本进行向量化表示，作为SVM模型的输入。

表2. 小语种文本预处理和特征提取

3.3

实验结果及分析

我们分别整理了在意大利语、西班牙语和葡萄牙语数据上基于SVM和mBERT模型的分类效果，评估标准为精确率、召回率和F1分值，如表3、表4和表5所示。从实验结果中可以发现，mBERT模型预测结果在三个小语种数据集上整体（F1值）优于SVM模型，但SVM模型在精确率上（尤其是正、负面样本）优于mBERT模型。可能原因为手工抽取的文本特征一般针对性较强，但是在整体泛化能力上稍弱。相对于中立数据，正面和负面数据量较少，但mBERT模型依然有效提升了“正面”和“负面”情感标签判别的F1值，说明mBERT在不平衡数据集下仍具有良好表现。

另外，我们还发现特征选择对小语种情感分析同样重要，比如在西班牙语数据上，利用情感特征对模型整体判别效果没有明显提升，对葡萄牙语移除停用词同样无明显作用。

表3. 意大利语情感分析结果

表4. 西班牙语情感分析结果

表5. 葡萄牙语情感分析结果

总结

本文首先对小语种的情感分析方法进行了调研，并分别对比了基于手工文本特征的传统机器学习模型（SVM）和近年来NLP领域最受关注的mBERT模型在意大利语、西班牙语、葡萄牙语语种情感分析中的效果。另外，我们还详细介绍了如何针对以上小语种进行预处理和文本特征抽取。实验表明，mBERT整体上比传统机器学习模型效果更好，但是后者在正面和负面样本的精确率上性能更佳。（作者：王宇琪、王婧宜、孔庆超）

参考文献

[1] Hutto, Clayton J., and Eric Gilbert. "Vader: A parsimonious rule-based model for sentiment analysis of social media text." Eighth international AAAI conference on weblogs and social media. 2014.

[2] Abdul-Mageed, Muhammad, Mona Diab, and Sandra Kübler. "SAMAR: Subjectivity and sentiment analysis for Arabic social media." Computer Speech & Language 28.1 (2014): 20-37.

[3] Tellez, Eric S., et al. "A simple approach to multilingual polarity classification in Twitter." Pattern Recognition Letters 94 (2017): 68-74.

[4] Can, Ethem F., Aysu Ezen-Can, and Fazli Can. "Multilingual Sentiment Analysis: An RNN-Based Framework for Limited Data." arXiv preprint arXiv:1806.04511 (2018).

[5] Denecke, Kerstin. "Using sentiwordnet for multilingual sentiment analysis." 2008 IEEE 24th International Conference on Data Engineering Workshop. IEEE, 2008.

[6] Feng, Yanlin, and Xiaojun Wan. "Learning Bilingual Sentiment-Specific Word Embeddings without Cross-lingual Supervision." Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). 2019.

[7] Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).

[8] Wu, Shijie, and Mark Dredze. "Beto, bentz, becas: The surprising cross-lingual effectiveness of bert." arXiv preprint arXiv:1904.09077 (2019).

[9] Orengo, Viviane Moreira, and Christian R. Huyck. "A Stemming Algorithmm for the Portuguese Language." spire. Vol. 8. 2001.

上一篇：无

下一篇：无

DIOS认知与决策基础平台

雅意大模型

媒体

产品

解决方案

雅意大模型

社会计算

产品

解决方案

雅意大模型

金融

产品

解决方案

雅意大模型

治理

解决方案

雅意大模型

小语种情感分析研究｜中科闻歌认知计算部

业务合作

在线留言

请留下您的信息，我们会第一时间与您联系