返回

【研究分享】关键短语提取技术调研及效果对比

来源: 发布时间:2020/06/19 浏览量:

认知计算部简介


    作为中科闻歌的基础研究部门,认知计算研究部依托于中科闻歌多年来积累的媒体大数据、高性能云计算平台以及高素质技术人才,致力于将认知计算技术应用到广泛的业务场景中并推动前沿技术发展。我们的研究方向包括但不限于自然语言处理、计算机视觉、认知心理学、数据挖掘等。


前言


    关键短语抽取是知识抽取和信息检索等信息技术的关键步骤。本文对现有的关键短语技术进行了调研和梳理,并针对典型的关键短语提取方法进行对比分析。相关关键短语提取技术已部署于闻海大数据平台中,并在新闻热点发现、文章关键信息总结、话题抽取等应用场景中发挥重要作用。


15925755196911.jpg

闻海大数据平台分析组件之热点词语、热点主题


技术背景

   

    随着互联网文本相关数据呈指数级增长,如何快速有效地抽取和整理相关关键信息成为一个重要的研究课题。与关键词不同,关键短语可能由多个词组成,其文本语义描述更为丰富,表达更为完整。除此之外,关键短语构成了一个简洁的概念性文档摘要,有助于语义索引、文档聚类和分类等多个任务的效果提升。


关键短语提取技术方法

     
    根据获取短语的方式的不同,现有的关键短语提取技术可以主要分为抽取式方法及生成式方法。



15925757093089.png

图 1 短语提取方法


    无监督提取方法是目前最主要的短语提取方法。在无监督方法中,关键短语提取任务通常被转化为排序问题。无监督提取方法最常见的为基于图的提取方法[2][3][4]和基于主题聚类的提取方法[5]。基于图的方法的基本思想是从输入文档构建图,并使用基于图的排序方法根据其重要性对节点进行排名。图的每个节点对应于文档中的一个候选词组,一条边连接两个相关的候选词。边缘权重与所连接候选词之间的句法和语义相关性成正比。对于每个节点,其每个边缘都被视为由该边缘连接的另一个节点的“投票”。图的节点的得分是根据其具有的边缘和相邻节点的得分来递归定义的。然后,从图中选择排名最高的候选项作为输入文档的关键短语。TextRank是最著名的基于图的关键短语提取方法,目前提出的基于图的关键短语提取方法大多都是基于TextRank方法的改进技术。例如文献[2]提出的SingleRank,其核心为将权重合并到边上;SGRank[3]和PositionRank[4]则利用统计、位置和单词共现信息进行分数优化。

    基于主题聚类方法是把文档中的候选关键短语聚合成主题,每个主题由所有和该主题相关的候选关键短语组成。KeyCluster[5]是此类方法的典型代表,其主要思想为:首先,利用聚类技术发现候选样本,保证样本在语义上能够表示整个文本。然后从候选样本中提取表示文档内容的关键短语。KeyCluster有一个潜在的缺点:每个聚类主题的重要程度相同,这与真实的文本表达不相符。

    由上述两部分的内容可知,基于图的方法与基于主题的方法拥有各自的优缺点,但是两者恰好可互补。Topical PageRank[6]引入LDA,将主题与TextRank相结合,通过为每个主题运行一次TextRank来衡量词对于不同主题的重要性。然后,根据文档的主题分布,进一步计算单词的排名得分,并提取排名靠前的单词作为关键短语。Salience Rank[7]则在Topical PageRank进行了改进,提出了word salience,由语料库特异性与主题特异性组成。该算法通过计算估计出得K个潜在主题的salience,并将其替换原有的LDA值,从而简化计算复杂度。Multipartite graphs[8]则构建了多部图,利用候选关键短语和主题间的关系进行分数优化。其在构造图时将候选短语作为节点且属于同一主题的节点之间不连接,属于不同主题的节点连接并利用位置信息计算边的权重。另外,在生成有向图后进一步调整各主题中首位出现的候选词的入边权重。


15925758259471.png

图2 多部图(Multipartite graphs)


    有监督方法一般将关键短语抽取看作为一个分类问题。训练过程中,使用训练集各候选短语的特征值序列及其标注信息(是否为关键短语)训练分类器;测试过程中,计算测试集各候选短语的特征值序列并由分类器得到其是关键短语的概率。关键短语提取在传统机器学习中常用的特征为有选短语的TF-IDF分数、短语在文本中首次的位置及词性,常用的算法有朴素贝叶斯、决策树、最大熵和支持向量机等。

    随着人工智能的发展,也有人开始将神经网络应用于短语提取中,例如文献[9]提出了联合层递归神经网络模型。该方法不同于其他短语抽取方法(通常包括关键词抽取、关键短语生成及排序),而是采用神经网络进行“端到端”式地联合建模。该方法避免了多个步骤的错误传播,降低了其对最终的效果的影响。联合层递归神经网络模型将短语提取问题转化为了序列标注问题,并且同时对关键词和关键短语提取进行建模。其网络模型如图所示:


4.png

图3 联合层级递归神经网络模型


    关键短语生成是关键短语提取的一个扩展,其优点在于能够明确地对文本中缺失关键短语进行预测并且进行文本语义的表达。近期的生成式短语提取方法大多是基于神经网络的。文献[10]提出的基于RNN的生成模型,首次将编码器-解码器模型应用于关键短语预测任务。该模型的主要组成如下图所示:


15925760395951.png

图4 基于RNN的生成模型


    文献[11]则在文献[10]的基础上,针对RNN需要依赖时间进行计算因而比较耗时的缺点,提出了基于CNN的生成模型。该模型使用CNN网络替换RNN,并使用位置嵌入处理序列数据,并采用门控线性单元(GLU)作为非线性函数。


    上述方法在计算过程中,实际上将标题与文本内容放在了同等重要的位置,这显然与实际的情况不符合。在此基础上文献[12]提出了基于Title-Guided Encoding方法。该方法的主要特点为:


1

标题另外作为类似查询的输入;

2

由标题引导的编码器收集从标题到文档中每个单词的相关信息。


6.png

图 5 标题引导编码器模块


关键短语方法对比


    由于有监督方法需要大量的标注数据,而数据的获取成本较高,因此本文选用无监督方法进行分析。无监督关键短语提取的方法可以分为基于图和基于主题的两类,因此我们分别选取了基于图的典型算法TextRank以及基于主题的算法TFIDF+LDA(综合TFIDF权重和LDA话题中短语分布概率两方面作用)分别作为获选短语的权重计算方法。


    本文中短语抽取的流程主要包含数据预处理、短语生成、权重计算、权重调整及短语选择五部分。其实现流程如图6所示:


15925763694997.png

图 6 短语提取实现流程图


输入:

文本内容及文本标题。

数据预处理:

去除文本内容中的特殊字符并进行分词和词性标注。

短语生成:

对词性标签进行选择,选取有动词+形容词+名词、形容词+名词、动词+名词及名词词组构建候选短语。

权重计算:

使用TextRank或TFIDF+LDA方法进行短语权重计算。

权重调整:

检查候选短语是否存在于标题中,若存在将其权重加倍。

短语选择:

根据确定的关键短语数量及内部确定的权重参数阈值进行关键短语选取。

输出:

关键短语。


结果分析


    我们在闻海大数据平台上以分别以“东京奥运会”和“阿斯利康公司”为检索关键词从新闻数据源中分别获取了约300篇新闻文章,并使用上述两种短语抽取方法进行短语抽取。两种方法的短语长度(即所包含的字数)均限定在5到25之间。


4.1

关键短语抽取结果长度比较


15925764706948.png

图 7 短语提取长度分布图


    由分布图可知,使用TextRank方法抽取的短语大部分长度分布在9以下,而使用TFIDF+LDA方法获取的结果则主要分布在10到15之间。因此可知在抽取的较长短语时后者更具优势。


4.2

关键短语抽取数量比较



15925765452493.png

图 8 短语提取短语抽取数量对比图


    图7为测试数据两种抽取方法的短语数量对比图,其中使用TextRank方法共获得短语3410条,使TFIDF+LDA方法共获取短语1851条。因此从短语的丰富度角度出发,使用TextRank方法更具优势。


4.3

关键短语提取结果内容比较



    下面分别展示“东京奥运会”和“阿斯利康”两个专题的关键短语抽取内容比较结果。


15925767475664.png

15925767827027.jpg

图 9 “东京奥运会”短语词云图-TextRank方法

12.jpg

图 10 “东京奥运会”短语词云图-TFIDF+LDA方法

15925768558826.png

14.jpg

图 11 “阿斯利康”短语词云图-TextRank方法

15.jpg

图12 “阿斯利康”短语词云图-TFIDF+LDA方法


    由上述两个示例可知,基于TextRank方法获得的短语较短,但包含的集合文本的信息较TFIDF+LDA方法抽取的短语多,且短语整体的信息集合程度较高,便于用户获取海量文本的主要内容,较适合于文本聚类任务;而基于TFIDF+LDA方法抽取的短语信息较分散,但其单条短语含有较详细的文本信息,针对单篇文本时较能反映文本的主要内容,便于文本内容理解。


参考文献


[1] Papagiannopoulou E , Tsoumakas G . A review of keyphrase extraction[J]. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2019.

[1] Wan X, Xiao J. Single Document Keyphrase Extraction Using Neighborhood Knowledge[C]//AAAI. 2008, 8: 855-860.

[2] Danesh S, Sumner T, Martin J H. Sgrank: Combining statistical and graphical methods to improve the state of the art in unsupervised keyphrase extraction[C]//Proceedings of the fourth joint conference on lexical and computational semantics. 2015: 117-126.

[3] Florescu C, Caragea C. Positionrank: An unsupervised approach to keyphrase extraction from scholarly documents[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2017: 1105-1115.

[4] Liu Z, Li P, Zheng Y, et al. Clustering to find exemplar terms for keyphrase extraction[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 1-Volume 1. Association for Computational Linguistics, 2009: 257-266.

[5] Liu Z, Huang W, Zheng Y, et al. Automatic keyphrase extraction via topic decomposition[C]//Proceedings of the 2010 conference on empirical methods in natural language processing. Association for Computational Linguistics, 2010: 366-376.

[6] Teneva N, Cheng W. Salience rank: efficient keyphrase extraction with topic modeling[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2017: 530-535.

[7] Boudin F. Unsupervised keyphrase extraction with multipartite graphs[J]. arXiv preprint arXiv:1803.08721, 2018.

[8] Zhang Q, Wang Y, Gong Y, et al. Keyphrase extraction using deep recurrent neural networks on twitter[C]//Proceedings of the 2016 conference on empirical methods in natural language processing. 2016: 836-845.

[9] Meng R, Zhao S, Han S, et al. Deep keyphrase generation[J]. arXiv preprint arXiv:1704.06879, 2017.

[10] Zhang Y, Fang Y, Weidong X. Deep keyphrase generation with a convolutional sequence to sequence model[C]//2017 4th International Conference on Systems and Informatics (ICSAI). IEEE, 2017: 1477-1485.

[11] Chen W, Gao Y, Zhang J, et al. Title-Guided Encoding for Keyphrase Generation[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33: 6268-6275.

[12] Hasan K S, Ng V. Automatic keyphrase extraction: A survey of the state of the art[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Vol

ume 1: Long Papers). 2014: 1262-1273.


IPO
系列

IPO产品系列

企业
出海

企业出海系列产品

关注中科智库公众号
即享最新权威资讯洞察

下载智看APP
开启舆情咨询
商业洞察专业服务

下载智看APP
开启舆情咨询
商业洞察专业服务

在线留言

请留下您的信息,我们会第一时间与您联系

所有提交信息,我们将严格为您保密

您已阅读并同意用户授权协议