中科闻歌认知计算部四篇论文被国际学术会议IEEE ISI 2019录用
IEEE ISI是安全信息学领域的旗舰会议,于2003年首次在美国亚利桑那州图森市召开。在过去的16年中,IEEE ISI会议已经从传统的智能和安全领域发展到多领域联合研究与创新。今年7月,IEEE ISI大会将在中国深圳举行。
认知计算部共有四篇论文被IEEE ISI2019录用,研究主题包括社交媒体中的认知失调、谣言传播和检测、互联网金融平台的风险识别以及政策信息学中流行度预测等。以下是论文的简单介绍。
一、社会媒体中的认知失调探讨[1]
认知失调理论由费斯廷格于1957年提出,用于阐释人在面对外部环境改变时的行为变化原理。本论文以认知失调理论为基础,以近期热议的典型反转事件—“翟天临学术不端”话题为切入点,探索了社交媒体平台用户的“认知失调”现象。本次研究收集了2019年1月1日至2019年3月15日的近十万条相关微博数据,通过统计假设检验和语义分析等方式,发现了翟天临的原有粉丝在事件反转后存在认知失调状态,且粉丝们的后续反应很好地印证了认知失调理论。此外,通过语义分析进一步发现,关注翟天临“学霸”人设的粉丝在事件反转后通常更倾向于活跃地参与讨论,而其他粉丝通常更倾向于沉默;同时大多数粉丝在事件反转后依然选择从不同角度支持翟天临。本论文以实证分析方式验证了认知失调理论在社交媒体用户中的适用性,深入探讨了不同类型的用户在面临认知失调时的不同反应及其可能的原因。该研究为后续的基于用户心理推断的立场预测工作提供了基础,同时也有助于进一步探讨未知或应急事件中人群可能的行为及其原因。
图1 翟天临事件中用户的心里状态演化过程(根据认知失调理论)
图2 经历认知失调的粉丝(左)和一般用户(右)在事件反转前后的发帖频率分布
图3 事件反转后活跃讨论粉丝与沉默粉丝在事件反转前的关注点比较
可以看出事件反转后的活跃讨论粉丝原本更加关注翟天临的“学霸”人设(左),而沉默粉丝更加关注其演技(右)
二、利用动态演化结构信息提升社交媒体中的谣言监测效果[2]
社交媒体服务快速发展的同时,谣言也同样借助社交媒体在人群中快速传播。对于突发事件,人们往往更加关注新消息的刷新以了解事件后续动态,错误信息可能会引起潜在的社会恐慌。因此,迫切需要在信息扩散的早期阶段自动检测谣言,以尽量减少潜在的负面影响。关于谣言检测的现有方法都是基于特征挖掘,无法捕获不同时间段内帖子的动态交互信息。而扩散结构的动态演化是区分谣言和非谣言的有效指标。通过评估每个时间单位中谣言和非谣言之间传播结构的相似性,我们发现在演化过程中子结构比最终静态结构更具辨别力(如图4所示)。
图4 消息传播过程中传播结构演变过程。每个节点代表一条推文,连接推文中的边缘代表转发关系。红色根节点代表原始推文。右灰图是扩散结束时的传播结构。
我们结合动态传播结构和文本内容,提出一种动态传播结构的神经网络模型(NM-DPS)。首先,根据每条推文的发布时间将结构划分为若干段从而捕获动态信息;然后使用基于时间注意机制的双向门控制单元(BiGRU)来学习传播动态结构的表示;最后,将文本内容特征和动态传播结构表示集成到一个统一的框架中(如图5所示)。
图5 NM-DPS框架。输入传播结构和文本,预测事件是谣言(R)还是非谣言(N)。
我们使用两个大型社交媒体数据集进行实验比较,即新浪微博(3805656)和Twitter数据集(25234)。谣言检测实验中,我们的模型在公开数据集上的表现要优于先前的方法(GRU-2,CAMI, PPC, SVM-TS等),在精度上有显著提升(微博数据上达到94.3%,twitter上达到83.6%)。
三、基于多源文本数据识别互联网金融平台风险[3]
随着互联网金融的蓬勃发展,互联网金融平台应运而生。然而,互联网金融平台的野蛮发展给投资者造成了巨大的财产损失,严重影响互联网金融产业的健康发展。因此,研究如何识别互联网金融平台的风险具有巨大的应用价值和社会价值。在本篇论文中,我们以910家问题平台作为研究对象,研究从多源文本数据中识别这些问题平台的风险。首先,通过对这些问题平台的案例分析,我们构建了可以量化互联网金融平台风险的指标体系,包括涉嫌传销、高息诱导等;然后,我们提出了一个新颖的基于深度学习模型的风险识别器CBiGRU-RI来从多源文本数据中识别互联网金融平台风险,模型结构如图6所示,该模型融合了CNN和RNN的建模优势,即通过CNN捕获更有价值的n-gram特征,利用BiGRU分别从两个方向学习n-gram特征序列的长期依赖信息;最后,我们将CBiGRU-RI模型和五种基准模型在真实数据集上进行了对比实验。实验结果表明,CBiGRU-RI模型F1值达到0.8,优于其他基准模型,从而证明了我们提出的CBiGRU-RI模型在识别互联网金融平台风险上的有效性。
图6 CBiGRU-RI模型图
四、新媒体环境下政策信息流行度预测[4]
随着互联网新传媒技术的蓬勃发展,新兴的信息传播媒介为信息的传播和扩散提供了广阔的平台。同时,也为政府公共政策相关信息的推广提供了便利。然而,基于新兴传播媒介对政策信息的流行度进行预测对于政策信息预推荐和政策传播管理具有重要的意义。然而以往工作中提取的特征多基于社交媒体短消息的流行度预测,已有特征对于长文本预测是否有效尚未经过检验。同时以往工作没有考虑政策信息之间的流行竞争关系以及政策信息的延续性特点。
本文为解决上述问题从以下几个方面进行了研究:首先,选取以往工作中的传统特征,利用相关性分析方法对传统特征的有效性进行了检验,同时过滤掉对长文本任务无效的特征,降低了计算复杂度的同时降低了模型过拟合的风险,如果如图7、8所示。然后,考虑了政策信息之间的流行竞争关系,对信息之间的流行竞争进行量化提取信息流行竞争强度,如图9所示相关性分析表明该特征与流行程度具有较高的相关性,并且对于政策信息发布策略的调整和确定提供决策支持。考虑了政策信息的延续性,提取了信息热点相关性特征。最后,采用BP神经网络对政策信息基于传播媒介的流行度进行了预测。研究框架如图10所示:
图7 作者历史流行度均值与流行度相关分析
图8 文本包含图片数与流行度相关分析
图9 流行竞争强度与流行度相关性曲线
图10 研究框架
本文还选取了“药品价格下调”、“PPP政策”、“个人所得税改革”、“支持民营企业发展”等18年热门政策进行了流行度对比分析,挖掘了不同类型政策之间的传播差异性。本文基于真实的政策信息传播数据集合进行了验证实验,试验结果表明本文提出的方案取得了较好的成果,R-square指标达到0.745相比较于以往工作提升了8.75%。
论文列表
[1] Jie Bai, Qingchao Kong, Linjing Li, Lei Wang* and Dajun Zeng, “Exploring Cognitive Dissonance on Social Media,” in 2019 IEEE International Conference on Intelligence and Security Informatics (ISI), 2019.
[2] Shuai Wang, Qingchao Kong*, Yuqi Wang and Lei Wang, “Enhancing Rumor Detection in Social Media Using Dynamic Propagation Structures,” in 2019 IEEE International Conference on Intelligence and Security Informatics (ISI), 2019.
[3] Donglei Zhang, Jie Bai, Lei Wang, Min He* and Yin Luo, “Identifying Risks of the Internet Finance Platforms Using Multi-Source Text Data,” in 2019 IEEE International Conference on Intelligence and Security Informatics (ISI), 2019.
[4] Yin Luo, Fangfang Wang, Feifei Zhao*, Jianbin Guo, Lei Wang, Yanni Hao and Dajun Zeng, “A Framework for Policy Information Popularity Prediction in New Media,” in 2019 IEEE International Conference on Intelligence and Security Informatics (ISI), 2019.
认知计算研究部简介
作为中科闻歌的基础研究部门,认知计算研究部依托于中科闻歌多年来积累的媒体大数据、高性能云计算平台以及高素质技术人才,致力于将认知计算技术应用到广泛的业务场景中并推动前沿技术发展。我们的研究方向包括但不限于自然语言处理、计算机视觉、认知心理学、数据挖掘等。