返回

【研究分享】社交机器人检测技术调研

来源: 发布时间:2020/09/16 浏览量:

       社交机器人的恶意使用对社交媒体用户的信息安全形成了严重威胁。因此,进行社交机器人检测,自动识别出社交网络中的社交机器人账号对维护网络安全和用户交互中的公平信任具有重要意义。



认知计算部
· 简介

作为中科闻歌的基础研究部门,认知计算部依托于中科闻歌多年来积累的媒体大数据、高性能云计算平台以及高素质技术人才,致力于将认知计算技术应用到广泛的业务场景中并推动前沿技术发展,研究方向包括但不限于自然语言处理、计算机视觉、认知心理学、数据挖掘等。



本文作者 | 孙颖、王宇琪、苑霸、孔庆超



1

问题背景

近年来,社交媒体(Twitter、Facebook、微博等)的兴起为人们提供了沟通和交流的新平台。从个人交往到公共事务,越来越多的社交活动由传统模线下式转向线上模式,使每个人既能广泛地接收信息,又能更加自由地发布信息,但是在这种非面对面的社交环境下,账号的背后可能并非真实的用户,而是社交机器人。


社交机器人是一种能够自动生成内容并与其他用户进行互动的计算机程序[1]。目前,社交机器人广泛存在于各个社交媒体中,相关研究表明[2],Twitter账号中机器人占比约为8.5%。社交机器人的正面应用在一定程度上为互联网用户带来了便捷的生活体验,包括新闻播报、在线客服等,但其负面应用造成的不良影响已引发了人们众多讨论和深刻思考。社交机器人能够传播虚假消息和特定观点,从而改变公众态度、引导舆论走向。最典型地,社交机器人已经成为社会运动和政治事件中各方对公众施加影响的重要手段。早在2016年,有研究表明美国总统大选期间的政治机器人活动达到了当时的历史最高水平,社交机器人的使用成功拉开了候选者之间的支持率[3]。2019年香港修例风波期间,Twitter和Facebook以中国政府主导散布虚假信息为由,封锁了平台上大量账号,引起国内外极大的争议。在公共健康方面,社交机器人被用于影响或操纵关于接种疫苗的在线讨论[1][2]。最近,社会科学家指出社交机器人的使用妨碍科学研究,因为社交机器人与真实用户的行为混淆无法确保社交媒体数据的真实性,故而无法准确传达公众态度和行为信息[4]。


社交机器人的恶意使用对社交媒体用户的信息安全形成了严重威胁。因此,进行社交机器人检测,自动识别出社交网络中的社交机器人账号对维护网络安全和用户交互中的公平信任具有重要意义。


2

社交机器人检测的方法

经过文献调研,现有的社交机器人检测方法主要可以分为三类:基于图的方法基于机器学习的方法基于众包的方法,如图1.


1.png

图1 社交机器人检测方法


基于图的方法是通过建模社交网络结构,利用图的属性信息区分机器人和真实用户[5]。Zhao等[6]提出机器人检测框架Bot-AHGCN,将细粒度的网络流对象建模成多属性异质图,由此将机器人检测任务转化成图上的半监督节点分类任务。


16013624595010.png

图2 Bot-AHGCN结构图[6]


基于机器学习的方法是实现社交机器人检测的一类重要方法,主要分为有监督方法和无监督方法。有监督方法将社交机器人检测看作一个分类问题,融合账号发布内容的文本特征以及账号行为属性特征(如,账号之间的关联关系和互动情况等),判断该账号是否为社交机器人。Davis等人[7]开发了用于Twitter社交机器人检测系统BotOrNot,该方法基于可用的元数据和交互模式及内容信息生成超过1000种特征,主要分为网络特征、用户特征、朋友特征、时间特征、文本特征、情感特征等六大类,并使用随机森林模型评估账号是社交机器人的概率。Kudugunta和Ferrara[8]采用上下文LSTM模型提取单个推文的文本信息,融合账号元数据辅助向量,判断该推文是否由机器人生成。


16013625715994.png

图3 上下文LSTM的结构[8]


相比之下,无监督方法不需要标注数据就可以进行社交机器人检测,该方法更关注账号之间的相似性,从而进行聚类。Chavoshi等[9]认为真实用户之间不会进行长时间的同步活动,高度同步的账号很可能是机器人,由此提出无监督的机器人检测方法Debot。通过计算账号之间活动的相关性实现机器人检测,该方法能够实时地检测出更多的机器人账号。


基于众包的方法实际上是由人来手动完成这项任务,不属于自动化的检测方法。最常见地,社交媒体提供给用户的“举报”功能可以在一定程度上被看作是众包思想的应用。在研究中,则经常使用该方法获得可靠的标注数据或是作为新方法的对比标准,支持后续研究。


3

社交机器人检测的应用

广义上的社交机器人是在社交媒体上,通过创作、转发、评论等操作与其他用户进行交互的计算机程序。社交机器人的大量运用改变了互联网平台上的信息传播模式,从而产生或好或坏的影响。针对不同目的利用恶意机器人账户发布、传播信息的行为,社交机器人检测有不同的应用。


有效的社交机器人检测方法对发现社交媒体上的信息操纵具有重要作用。在关于某些社会事件的在线讨论,特别是关于政治事件的讨论中,社交机器人能够操纵大众的观点。Yang等[10]提出一种实时的工具“Bot Electioneering Volume (BEV)”,用于可视化政治选举期间机器人生成的内容和相关的目标主题。BEV系统由四部分组成,分别是爬虫、数据库、分析器和前端接口,如图4.


16013626557034.png

图4 BEV系统的结构[10]


      爬虫负责抓取与选举相关的公共推文和随机的公共推文,将这些数据存储在数据库中,并由此评估账号为机器人的得分。分析器提取所需的信息,并为应用程序前端的可视化生成相应的统计信息,即BEV时间线、标签云图、实体列表。其中,BEV值衡量机器人的活动情况,标签云图和实体列表展示机器人发布最多的主题。BEV值定义为选举相关推文的平均机器人得分和随机推文的平均机器人得分的相对差,即:


6.png


而机器人得分涉及到机器人检测,这里使用有监督的机器学习算法Botometer[7]评估账号是机器人的可能性。文中给出了使用BEV系统监测2018美国中期选举期间的统计数据,表明在此事件中Twitter社交机器人具有较高的活跃度。


4

总结

本文首先介绍了社交机器人检测的问题背景,即互联网环境下社交机器人使用的广泛性,及其对在线社交活动产生的不良影响。在文献调研的基础上,本文给出了目前社交机器人检测的主要方法,以及社交机器人检测的具体应用。从技术上来说,社交机器人检测技术的发展同时也为社交机器人的设计提供了新思路,并以此推动社交机器人领域研究的不断发展;而从应用上来说,随着社交网络在人们的互联网生活中扮演越来越重要的角色,我们必须思考如何更好地利用社交机器人来服务于人们的生活,并最大限度地降低恶意社交机器人所带来的危害。



参考文献


[1]  Ferrara E, Varol O, Davis C, et al. The rise of social bots[J]. Communications of the ACM, 2016, 59(7): 96-104.

[2]   Subrahmanian V S, Azaria A, Durst S, et al. The DARPA Twitter bot challenge[J]. Computer, 2016, 49(6): 38-46.

[3]   Howard P N, Kollanyi B, Woolley S. Bots and Automation over Twitter during the US Election[J]. Computational Propaganda Project: Working Paper Series, 2016.

[4]  Ledford H. Social scientists battle bots to glean insights from online chatter[J]. Nature, 2020, 578(7793): 17-17.

[5]   Orabi M, Mouheb D, Al Aghbari Z, et al. Detection of Bots in Social Media: A Systematic Review[J]. Information Processing & Management, 2020, 57(4): 102250.

[6]   Zhao J, Liu X, Yan Q, et al. Multi-Attributed Heterogeneous Graph Convolutional Network for Bot Detection[J]. Information Sciences, 2020.

[7]   Davis C A, Varol O, Ferrara E, et al. Botornot: A system to evaluate social bots[C]//Proceedings of the 25th international conference companion on world wide web. 2016: 273-274.

[8]   Kudugunta S, Ferrara E. Deep neural networks for bot detection[J]. Information Sciences, 2018, 467: 312-322.

[9]   Chavoshi N, Hamooni H, Mueen A. DeBot: Twitter Bot Detection via Warped Correlation[C]//2016 IEEE 16th International Conference on Data Mining (ICDM). IEEE, 2016: 817-822.

[10]Yang K C, Hui P M, Menczer F. Bot electioneering volume: Visualizing social bot activity during elections[C]//Companion Proceedings of The 2019 World Wide Web Conference. 2019: 214-217.


IPO
系列

IPO产品系列

企业
出海

企业出海系列产品

关注中科智库公众号
即享最新权威资讯洞察

下载智看APP
开启舆情咨询
商业洞察专业服务

下载智看APP
开启舆情咨询
商业洞察专业服务

在线留言

请留下您的信息,我们会第一时间与您联系

所有提交信息,我们将严格为您保密

您已阅读并同意用户授权协议