一种基于博文相似性的社交机器人检测系统及方法技术方案

技术编号:20589145 阅读:38 留言:0更新日期:2019-03-16 07:14
本发明专利技术提出一种基于博文相似性的社交机器人检测系统及方法,属于机器学习和社交网络技术领域。包括:离线数据库、特征提取模块、社交机器人检测模型训练模块、社交账号信息数据收集模块、社交机器人检测模块和检测结果输出模块。对离线数据集中账号使用语言是英语的每条账号数据进行元数据特征提取;对经过处理后的每条账号数据,账号的博文数量大于K条的对博文内容进行特征提取;将前述获取的元数据特征和博文内容提取的特征采用不同机器学习算法进行模型训练,选出最优检测模型作为最终的社交机器人检测模型。本发明专利技术通过提取包括博文相似性在内的多维特征,采用机器学习算法建立模型,从而达到检测社交网络中的账号是否为社交机器人的目的。

【技术实现步骤摘要】
一种基于博文相似性的社交机器人检测系统及方法
本专利技术涉及一种基于博文相似性的社交机器人检测系统及方法,属于机器学习和社交网络

技术介绍
随着互联网的飞速发展,社交网络已经成为绝大多数人们生活中不可或缺的一部分,为人们的生活和交际提供了许多便利。但随着人工智能的逐渐发展,在社交网络中也出现了许多并非真人控制的账号,这些模仿人类行为活跃在社交网络上的账号,被称之为社交机器人。据报道,Facebook认为其用户大约有8300万为虚假使用者;而在推特中,奥巴马的1782万关注者中,有29.9%的人为虚假账户;同样的米特·罗姆尼(MittRomney)的814000名关注者中,也有21.9%的用户可能是社交机器人(参考文献[1])。这些社交机器人在政治活动中可以用于摇摆选民,发动政治攻击,操纵公众舆论等,还有一些社交机器人被用于在社交网络中进行市场营销,例如发布广告,制造流行趋势等。这些行为,对社交网络内容的真实性造成了一定的影响。但更需要重视的是,除此之外,社交机器人还带来各种各样的安全风险,其中之一就是通过与社交网络用户建立联系,从而获得网络用户个人详细信息如生日、电子邮件、电话号码、地址等,在获取了这些信息后,社交机器人背后的操作者可以利用网络用户个人信息及建立的信任关系,对目标进行社会工程学攻击(参考文献[2])。目前国内外对社交机器人检测技术进行了大量的研究工作。从检测方法上可以分为:1.基于蜜罐系统的社交机器人检测(参考文献[3]):这种方法通过设置账号并发布正常用户不会关注的无意义内容来吸引社交机器人的关注。2.基于特征阈值的社交机器人检测(参考文献[4]):通过观察社交机器人的行为,提取特征,通过大量实验得到特征阈值,需要判断的账号与阈值比较后得到结果。3.基于机器学习的社交机器人检测(参考文献[5]):通过提取特征,进行机器学习,得到训练好的模型,将需要判断的账号输入模型即可得到预测结果。其中,基于机器学习的社交机器人检测方法得到了普遍的应用。但是随着技术的不断发展,机器人账号更加智能,原有的特征已不能很好的反应目前的趋势。并且,已有的方法多着重账号的配置文件以及账号的行为习惯,并未对发布的内容风格进行研究,因此对于可以模仿正常用户的配置文件及行为习惯的社交机器人检测效果不佳,需要提出新的特征。社交机器人是人工智能飞速发展的产物之一,相比于传统的垃圾账号,社交机器人更加智能。它们可以捕捉热门话题,发布相关信息从而获取更多正常用户的关注。社交机器人还可以在某一领域成为具有影响力的用户,影响公众意见。其次,有不法分子利用社交机器人对用户进行社会工程学攻击。由于社交网络中用户个人信息较为容易获取,所以社交机器人可以通过与用户建立起信任关系,进而对用户进行社会工程学攻击,在社交网络中具有威胁性。现有的社交机器人检测,对新型智能机器人的检测表现一般,需要针对当前社交机器人特点,发现新的特征及方法建立模型来进行检测。参考文献如下:1、Shafahi,M.,Kempers,L.,Afsarmanesh,H.:Phishingthroughsocialbotsontwitter.In:IEEEInternationalConferenceonBigData.pp.3703{3712(2017).2、Hill,K.:Theinvasionofthetwitterbots.http://www.forbes.com/sites/kashmirhill/2012/08/09/the-invasion-of-the-Twitter-bots/(2012).3、Lee,K.,Eoff,B.D.,Caverlee,J.:Sevenmonthswiththedevils:Along-termstudyofcontentpollutersontwitter.In:InternationalConferenceonWeblogsandSocialMedia,Barcelona,Catalonia,Spain,July(2011).4、Varol,O.,Ferrara,E.,Davis,C.A.,Menczer,F.,Flammini,A.:Onlinehuman-botinteractions:Detection,estimation,andcharacterization.THE11THINTERNATIONALAAAICONFERENCEONWEBANDSOCIALMEDIA(2017).5、Subrahmanian,V.S.,Menczer,F.,Azaria,A.,Durst,S.,Kagan,V.,Galstyan,A.,Lerman,K.,Zhu,L.,Ferrara,E.,Flammini,A.:Thedarpatwitterbotchallenge.Computer49(6),38{46(2016).
技术实现思路
本专利技术针对于现有社交机器人检测对新型智能机器人的检测表现一般,不能很好针对当前社交机器人的特点进行检测的问题,提出一种基于博文相似性的社交机器人检测系统及方法,将博文相似性特征定义为内容相似性,标点符号使用相似性,博文长度相似性及停用词相似性四个方面,并采用潜在语义相似性模型(潜在语义分析,LSA,latentsemanticanalysis)来计算博文内容相似性。本专利技术通过提取包括博文相似性在内的多维特征,采用机器学习算法建立模型,从而达到检测社交网络中的账号是否为社交机器人的目的。本专利技术提出一种基于博文相似性的社交机器人检测系统,包括离线数据库、特征提取模块、社交机器人检测模型训练模块、社交账号信息数据收集模块、社交机器人检测模块和检测结果输出模块。离线数据库存储带标签的离线数据集,离线数据集包含社交机器人账号以及正常用户账号的数据,标签用于标记账号是否为社交机器人。特征提取模块用于对输入的账号数据进行特征提取,对符合要求1和2的账号数据进行特征提取;要求1是账号使用语言是英语,要求2是账号的原创博文数量大于K条,K为大于等于2的正整数;特征提取模块所提取的特征包括元数据特征和博文内容特征;其中元数据特征包括用户关注数和用户粉丝数的比例、用户点赞数、发布博文的客户端、博文发布的时间间隔和转发博文占总博文的比重;博文内容特征包括账号行为特征和博文相似性特征,其中,账号行为特征包括:平均每条博文的提及人数、平均每条博文的带话题数、以及平均每条博文含URL链接数;博文相似性特征包括:内容相似性、标点符号相似性、博文长度相似性和停用词使用相似性。社交机器人检测模型训练模块利用特征提取模块进行特征提取后的带标签的离线数据,采用多种机器学习算法进行模型训练,并通过测试数据获得最优检测模型,将该最优检测模型输入社交机器人检测模块。社交账号信息数据收集模块用于利用网络爬虫技术从社交网络中爬去待检测的账号数据;在社交机器人检测过程中,社交账号信息数据收集模块将爬取的待检测的账号数据输入特征提取模块。本专利技术的基于博文相似性的社交机器人检测方法,通过爬虫技术获取社交网络上的账号数据,生成一个带标签的离线数据集,标签用于标记账号是否为社交机器人,所述方法包括如下步骤:步骤10,对所述的离线数据集中账本文档来自技高网
...

【技术保护点】
1.一种基于博文相似性的社交机器人检测系统,包括:离线数据库、特征提取模块、社交机器人检测模型训练模块、社交账号信息数据收集模块、社交机器人检测模块和检测结果输出模块;离线数据库存储带标签的离线数据集,离线数据集包含社交机器人账号以及正常用户账号的数据,标签用于标记账号是否为社交机器人;特征提取模块用于对输入的账号数据进行特征提取,对符合要求1和2的账号数据进行特征提取;要求1是账号使用语言是英语,要求2是账号的博文数量大于K条,K为大于等于2的正整数;特征提取模块所提取的特征包括元数据特征和博文内容特征;其中元数据特征包括用户关注数和用户粉丝数的比例、用户点赞数、发布博文的客户端、博文发布的时间间隔和转发博文占总博文的比重;博文内容特征包括账号行为特征和博文相似性特征,其中,账号行为特征包括:平均每条博文的提及人数、平均每条博文的带话题数、以及平均每条博文含URL链接数;博文相似性特征包括:内容相似性、标点符号相似性、博文长度相似性和停用词使用相似性;社交机器人检测模型训练模块利用特征提取模块进行特征提取后的带标签的离线数据,采用多种机器学习算法进行模型训练,并通过测试数据获得最优检测模型,将该最优检测模型输入社交机器人检测模块;社交账号信息数据收集模块用于利用网络爬虫技术从社交网络中爬去待检测的账号数据;社交账号信息数据收集模块将爬取的待检测的账号数据输入特征提取模块;社交机器人检测模块中存储最优检测模型;待检测的账号数据经过特征提取模块提取特征后输入社交机器人检测模块,通过最优检测模型进行账号检测,检测结果输出给检测结果输出模块;检测结果输出模块将预测的账号结果反馈到用户,若模型判定为社交机器人则发出警告提醒。...

【技术特征摘要】
1.一种基于博文相似性的社交机器人检测系统,包括:离线数据库、特征提取模块、社交机器人检测模型训练模块、社交账号信息数据收集模块、社交机器人检测模块和检测结果输出模块;离线数据库存储带标签的离线数据集,离线数据集包含社交机器人账号以及正常用户账号的数据,标签用于标记账号是否为社交机器人;特征提取模块用于对输入的账号数据进行特征提取,对符合要求1和2的账号数据进行特征提取;要求1是账号使用语言是英语,要求2是账号的博文数量大于K条,K为大于等于2的正整数;特征提取模块所提取的特征包括元数据特征和博文内容特征;其中元数据特征包括用户关注数和用户粉丝数的比例、用户点赞数、发布博文的客户端、博文发布的时间间隔和转发博文占总博文的比重;博文内容特征包括账号行为特征和博文相似性特征,其中,账号行为特征包括:平均每条博文的提及人数、平均每条博文的带话题数、以及平均每条博文含URL链接数;博文相似性特征包括:内容相似性、标点符号相似性、博文长度相似性和停用词使用相似性;社交机器人检测模型训练模块利用特征提取模块进行特征提取后的带标签的离线数据,采用多种机器学习算法进行模型训练,并通过测试数据获得最优检测模型,将该最优检测模型输入社交机器人检测模块;社交账号信息数据收集模块用于利用网络爬虫技术从社交网络中爬去待检测的账号数据;社交账号信息数据收集模块将爬取的待检测的账号数据输入特征提取模块;社交机器人检测模块中存储最优检测模型;待检测的账号数据经过特征提取模块提取特征后输入社交机器人检测模块,通过最优检测模型进行账号检测,检测结果输出给检测结果输出模块;检测结果输出模块将预测的账号结果反馈到用户,若模型判定为社交机器人则发出警告提醒。2.一种基于博文相似性的社交...

【专利技术属性】
技术研发人员:伍淳华郑康锋武斌王雅晗
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1