融合用户行为和文本信息的社交机器人检测方法和系统技术方案

技术编号:19342085 阅读:27 留言:0更新日期:2018-11-07 13:52
本发明专利技术属于计算机技术领域,具体提供了一种融合用户行为和文本信息的社交机器人检测方法和系统。旨在解决现有技术手动选取特征、忽略社交媒体帖子之间的逻辑性和时序性以及忽略社交平台用户行为信息的问题,本发明专利技术的社交机器人的检测方法包括获取待检测社交媒体用户的历史网络数据和好友网络数据;基于上述数据得到用户文本特征向量、行为特征向量以及好友网络特征向量,并将其融合,得到待检测社交媒体用户的用户特征向量;对用户特征向量进行检测,输出检测结果。本发明专利技术的方法更加符合社交媒体自身的特性,从多个维度分析待检测社交媒体用户,提升了检测准确率。本发明专利技术的系统同样具有上述有益效果。

Social robot detection method and system integrating user behavior and text information

The invention belongs to the field of computer technology, and specifically provides a detection method and system of social robot integrating user behavior and text information. In order to solve the problems of manual feature selection, ignoring the logicality and timing between social media posts, and ignoring the behavior information of social platform users, the detection method of the social robot of the present invention includes acquiring the historical network data and friend network data of the social media users to be detected; and based on the above data, the detection method of the social robot of the present invention includes acquiring the historical network data and friend network data of the social media users to be detected The user text feature vectors, behavior feature vectors and friend network feature vectors are obtained and fused to get the user feature vectors of the social media users to be detected. The user feature vectors are detected and the results are output. The method of the invention is more in line with the characteristics of the social media itself, and can analyze the users of the social media to be detected from multiple dimensions, thereby improving the detection accuracy. The system of the invention has the same beneficial effect as above.

【技术实现步骤摘要】
融合用户行为和文本信息的社交机器人检测方法和系统
本专利技术属于计算机
,具体涉及一种融合用户行为和文本信息的社交机器人检测方法和系统。
技术介绍
随着互联网技术与社交媒体平台的高速发展,国内外各大主流社交媒体平台中存在着大量的社交机器人,这些社交机器人制造并发布虚假消息,传播谣言,制造网络陷阱,影响甚至操控舆论发展趋势,这些行为严重干扰了网民的正常生活,威胁社交媒体用户的隐私安全,更有甚者会对社会造成不好的影响,因此,如何准确地检测社交媒体平台中的机器人,预防社交机器人带来的负面影响,具有十分重要的实用价值。早期的社交机器人识别主要依赖于特定的人工策略,以社交机器人通过广泛交友来提高自身影响力为出发点,随机制造大量的检测种子账号,这些账号没有实际的行为,也不会发表有意义的内容,因此人类用户不会与其建立友好关系,最后通过一系列的规则从与种子账号建立友好关系的账号中检测社交机器人,但是该方法原始简单,需要耗费较多的人力和时间,因此无法很好地应用在实践中;接着基于网络结构分析的社交机器人的分析方法被提出,该方法通过假设垃圾账号只会与少数真实用户连接,其余的大部分均为垃圾账号,通过该特点来识别密集连接的垃圾账号;针对社交媒体的文本信息,基于语言特征的相关方法被提出,该方法通过分析特定的词汇与标点符号,统计分析发布文本信息的平均长度,统计文本中URL(UniformResoureLocator,统一资源定位符)的平均长度等。现有技术的社交机器人检测方法主要存在以下问题:1、基于现有的统计方法和机器学习方法,需要手动选取特征,耗费大量的人力成本;2、现有的社交机器人检测方法将用户发布的内容作为纯文本信息看待,忽视了社交媒体帖子之间的逻辑性和时序性;3、现有技术的方法往往忽略了社交平台中用户的行为信息,或者只采用简单的统计方法分析,无法有效地分析利用社交平台中的用户行为信息。因此,如何提出一种解决上述问题的方案是本领域技术人员目前需要解决的问题。
技术实现思路
为了解决现有技术中的上述问题,本专利技术提供了一种融合用户行为和文本信息的社交机器人检测方法,包括:获取待检测社交媒体用户的历史网络数据和好友网络数据;基于预先构建的第一向量转化模型将所述历史网络数据转化为用户文本特征向量;基于预先构建的第二向量转化模型将所述历史网络数据转化为行为特征向量;基于预先构建的第三向量转化模型将所述好友网络数据转化为好友网络特征向量;将所述用户文本特征向量、行为特征向量以及好友网络特征向量进行融合,得到所述待检测社交媒体用户的用户特征向量;基于预先构建的分类检测模型对所述用户特征向量进行检测,输出检测结果;其中,所述第一向量转化模型、第二向量转化模型、第三向量转化模型以及分类检测模型均是基于预设的训练集,并利用深度神经网络构建的模型。在上述方法的优选技术方案中,所述历史网络数据包括文本数据,“将所述历史网络数据转化为用户文本特征向量”的步骤包括:基于词向量模型将所述文本数据映射为文本矩阵序列;利用卷积神经网络将所述文本矩阵序列编码为文本特征向量序列;利用循环神经网络将所述文本特征向量序列编码为用户文本特征向量。在上述方法的优选技术方案中,“利用卷积神经网络将所述文本矩阵序列编码为文本特征向量序列”的步骤包括:利用所述卷积神经网络的卷积层对所述文本矩阵序列进行卷积操作,得到特征映射矩阵,其方法如下公式所示:clk=(S*Fl)k=∑mω(S[:,k-m+1:k]⊙Fl)mω其中,S表示所述文本矩阵序列,Fl表示过滤器,*表示卷积运算,m表示过滤器的宽度,S[:,k-m+1:k]表示一个m维的矩阵切片,ω表示文本数据的长度,k表示中间变量;利用所述卷积神经网络的池化层对所述特征映射矩阵进行池化操作,得到文本特征向量序列。在上述方法的优选技术方案中,“利用循环神经网络将所述文本特征向量序列编码为用户文本特征向量”的步骤如下公式所示:it=σ(Wi[ht-1,twtt]+bi)ft=σ(Wf[ht-1,twtt]+bf)qt=tanh(Wc[ht-1,twtt]+bc)ot=σ(Wo[ht-1,twtt]+bo)ct=ft⊙ct-1+it⊙qtht=ot⊙tanh(ct)其中,it表示输入门,ft表示遗忘门,qt表示t时刻输入的文本数据的候选向量,ct表示所述循环神经网络t时刻的细胞状态,ot表示输出门,ht表示t时刻的隐含状态,即输出信息,Wi,Wf,Wc,Wo,bi,bf,bc,bo均为所述循环神经网络的学习参数,σ(·)表示sigmoid函数,tanh(·)表示双曲正切函数,twtt表示所述文本特征向量。在上述方法的优选技术方案中,所述历史网络数据包括行为数据,“将所述历史网络数据转化为行为特征向量”的步骤包括:构建内在因素行为建模组件和外在因素行为建模组件;基于所述内在因素行为建模组件将所述行为数据编码为内在行为向量;基于所述外在因素行为建模组件将所述内在行为向量编码为外在行为向量;通过循环神经网络将所述外在行为向量编码为行为特征向量,其中,所述行为特征向量包括原创行为特征向量和转发行为特征向量。在上述方法的优选技术方案中,“将所述好友网络数据转化为好友网络特征向量”的步骤包括:利用随机游走算法生成所述好友网络数据所对应的随机游走序列;使用Skip-Gram算法将所述随机游走序列编码为好友网络特征向量。在上述方法的优选技术方案中,“将所述用户文本特征向量、行为特征向量以及好友网络特征向量进行融合”的步骤包括:将所述用户文本特征向量、行为特征向量以及好友网络特征向量进行串联拼接,其方法如下公式所示:Uu=[UCu,Pru,Rru,ctu]其中,UCu表示所述文本特征向量,Pru表示所述原创行为特征向量,Rru表示所述转发行为特征向量,ctu表示所述好友网络特征向量。在上述方法的优选技术方案中,“将所述用户文本特征向量、行为特征向量以及好友网络特征向量进行融合”的步骤包括:基于预设的权重矩阵将所述用户文本特征向量、行为特征向量以及好友网络特征向量进行融合,其方法如下公式所示:Uu=B+(Pru+V·Rru)+Wc·UCu+Wn·ctu其中,B表示整体偏差,V表示用于平衡原创行为特征向量与转发行为特征向量之间的权重,Wc表示所述文本特征向量的权重,Wn表示所述好友网络特征向量的权重。在上述方法的优选技术方案中,“基于预先构建的分类检测模型对所述用户文本特征向量进行检测”的方法如下公式所示:其中,H和h表示所述分类检测模型的权重矩阵和偏差,Uu表示所述用户特征向量,σ(·)表示sigmoid函数,表示检测结果。本专利技术的第二方面还提供了一种融合用户行为和文本信息的社交机器人检测系统,包括:获取模块,所述获取模块配置为获取待检测社交媒体用户的历史网络数据和好友网络数据;第一向量转化模块,所述第一向量转化模块配置为将所述历史网络数据转化为用户文本特征向量;第二向量转化模块,所述第二向量转化模块配置为将所述历史网络数据转化为行为特征向量;第三向量转化模块,所述第三向量转化模块配置为将所述好友网络数据转化为好友网络特征向量;融合模块,所述融合模块配置为将所述用户文本特征向量、行为特征向量以及好友网络特征向量进行融合,得到所述待检测社交媒体本文档来自技高网
...

【技术保护点】
1.一种融合用户行为和文本信息的社交机器人检测方法,其特征在于包括:获取待检测社交媒体用户的历史网络数据和好友网络数据;基于预先构建的第一向量转化模型将所述历史网络数据转化为用户文本特征向量;基于预先构建的第二向量转化模型将所述历史网络数据转化为行为特征向量;基于预先构建的第三向量转化模型将所述好友网络数据转化为好友网络特征向量;将所述用户文本特征向量、行为特征向量以及好友网络特征向量进行融合,得到所述待检测社交媒体用户的用户特征向量;基于预先构建的分类检测模型对所述用户特征向量进行检测,输出检测结果;其中,所述第一向量转化模型、第二向量转化模型、第三向量转化模型以及分类检测模型均是基于预设的训练集,并利用深度神经网络构建的模型。

【技术特征摘要】
1.一种融合用户行为和文本信息的社交机器人检测方法,其特征在于包括:获取待检测社交媒体用户的历史网络数据和好友网络数据;基于预先构建的第一向量转化模型将所述历史网络数据转化为用户文本特征向量;基于预先构建的第二向量转化模型将所述历史网络数据转化为行为特征向量;基于预先构建的第三向量转化模型将所述好友网络数据转化为好友网络特征向量;将所述用户文本特征向量、行为特征向量以及好友网络特征向量进行融合,得到所述待检测社交媒体用户的用户特征向量;基于预先构建的分类检测模型对所述用户特征向量进行检测,输出检测结果;其中,所述第一向量转化模型、第二向量转化模型、第三向量转化模型以及分类检测模型均是基于预设的训练集,并利用深度神经网络构建的模型。2.根据权利要求1所述的融合用户行为和文本信息的社交机器人检测方法,其特征在于,所述历史网络数据包括文本数据,“将所述历史网络数据转化为用户文本特征向量”的步骤包括:基于词向量模型将所述文本数据映射为文本矩阵序列;利用卷积神经网络将所述文本矩阵序列编码为文本特征向量序列;利用循环神经网络将所述文本特征向量序列编码为用户文本特征向量。3.根据权利要求2所述的融合用户行为和文本信息的社交机器人检测方法,其特征在于,“利用卷积神经网络将所述文本矩阵序列编码为文本特征向量序列”的步骤包括:利用所述卷积神经网络,并按照下式所示的方法对所述文本矩阵序列进行卷积操作,得到特征映射矩阵:其中,S表示所述文本矩阵序列,Fl表示过滤器,*表示卷积运算,m表示过滤器的宽度,S[:,k-m+1:k]表示一个m维的矩阵切片,ω表示文本数据的长度,k表示中间变量;利用所述卷积神经网络的池化层对所述特征映射矩阵进行池化操作,得到文本特征向量序列。4.根据权利要求2-3中任一项所述的融合用户行为和文本信息的社交机器人检测方法,其特征在于,“利用循环神经网络将所述文本特征向量序列编码为用户文本特征向量”的步骤包括:按照下式所示的方法,获取用户文本特征向量:it=σ(Wi[ht-1,twtt]+bi)ft=σ(Wf[ht-1,twtt]+bf)qt=tanh(Wc[ht-1,twtt]+bc)ot=σ(Wo[ht-1,twtt]+bo)ct=ft⊙ct-1+it⊙qtht=ot⊙tanh(ct)其中,it表示输入门,ft表示遗忘门,qt表示t时刻输入的文本数据的候选向量,ct表示所述循环神经网络t时刻的细胞状态,ot表示输出门,ht表示t时刻的隐含状态,即输出信息,Wi,Wf,Wc,Wo,bi,bf,bc,bo均为所述循环神经网络的学习参数,σ(·)表示sigmoid函数,tanh(·)表示双曲正切函数,twtt表示所述文本特征向量。5.根据权利要求1所述的融合用户行为和文本信息的社交机器人检测方法,其特征在于,所述历史网络数据包括行为数据,“将所述历史网络数据转化为行为特征向量”的步骤包括:构建内在因素行为建模组件和外在因素行为建模组件;基于所述内在因素行为建模组件将所述行为数据编码为内在行为向量;基于所述外在因素行为建模组件将所述内在行为向量编码为外在行为向量;通过循环神经网络将所述外在行为向量编码为行为特征向量,其中,所述行为特征向量包括原创行为特征向量和转发行为特征向量。6.根据权利要求5所述的融合用户行为和文本信息的社交机器人检测方法,其特征在于,“将所述好友网络数据转化为好友网络特征向量”的步骤包括:利用随机游走算法生成所述好友网络数据所对应的随机游走序列;使用Skip-Gram算法将所述随机游走序列编码为好友网络特征向量。7.根据权利要求6所述的融合用户行为和文本信息的社交机器人检测方法,其特征在于,“将所述用户文本特征向量、行为特征向量以及好友网络特征向量进行融合”的步骤包括:按照下式所示的方法,将所述用户文本特征向量、行为特征向量以及好友网络特征向量进行串联拼接:Uu=[UCu,Pru,Rru,ctu]其中,UCu表示所述用户文本特征向量,Pru表示原创行为特征向量,Rru表示转发行为特征向量,ctu表示所述好友网络特征向量。8.根据权利要求7所述的融合用户行为和文本信息的社交机器人检测方法,其特征在于,“将所述用户文本特征向量、行为特征向量以及好友网络特征向量进行融合”的步骤进一步包括:按照下式所示的方法,基于预设的权重矩阵将所述用户文本特征向量、行为特征向量以及好友网络特征向量进行融合:Uu=B+(Pru+V·Rru)+Wc·UCu+Wn·ctu其中,B表示整体偏差,V表示用于平衡原创行为向量与转发行为向量之间的权重,Wc表示所述用户文本特征向量的权重,Wn表示所述好友网络特征向量的权重。9.根据权利要求8所述的融合用户行为和文本信息的社交机器人检测方法,其特征在于,“基于预先构建的分类检测模型对所述用户特征向量进行检测”的步骤包括:按照下式所示的方法,并基于预先构建的分类检测模型对所述用户特征向量进行检测:其中,H和h表示所述分类检测模型的权重矩阵和偏差,Uu表示所述用户特征向量,σ(·)表示sigmoid函数,表示检测结果。10.一种融合用户行为和文...

【专利技术属性】
技术研发人员:刘春阳张旭蔡驰宇曾大军李雄李林静王萌彭鑫王慧
申请(专利权)人:中国科学院自动化研究所国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1