一种面向社交网的网络传销团体检测方法和系统技术方案

技术编号:38419599 阅读:11 留言:0更新日期:2023-08-07 11:21
本发明专利技术公开一种面向社交网的网络传销团体检测方法,属于计算机技术、社区发现及复杂网络分析技术领域;该方法包括:获取社交网络中各个用户节点的节点特征信息;将用户节点的节点特征信息与传销文本特征库中的传销特征信息进行匹配,得到可疑用户节点;对可疑用户节点进行中心度测量,得到种子节点;根据种子节点和预设的网络节点扩展规则,得到结果社区集合;对结果社区集合进行对比和合并,得到可能网络传销团体。本发明专利技术还公开一种面向社交网的网络传销团体检测系统。本发明专利技术能深度结合传销团体和传销事件在社交网中的特点,保证了传销团体检测算法的准确性、有利于提高传销团体检测的完整性、在传销团体检测的效率和准确率上都有了进一步的提高。上都有了进一步的提高。上都有了进一步的提高。

【技术实现步骤摘要】
一种面向社交网的网络传销团体检测方法和系统


[0001]本专利技术涉及计算机技术、社区发现及复杂网络分析
,具体是涉及一种面向社交网的网络传销团体检测方法和系统。

技术介绍

[0002]随着互联网信息技术的快速发展,社交网络用户的数量迅速增加。社交网络中的每个用户都是信息的源头,他们是信息的制造者和接收者,充分地发挥了用户的主观能动性,丰富了社交网络中的内容。再加上智能手机、平板电脑、可穿戴设备和智能家居等硬件技术的发展,为用户提供了更多的获取多媒体信息的设备,而5G技术、Wi

Fi 6技术、人工智能、大数据、分布式计算和云存储等技术的出现,将社交网络的发展推向了更高的层次。伴随着社交网络的发展,各种网络服务也相继出现,给人们的生活带来了巨大的改变。与此同时,人与人之间的联系也越来越紧密,基于相同兴趣爱好、地理位置、所属团体等因素,在社交网络中形成了各种各样的群体,以社交网为基础进行着网络群体活动,人们通过这些群体活动能够更大程度的进行信息交流和获取。
[0003]虽然社交网络给人们的生活带来了便利,但同样也带来了一些负面影响。当前社交网络中存在着一些特殊的群体,例如网络传销群体等,这些群体基于特定的原因聚集在一个网络空间内,为了谋取利益或者实现特定的目的,利用网络进行恶意有害的行为。为了避免这些负面影响,需要对这些社交网络中的网络传销团体进行严格管理和控制,而管理和控制的基础便是对网络传销团体进行准确有效的检测发现和识别。

技术实现思路

[0004]本专利技术的目的在于提供一种面向社交网的网络传销团体检测方法及系统,
[0005]为解决上述技术问题,本专利技术提供一种面向社交网的网络传销团体检测方法,包括以下步骤:
[0006]获取社交网络中各个用户节点的节点特征信息;
[0007]将用户节点的节点特征信息与传销文本特征库中的传销特征信息进行匹配,得到可疑用户节点;
[0008]对可疑用户节点进行中心度测量,得到种子节点;
[0009]根据种子节点和预设的网络节点扩展规则,得到结果社区集合;
[0010]对结果社区集合进行对比和合并,得到可能网络传销团体。
[0011]优选地,所述节点特征信息和传销特征信息均包括文本信息和属性信息;将用户节点的节点特征信息与传销文本特征库中的传销特征信息进行匹配,得到可疑用户节点,具体包括以下步骤:
[0012]对节点特征信息和传销特征信息中的文本信息进行预处理,得到语言集合;
[0013]根据词向量算法TF

IDF对语言集合进行向量化处理,得到文本词向量;
[0014]将文本词向量转化为单位向量,得到规范化向量;
[0015]计算节点特征信息的规范化向量与传销特征文本库的规范化向量的余弦相似度,得到文本相似度;
[0016]对节点特征信息和传销特征信息中的属性信息进行相似性计算,得到社交属性相似度;
[0017]根据文本相似度和社交属性相似度,判断相应的用户节点是否为可疑用户节点。
[0018]优选地,所述文本词向量表示为:
[0019]tfidf(w)=tf(w)
×
idf(w)
[0020][0021][0022]其中,tfidf(w)表示文本词向量;tf(w)表示的是某一个给定的词语w在该文件中出现的频率,idf(w)表示的是对一个词语w普遍重要性的度量,n(w)表示词语w在该文本中共出现的次数,N表示该文本中的词语总数,Doc
N
表示该文本中的文章总数量,Doc
w
表示有词语w出现过的文章数量;
[0023]所述规范化向量表示为:
[0024][0025]其中:tfidf(w)
*
表示规范化向量;
[0026]所述余弦相似度表示为:
[0027][0028]其中,A和B分别是经过规范化之后的传销相关文本向量和传销特征文本库的文本向量;
[0029]所述社交网络中的用户节点Oi和预设的传销节点Oj的社交属性相似度表示为:
[0030][0031]其中,sim(Oit,Ojt)表示用户节点Oi和传销节点Oj对于属性t的相似度,当两个节点的属性t相同,则相似度为1,否则相似度为0,Pt表示对属性t设置的相应权重,且权重集合P=(P1,P2,P3,...,Pn)需要满足P1+P2+P3+...+Pn=1。
[0032]优选地,对可疑用户节点进行中心度测量,得到种子节点,具体包括以下步骤:
[0033]将可疑用户节点集合链接成小规模社区,对小规模社区的可疑用户节点完成综合中心度表示,根据综合中心度结果确定种子节点。
[0034]优选地,根据综合中心度结果确定种子节点,具体包括以下步骤:
[0035]将小规模社区中大于所有邻居节点综合中心度的可疑用户节点作为种子节点。
[0036]优选地,所述综合中心度包括连接中心度、紧密中心度、中介中心度和特征向量中心度;
[0037]节点v的连接中心度表示为:
[0038][0039]其中,deg(v)表示与节点v直接连接的边数,n表示节点的总数;
[0040]节点v的紧密中心度表示为:
[0041][0042]其中,dG(v,t)表示节点v到节点t的最短距离,节点t是社交网中除了v之外的所有节点;
[0043]节点v的中介中心度表示为:
[0044][0045]其中,βst表示节点s与节点t之间的最短路径的数量,βst(v)表示节点s与节点t之间经过节点v的最短路径数量,这里的节点s和节点t是除了节点v之外的所有节点中的任意两个节点;
[0046]节点v的特征向量中心度表示为:
[0047]M(x1,x2,...,x
v
,...,x
n
)=λ(x1,x2,...,x
v
,...,x
n
)
[0048]C
e
(v)=x
v
[0049]其中M表示社区的邻接矩阵,向量x=(x1,x2...xv,...xn)就是特征向量,对于节点v而言,其特征向量中心度即为xv的值;
[0050]节点v的综合中心度表示为:
[0051]C
a
(v)=a1C
d
+a2C
c
+a3C
b
+a4C
e
[0052]其中,Ca(v)表示节点v的综合中心度,a1,a2,a3,a4分别是节点的连接中心度、紧密中心度、中介中心度和特征向量中心度的权重。
[0053]优选地,所述网络节点扩展规则包括以下步骤:
[0054]初始化局部团体G和邻居节点集合S,初始化后的团体G中仅包含一个种子节点,初始化后的集合S中包含了团体G中每个节点的所有邻居节点;
[0055]将属于集合S本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向社交网的网络传销团体检测方法,其特征在于,包括以下步骤:获取社交网络中各个用户节点的节点特征信息;将用户节点的节点特征信息与传销文本特征库中的传销特征信息进行匹配,得到可疑用户节点;对可疑用户节点进行中心度测量,得到种子节点;根据种子节点和网络节点扩展规则,得到结果社区集合;对结果社区集合进行对比和合并,得到可能网络传销团体。2.根据权利要求1所述的面向社交网的网络传销团体检测方法,其特征在于:所述节点特征信息和传销特征信息均包括文本信息和属性信息;将用户节点的节点特征信息与传销文本特征库中的传销特征信息进行匹配,得到可疑用户节点,具体包括以下步骤:对节点特征信息和传销特征信息中的文本信息进行预处理,得到语言集合;根据词向量算法TF

IDF对语言集合进行向量化处理,得到文本词向量;将文本词向量转化为单位向量,得到规范化向量;计算节点特征信息的规范化向量与传销特征文本库的规范化向量的余弦相似度,得到文本相似度;对节点特征信息和传销特征信息中的属性信息进行相似性计算,得到社交属性相似度;根据文本相似度和社交属性相似度,判断相应的用户节点是否为可疑用户节点。3.根据权利要求2所述的面向社交网的网络传销团体检测方法,其特征在于:所述文本词向量表示为:tfidf(w)=tf(w)
×
idf(w)idf(w)其中,tfidf(w)表示文本词向量;tf(w)表示的是某一个给定的词语w在该文件中出现的频率,idf(w)表示的是对一个词语w普遍重要性的度量,n(w)表示词语w在该文本中共出现的次数,N表示该文本中的词语总数,DocN表示该文本中的文章总数量,Docw表示有词语w出现过的文章数量;所述规范化向量表示为:其中:tfidf(w)
*
表示规范化向量;所述余弦相似度表示为:
其中,A和B分别是经过规范化之后的传销相关文本向量和传销特征文本库的文本向量;所述社交网络中的用户节点Oi和预设的传销节点Oj的社交属性相似度表示为:其中,sim(Oit,Ojt)表示用户节点Oi和传销节点Oj对于属性t的相似度,当两个节点的属性t相同,则相似度为1,否则相似度为0;Pt表示对属性t设置的相应权重,且权重集合P=(P1,P2,P3,...,Pn)需要满足P1+P2+P3+...+Pn=1。4.根据权利要求1所述的面向社交网的网络传销团体检测方法,其特征在于,对可疑用户节点进行中心度测量,得到种子节点,具体包括以下步骤:将可疑用户节点集合链接成小规模社区,对小规模社区的可疑用户节点完成综合中心度表示,根据综合中心度结果确定种子节点。5.根据权利要求4所述的面向社交网的网络传销团体检测方法,其特征在于,根据综合中心度结果确定种子节点,具体包括以下步骤:将小规模社区中大于所有邻居节点综合中心度的可疑用户节点作为种子节点。6.根据权利要求5所述的面向社交网的网络传销团体检测方法,其特征在于:所述综合中心度包括连接中心度、紧密中心度、中介中心度和特征向量中心度;节点v的连接中心度表示为:其中,deg(v)表示与节点v直接连接的边数,n表示节点的总数;节点v的紧密中心度表示为:其中,dG(v,t)表示节点v到节点t的最短距离,节点t是社交网中除了v之外的所有节点;节点v的中介中心度表示为:其...

【专利技术属性】
技术研发人员:何泾沙吴秉权朱娜斐
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1