当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于网络映射的社交网络中异常用户检测方法技术

技术编号:17544223 阅读:40 留言:0更新日期:2018-03-25 00:19
本发明专利技术涉及一种基于网络映射的社交网络中异常用户检测方法,包括以下步骤:S1、利用网络爬虫技术爬取社交网络平台的用户数据;S2、对爬取到的用户数据进行预处理,构建用户社交关系网络图G;S3、基于用户社交关系网络图G,利用node2vec将用户的社交关系转化为低维的向量表征;S4、融合用户多维度的向量表征得到最终的向量表征;S5、基于用户的特征向量进行聚类,预测用户是正常用户,还是异常用户,如果是异常用户,并给出异常类型。本发明专利技术具有时间和人力成本开销低、能够识别各种各样的异常用户类型并且能够识别新的异常用户类型、能够综合考虑用户多维度的属性特征、准确率高等优点。

A method of abnormal user detection in social network based on network mapping

The invention relates to an abnormal user network mapping in the social network based detection method which comprises the following steps: S1, using the technology of web crawler climb take social network platform user data; S2, for the crawling to the user data preprocessing, construction of users of social relations network map G; S3, users of social networks map based on G, node2vec will use the user's social relationship into a low dimensional vector representation; vector characterization of S4 fusion, multi dimension vector representation of user end; S5, clustering feature vectors based on the user's user prediction is normal or abnormal users, if the user is abnormal users, and gives the exception type. The invention has the advantages of low time and manpower cost, and able to identify various kinds of abnormal users, and can identify new abnormal user types. It can take into account users' Multi-dimensional attribute characteristics and high accuracy.

【技术实现步骤摘要】
一种基于网络映射的社交网络中异常用户检测方法
本专利技术涉及网络数据检测的
,尤其涉及到一种基于网络映射的社交网络中异常用户检测方法。
技术介绍
社交网络的便利性、娱乐性、实时性等一系列优良特性吸引了海量的用户,在网络空间中构筑起一个虚拟的社会。同时,社交网络庞大的用户基数吸引了大量的攻击者。攻击者通过创建大量的虚假账号和盗用正常的账户,在社交网络中或散发谣言,或发布广告、钓鱼、色情信息等,或通过这些账号来恶意增加其他账号的信誉,如批量关注、恶意点赞等。这些攻击者统称为异常用户。因此,社交网络中的异常用户检测对个人、企业和国家均具有十分重要的意义。目前,学术界和工业界提出了大量的检测社交网络中异常用户的方法。这些方法可以被归为四类:基于行为特征的检测方法,基于内容的检测方法,基于图的检测方法,以及基于无监督学习的检测方法。基于行为特征的检测方法将异常用户检测视为一个二分类问题,利用用户的行为特征来区分正常用户和异常用户。基于内容的检测方法与基于行为特征的检测方法类似,其主要利用的是用户发布的内容信息,这些信息反映了用户的兴趣爱好。基于图的检测方法是利用正常用户和异常用户在所形成的社交网络中具有不同的结构性质,将异常用户检测问题转化为网络中的异常节点检测问题,然后利用图挖掘的相关算法来识别出异常用户。基于无监督学习的方法是利用正常用户有相同或者相似的特征,通过特征的聚类来区分正常用户和异常用户。尽管这些检测方法已经被广泛运用到实践当中,但是这些方法只有在特定的应用场景下才能取得良好的效果,泛化能力不强,不具有普适性,因而不能很好的满足实际需要。具体来讲,基于行为特征和基于内容的检测方法虽然准确率较高,但由于是有监督学习方法,需要提前对样本数据进行标记,这需要花费大量的时间和人力成本,而且只能检测已知的异常类型,当异常用户改变其表现形态后就无法准确检测。基于图的检测方法虽然有较强的鲁棒性,但是准确率较低,而且只能检测与其他用户有联系的异常用户,目前尚处于理论研究阶段。基于无监督学习的方法不需要提前对样本数据进行标记,节省了时间和人力成本开销,因而能够较快形成检测系统并且可以检测未知的攻击行为,但是其不容易区分不同类型的异常用户。鉴于社交网络中海量的用户基数、异常用户的多种表现形态和动态特征,以及已有的办法的缺陷,亟待提出一种时间和人力成本开销低、能够识别各种各样的异常用户类型并且能够识别新的异常用户类型、能够综合考虑用户多维度的属性特征、准确率高的检测方法。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种时间和人力成本开销低、能够识别各种各样的异常用户类型并且能够识别新的异常用户类型、能够综合考虑用户多维度的属性特征、准确率高的基于网络映射的社交网络中异常用户检测方法。为实现上述目的,本专利技术所提供的技术方案为:其包括以下步骤:S1、利用网络爬虫技术爬取如腾讯QQ、微信、新浪微博、Facebook等社交网络平台的用户数据。S2、对爬取到的用户数据进行预处理,构建用户社交关系网络图G;预处理步骤如下:S21、将爬取到的用户数据分为四个维度,分别为用户基本信息、用户行为特征、用户兴趣爱好以及用户好友关系;S22、将步骤S21中所述用户基本信息、用户行为特征、用户兴趣爱好该三个维度的用户数据分别对应处理成三个含有多维的特征向量;对于基本信息,用户ID作为用户身份的唯一标识,其他的信息用一个向量V1来表示,V1的维数为l1,对于不是数值型的基本信息,将其一一映射到实数空间;如对于性别,用0表示女,用1表示男;对于所在地,先将所有的用户所在地按字符串序排序,然后用某个地址的顺序数来表示该地址;对于行为特征,采取与基本信息一样的处理方式;行为特征用向量V2来表示,V2的维数为l2。对于发布消息的时间间隔,记录最大的时间间隔、最小的时间间隔和平均时间间隔。对于用户兴趣爱好,用户兴趣爱好的处理主要依据LDA主题模型,即从与用户相关的消息内容中抽取出用户的兴趣爱好,具体步骤如下:1)分词:对与用户相关的每一条消息文本d进行分词处理,去掉停用词、标点符号和特殊符号等与主题无关的词,得到该消息的单词序列<w1,w2,w3,…,wn>,其中wi表示第i个单词,设d一共有n个单词;所有的消息内容的集合记为D,即D={d1,d2,d3,…,dm},设总共有m条消息内容;2)生成每条消息的主题:LDA假设一篇文档的主题分布服从某个概率分布p(t|d),同时也假设在给定某个主题t的前提下,单词也服从某个概率分布p(w|t),一篇文章d包含单词w的概率为:p(w|d)=∑tp(w|t)*p(t|d),考虑所有的文档,采用矩阵形式来描述上述关系,即:其中,D的元素表示词频,T的行向量表示文档的主题分布,W的列向量表示主题的单词分布;通过统计分析得到p(w|d)的经验分布并求解T和W,使得T和W的乘积尽可能的与吻合;T和W的求解目标函数为:其中,第一项表示T和W的乘积应尽可能的与吻合,后两项为正则项;起到防止过拟合的作用,该优化目标函数通过随机梯度下降SGD求解;3)生成用户兴趣爱好的特征向量:在求得每条消息的主题之后,针对每一个用户u,其兴趣爱好特征向量按下式求解:其中,h表示与u相关的消息数,Tu表示与u相关的消息的主题分布,V3的维度记为l3。S23、将步骤S22得到的三个特征向量拼接在一起得到V0,V0的维度为l0=l1+l2+l3。S24、处理用户好友关系的数据,并与步骤S23拼接在一起的特征向量V0配合构建用户社交关系网络图G;具体过程为:基于好友、粉丝和关注情况构造一个有向无权图G0;但这样得到的G0往往十分稀疏,为了解决该问题,本方案在存在联系的用户和其二度好友之间构建一条赋予权值0.5的边,相应地,一度好友之间连边的权值设为1.0,从而得到有权图G0';显然,这样定义的权值比较粗糙,进一步地,对G0'中的任意一条边e=(u,v),按如下方式计算其权值:wt(e)=wt0*wt1*wt2,其中,wt0等于0.5或者1,取决于u,v是一度好友还是二度好友;wt1定义为u和v的一度好友的Jaccard相似性,即nb(u),nb(v)分别表示u和v的一度好友;wt2的计算过程分为两步,第一步计算u和v的前三个维度的特征相似度,采用欧式距离dist来刻画,第二步将求得的距离映射到(0,1)区间,选用Sigmoid函数得到wt2=f(dist(V0(u),V0(v)));通过这种方式定义的边权包含了丰富的信息,wt0反映了u和v是一度好友还是二度好友,wt1反应了u和v的共同好友是多还是少,wt2反映了u和v的兴趣爱好和行为特征等是否相似。通过这种方式计算出每一条边的权值,得到最终的有向边权的用户社交关系网络图G。用户社交关系网络图G有效地解决了原始社交关系网络的稀疏性问题,同时也通过边权将不同用户之间的亲密程度或相似程度进行了有效量化。S3、基于用户社交关系网络图G,利用node2vec将用户的社交关系转化为低维的向量表征;用户社交关系网络图G经典描述方式为邻接矩阵,邻接矩阵的行向量可作为用户的特征向量,这种方式简单直接,但是不具有可行性。例如,微信用户数超过8亿,那么就需要用一个超过8亿维的向量来表征一个用户,本文档来自技高网
...
一种基于网络映射的社交网络中异常用户检测方法

【技术保护点】
一种基于网络映射的社交网络中异常用户检测方法,其特征在于:包括以下步骤:S1、利用网络爬虫技术爬取社交网络平台的用户数据;S2、对爬取到的用户数据进行预处理,构建用户社交关系网络图G;S3、基于用户社交关系网络图G,利用node2vec将用户的社交关系转化为低维的向量表征;S4、融合用户多维度的向量表征得到最终的向量表征;S5、基于用户的特征向量进行聚类,预测用户是正常用户,还是异常用户,如果是异常用户,并给出异常类型。

【技术特征摘要】
1.一种基于网络映射的社交网络中异常用户检测方法,其特征在于:包括以下步骤:S1、利用网络爬虫技术爬取社交网络平台的用户数据;S2、对爬取到的用户数据进行预处理,构建用户社交关系网络图G;S3、基于用户社交关系网络图G,利用node2vec将用户的社交关系转化为低维的向量表征;S4、融合用户多维度的向量表征得到最终的向量表征;S5、基于用户的特征向量进行聚类,预测用户是正常用户,还是异常用户,如果是异常用户,并给出异常类型。2.根据权利要求1所述的一种基于网络映射的社交网络中异常用户检测方法,其特征在于:所述步骤S2中预处理步骤如下:S21、将爬取到的用户数据分为四个维度,分别为用户基本信息、用户行为特征、用户兴趣爱好以及用户好友关系;S22、将步骤S21中所述用户基本信息、用户行为特征、用户兴趣爱好该三个维度的用户数据分别对应处理成三个含有多维的特征向量;S23、将步骤S22得到的三个特征向量拼接在一起;S24、处理用户好友关系的数据,并与步骤S23拼接在一起的特征向量V0配合构建用户社交关系网络图G。3.根据权利要求2所述的一种基于网络映射的社交网络中异常用户检测方法,其特征在于:所述步骤S22中用户兴趣爱好的处理主要依据LDA主题模型,具体步骤如下:1)分词:对与用户相关的每一条消息文本d进行分词处理,去掉停用词、标点符号和特殊符号等与主题无关的词,得到该消息的单词序列<w1,w2,w3,…,wn>,其中wi表示第i个单词,设d一共有n个单词;所有的消息内容的集合记为D,即D={d1,d2,d3,…,dm},设总共有m条消息内容;2)生成每条消息的主题:LDA假设一篇文档的主题分布服从某个概率分布p(t|d),同时也假设在给定某个主题t的前提下,单词也服从某个概率分布p(w|t),一篇文章d包含单词w的概率为:p(w|d)=∑tp(w|t)*p(t|d),考虑所有的文档,采用矩阵形式来描述上述关系,即:其中,D的元素表示词频,T的行向量表示文档的主题分布,W的列向量表示主题的单词分布;通过统计分析得到p(w|d)的经验分布并求解T和W,使得T和W的乘积尽可能的与吻合;T和W的求解目标函数为:

【专利技术属性】
技术研发人员:郑子彬叶方华周育人
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1