一种基于网络映射的社交网络中异常用户检测方法技术

技术编号：17544223 阅读：40 留言：0更新日期：2018-03-25 00:19

本发明专利技术涉及一种基于网络映射的社交网络中异常用户检测方法，包括以下步骤：S1、利用网络爬虫技术爬取社交网络平台的用户数据；S2、对爬取到的用户数据进行预处理，构建用户社交关系网络图G；S3、基于用户社交关系网络图G，利用node2vec将用户的社交关系转化为低维的向量表征；S4、融合用户多维度的向量表征得到最终的向量表征；S5、基于用户的特征向量进行聚类，预测用户是正常用户，还是异常用户，如果是异常用户，并给出异常类型。本发明专利技术具有时间和人力成本开销低、能够识别各种各样的异常用户类型并且能够识别新的异常用户类型、能够综合考虑用户多维度的属性特征、准确率高等优点。

A method of abnormal user detection in social network based on network mapping

The invention relates to an abnormal user network mapping in the social network based detection method which comprises the following steps: S1, using the technology of web crawler climb take social network platform user data; S2, for the crawling to the user data preprocessing, construction of users of social relations network map G; S3, users of social networks map based on G, node2vec will use the user's social relationship into a low dimensional vector representation; vector characterization of S4 fusion, multi dimension vector representation of user end; S5, clustering feature vectors based on the user's user prediction is normal or abnormal users, if the user is abnormal users, and gives the exception type. The invention has the advantages of low time and manpower cost, and able to identify various kinds of abnormal users, and can identify new abnormal user types. It can take into account users' Multi-dimensional attribute characteristics and high accuracy.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于网络映射的社交网络中异常用户检测方法
本专利技术涉及网络数据检测的
，尤其涉及到一种基于网络映射的社交网络中异常用户检测方法。
技术介绍
社交网络的便利性、娱乐性、实时性等一系列优良特性吸引了海量的用户，在网络空间中构筑起一个虚拟的社会。同时，社交网络庞大的用户基数吸引了大量的攻击者。攻击者通过创建大量的虚假账号和盗用正常的账户，在社交网络中或散发谣言，或发布广告、钓鱼、色情信息等，或通过这些账号来恶意增加其他账号的信誉，如批量关注、恶意点赞等。这些攻击者统称为异常用户。因此，社交网络中的异常用户检测对个人、企业和国家均具有十分重要的意义。目前，学术界和工业界提出了大量的检测社交网络中异常用户的方法。这些方法可以被归为四类：基于行为特征的检测方法，基于内容的检测方法，基于图的检测方法，以及基于无监督学习的检测方法。基于行为特征的检测方法将异常用户检测视为一个二分类问题，利用用户的行为特征来区分正常用户和异常用户。基于内容的检测方法与基于行为特征的检测方法类似，其主要利用的是用户发布的内容信息，这些信息反映了用户的兴趣爱好。基于图的检测方法是利用正常用户和异常用户在所形成的社交网络中具有不同的结构性质，将异常用户检测问题转化为网络中的异常节点检测问题，然后利用图挖掘的相关算法来识别出异常用户。基于无监督学习的方法是利用正常用户有相同或者相似的特征，通过特征的聚类来区分正常用户和异常用户。尽管这些检测方法已经被广泛运用到实践当中，但是这些方法只有在特定的应用场景下才能取得良好的效果，泛化能力不强，不具有普适性，因而不能很好的满足实际需要。具体来讲...
一种基于网络映射的社交网络中异常用户检测方法

【技术保护点】
一种基于网络映射的社交网络中异常用户检测方法，其特征在于：包括以下步骤：S1、利用网络爬虫技术爬取社交网络平台的用户数据；S2、对爬取到的用户数据进行预处理，构建用户社交关系网络图G；S3、基于用户社交关系网络图G，利用node2vec将用户的社交关系转化为低维的向量表征；S4、融合用户多维度的向量表征得到最终的向量表征；S5、基于用户的特征向量进行聚类，预测用户是正常用户，还是异常用户，如果是异常用户，并给出异常类型。

【技术特征摘要】
1.一种基于网络映射的社交网络中异常用户检测方法，其特征在于：包括以下步骤：S1、利用网络爬虫技术爬取社交网络平台的用户数据；S2、对爬取到的用户数据进行预处理，构建用户社交关系网络图G；S3、基于用户社交关系网络图G，利用node2vec将用户的社交关系转化为低维的向量表征；S4、融合用户多维度的向量表征得到最终的向量表征；S5、基于用户的特征向量进行聚类，预测用户是正常用户，还是异常用户，如果是异常用户，并给出异常类型。2.根据权利要求1所述的一种基于网络映射的社交网络中异常用户检测方法，其特征在于：所述步骤S2中预处理步骤如下：S21、将爬取到的用户数据分为四个维度，分别为用户基本信息、用户行为特征、用户兴趣爱好以及用户好友关系；S22、将步骤S21中所述用户基本信息、用户行为特征、用户兴趣爱好该三个维度的用户数据分别对应处理成三个含有多维的特征向量；S23、将步骤S22得到的三个特征向量拼接在一起；S24、处理用户好友关系的数据，并与步骤S23拼接在一起的特征向量V0配合构建用户社交关系网络图G。3.根据权利要求2所述的一种基于网络映射的社交网络中异常用户检测方法，其特征在于：所述步骤S22中用户兴趣爱好的处理主要依据LDA主题模型，具体步骤如下：1)分词：对与用户相关的每一条消息文本d进行分词处理，去掉停用词、标点符号和特殊符号等与主题无关的词，得到该消息的单词序列＜w1,w2,w3,…,wn＞,其中wi表示第i个单词，设d一共有n个单词；所有的消息内容的集合记为D，即D＝{d1,d2,d3,…,dm}，设总共有m条消息内容；2)生成每条消息的主题：LDA假设一篇文档的主题分布服从某个概率分布p(t|d)，同时也假设在给定某个主题t的前提下，单词也服从某个概率分布p(w|t)，一篇文章d包含单词w的概率为：p(w|d)＝∑tp(w|t)*p(t|d)，考虑所有的文档，采用矩阵形式来描述上述关系，即：其中，D的元素表示词频，T的行向量表示文档的主题分布，W的列向量表示主题的单词分布；通过统计分析得到p(w|d)的经验分布并求解T和W，使得T和W的乘积尽可能的与吻合；T和W的求解目标函数为：

【专利技术属性】
技术研发人员：郑子彬，叶方华，周育人，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人