一种基于大数据的微博异常用户检测方法技术

技术编号：40220971 阅读：5 留言：0更新日期：2024-02-02 22:26

本发明专利技术属于社交网络安全领域，具体涉及一种基于大数据的微博异常用户检测方法；包括：获取带标签的微博用户数据；根据微博用户数据提取用户行为特征和用户文本特征，得到用户行为特征高维表征和用户文本特征高维表征；根据微博用户数据提取用户基本特征，得到用户基本特征高维表征；对三种高维表征进行两两交互，得到基本‑行为特征表、基本‑文本特征表和行为‑文本特征表；对三种特征表进行处理，得到用户交叉高维特征；将用户交叉高维特征输入到全连接神经网络中进行处理，得到异常用户检测结果；计算全连接分类损失并根据全连接分类损失调整模型参数，得到训练好的异常用户检测模型；本发明专利技术检测结果准确，有助于相关部分对舆情进行控制。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于社交网络安全领域，具体涉及一种基于大数据的微博异常用户检测方法。

技术介绍

1、随着互联网的快速发展，大数据分析已成为信息
中的重要趋势。因此，开发一种高效的方法来检测这些异常用户对于维护社交媒体平台的安全性和可信度至关重要。

2、对于异常用户检测任务来说，传统的方法主要有基于规则的方法、基于人工审查的方法、基于机器学习的方法和基于深度学习的方法。基于规则的方法通常依赖于预定义的规则和模式，这些规则的制定需要洞悉异常用户的动机，根据这些动机来设计相应的规则，这些规则具有鲜明的异常账号特点且可能无法捕获新兴的异常行为，容易受到规避；基于人工审查的方法通常需要消耗大量的人力资源，存在主观性且不切实际，尤其是在处理大规模社交媒体数据时；基于机器学习的方法需要手动提取特征和标记训练数据，手动提取的特征往往存在数据稀疏性问题并且微博用户数据除了包含数值特征外还含有大量的文本、图像、视频等数据无法经过手工提取特征；基于深度学习的方法，通过各种深度学习网络获取微博用户的全局、局部特征的数学表征，最后进行分类任务。目前大部分异常用户检测的模型开始采用深度学习的方法。

3、然而，基于深度学习的方法在处理文本、视频时，大部分会将文本、视频数据映射到一个高维空间，以获得文本、视频数据的表征，但这类方法对于硬件资源的要求极高，且获取了大量对于异常用户判别没有作用的内容特征，这对于模型的实时监测性以及硬件资源的支出都是不切实际的。

技术实现思路

1、针对现有技术存

2、异常用户检测模型的训练过程包括：

3、s1：获取带标签的微博用户数据；

4、s2：从微博用户数据中提取用户行为特征和用户文本特征，将用户行为特征和用户文本特征映射到高维空间，得到用户行为特征高维表征和用户文本特征高维表征；

5、s3：从微博用户数据中提取用户基本特征，将用户基本特征映射到高维空间，得到用户基本特征高维表征；

6、s4：对用户行为特征高维表征、用户文本特征高维表征和用户基本特征高维表征进行两两交互，得到基本-行为特征表、基本-文本特征表和行为-文本特征表；

7、s5：对基本-行为特征表、基本-文本特征表和行为-文本特征表进行处理，得到用户交叉高维特征；

8、s6：将用户交叉高维特征输入到全连接神经网络中进行处理，得到异常用户检测结果；

9、s7：计算全连接分类损失并根据全连接分类损失调整模型参数，得到训练好的异常用户检测模型。

10、优选的，提取用户行为特征和用户文本特征的过程包括：

11、s21：将用户发布的消息按照时间升序进行排序，采用滑动窗口对消息进行滑窗，计算每个窗口内信息发布时间间隔的平均值；选择平均值最小的窗口作为特征窗口；

12、s22：统计特征窗口内每条信息所在当天的多个用户行为参数；根据每个用户行为参数构建二维用户行为特征表，得到用户行为特征；

13、s23：统计特征窗口内每条信息所在当天的多个用户文本参数；根据每个用户文本参数构建二维用户文本特征表，得到用户文本特征。

14、进一步的，所述用户行为参数包括发文量、点赞量、转发量、评论量，发文的平均间隔时间、点赞的平均间隔时间、转发的平均间隔时间和评论的平均间隔时间。

15、进一步的，所述用户文本参数包括发文的平均字符数、发文的平均英文字符数、发文的平均标点符号数、发文的平均url数、发文的平均“@”数、发文的平均“#”数、发文的平均配图数、发文的平均话题数和发文的平均词组个数。

16、优选的，所述用户基本特征包括用户性别、用户昵称文本长度、用户昵称包含的非文字数、个人简介长度、个人简介包含的url数、用户粉丝数、关注数、评论数、点赞数、以及用户注册时间与特征窗口起始时间间隔值。

17、优选的，表征进行两两交互的公式为：

18、

19、其中，feature_table表示交互特征表，q表示第一高维表征，k表示第二高维表征，mask表示掩码矩阵，sum()表示求和函数，min()表示求最小值函数，softmax()表示softmax激活函数。

20、优选的，用户交叉高维特征的过程包括：对基本-行为特征表、基本-文本特征表和行为-文本特征表均扩展一个维度并在扩展的维度上进行拼接；将拼接后的特征输入到多维卷积神经网络，得到用户交叉高维特征。

21、优选的，计算全连接分类损失的公式为：

22、

23、其中，loss表示全连接分类损失，n表示用户数量，yi表示第i个用户是否为异常用户的真实标签，表示模型对于第i个用户是否为异常用户的概率预测值，δ表示随机参数，μ表示超参数。

24、本专利技术的有益效果为：本专利技术采用了基于卷积神经网络的层级特征交叉，层级特征将微博用户的特征进行分类建模，卷积模型通过不同的卷积核从全局与局部两个视角来同时考虑用户基本特征、用户文本特征以及用户行为特征之间的内在联系，解决了传统机器学习模型手工提取的类别特征无法进行有效交互、特征数据存在稀疏性、无法有效利用文本数据的问题；本专利技术检测结果准确度高，有助于相关部分对舆情进行控制。

本文档来自技高网...

【技术保护点】

1.一种基于大数据的微博异常用户检测方法，其特征在于，包括：获取微博用户数据并将其输入到训练好的异常用户检测模型中进行处理，得到微博异常用户检测结果；

2.根据权利要求1所述的一种基于大数据的微博异常用户检测方法，其特征在于，提取用户行为特征和用户文本特征的过程包括：

3.根据权利要求2所述的一种基于大数据的微博异常用户检测方法，其特征在于，所述用户行为参数包括发文量、点赞量、转发量、评论量，发文的平均间隔时间、点赞的平均间隔时间、转发的平均间隔时间和评论的平均间隔时间。

4.根据权利要求2所述的一种基于大数据的微博异常用户检测方法，其特征在于，所述用户文本参数包括发文的平均字符数、发文的平均英文字符数、发文的平均标点符号数、发文的平均URL数、发文的平均“@”数、发文的平均“#”数、发文的平均配图数、发文的平均话题数和发文的平均词组个数。

5.根据权利要求1所述的一种基于大数据的微博异常用户检测方法，其特征在于，所述用户基本特征包括用户性别、用户昵称文本长度、用户昵称包含的非文字数、个人简介长度、个人简介包含的URL数、用户粉丝数

6.根据权利要求1所述的一种基于大数据的微博异常用户检测方法，其特征在于，表征进行两两交互的公式为：

7.根据权利要求1所述的一种基于大数据的微博异常用户检测方法，其特征在于，用户交叉高维特征的过程包括：对基本-行为特征表、基本-文本特征表和行为-文本特征表均扩展一个维度并在扩展的维度上进行拼接；将拼接后的特征输入到多维卷积神经网络，得到用户交叉高维特征。

8.根据权利要求1所述的一种基于大数据的微博异常用户检测方法，其特征在于，计算全连接分类损失的公式为：

...

【技术特征摘要】

2.根据权利要求1所述的一种基于大数据的微博异常用户检测方法，其特征在于，提取用户行为特征和用户文本特征的过程包括：

4.根据权利要求2所述的一种基于大数据的微博异常用户检测方法，其特征在于，所述用户文本参数包括发文的平均字符数、发文的平均英文字符数、发文的平均标点符号数、发文的平均url数、发文的平均“@”数、发文的平均“#”数、发文的平均配图数、发文的平均话题数和发文的平均词组个...

【专利技术属性】
技术研发人员：王进，倪瑞，陈青青，杜雨露，母雪豪，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人