一种数据处理方法、装置、设备以及存储介质制造方法及图纸

技术编号：39241749 阅读：8 留言：0更新日期：2023-10-30 11:54

本申请实施例提供了一种数据处理方法、装置、设备以及存储介质，用于识别异常行为群体。包括：获取待处理序列数据集合，待处理序列数据集合对应第一行为数据；将待处理序列数据集合输入特征提取模型得到全局序列特征向量，其中，特征提取模型是通过预测掩码字符向量和预测随机调换顺序的随机字符向量训练得到；对全局序列特征向量进行聚类分区得到第一簇集合以及第一簇集合中每个簇的聚类中心；基于簇的对象数量以及簇的聚类中心确定第一簇集合中每个簇的密集度；从第一簇集合中选择密集度排序前N个簇生成第二簇集合；根据可疑判决规则确定第二簇集合中每个簇的可疑判决结果。本申请提供的技术方案可应用于计算机、云技术、游戏等领域。戏等领域。戏等领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据处理方法、装置、设备以及存储介质

[0001]本申请涉及计算机领域，尤其涉及一种数据处理方法、装置、设备以及存储介质。

技术介绍

[0002]随着互联网的普及和发展，网络游戏越来越受到广大网民的喜爱，其丰富了人们的休闲娱乐生活。然而，近年来，作弊行为在各种团队作战的玩法中不断涌现，作弊用户通过使用外挂程序带领实力较弱的玩家通过游戏关卡，从而获得游戏收益。这种作弊行为对于正常玩家来说极为不公平，严重破坏了游戏的玩法生态。
[0003]因此目前急需一种可以识别游戏黑产的方法来进行识别，进而保证游戏的正常运行。

技术实现思路

[0004]本申请实施例提供了一种数据处理方法、装置、设备以及存储介质，用于识别异常行为群体。
[0005]有鉴于此，本申请一方面提供一种数据处理方法，包括：获取待处理序列数据集合，该待处理序列数据集合对应第一行为数据；将该待处理序列数据集合输入特征提取模型得到全局序列特征向量，其中，该特征提取模型是通过预测掩码字符向量和预测随机调换顺序的随机字符向量训练得到；对该全局序列特征向量进行聚类分区得到第一簇集合以及该第一簇集合中每个簇的聚类中心；基于簇的对象数量以及簇的聚类中心确定该第一簇集合中每个簇的密集度；从该第一簇集合中选择密集度排序前N个簇生成第二簇集合；根据可疑判决规则确定该第二簇集合中每个簇的可疑判决结果。
[0006]本申请另一方面提供一种数据处理装置，包括：获取模块，用于获取待处理序列数据集合，该待处理序列数据集合对应第一行为数据；
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：获取待处理序列数据集合，所述待处理序列数据集合对应第一行为数据；将所述待处理序列数据集合输入特征提取模型得到全局序列特征向量，其中，所述特征提取模型是通过预测掩码字符向量和预测随机调换顺序的随机字符向量训练得到；对所述全局序列特征向量进行聚类分区得到第一簇集合以及所述第一簇集合中每个簇的聚类中心；基于簇的对象数量以及簇的聚类中心确定所述第一簇集合中每个簇的密集度；从所述第一簇集合中选择密集度排序前N个簇生成第二簇集合；根据可疑判决规则确定所述第二簇集合中每个簇的可疑判决结果。2.根据权利要求1所述的方法，其特征在于，所述基于簇的对象数量以及簇的聚类中心确定所述第一簇集合中每个簇的密集度包括：计算每个簇中的对象与所述每个簇的聚类中心的欧式距离，对每个簇中的全部欧式距离计算平均值，所述平均值作为每个簇的密集度。3.根据权利要求1所述的方法，其特征在于，所述对所述全局序列特征向量进行聚类分区得到第一簇集合以及所述第一簇集合中每个簇的聚类中心包括：对所述全局序列特征向量求平均得到平均特征向量；对所述平均特征向量进行去冗余和降维处理以得到特征向量；基于聚类算法对所述特征向量进行聚类分区得到所述第一簇集合以及所述第一簇集合中每个簇的聚类中心。4.根据权利要求1所述的方法，其特征在于，所述获取待处理序列数据集合包括：获取行为日志数据；从所述行为日志数据中截取预设时长的行为数据生成序列数据集合，所述序列数据集合中每一个序列数据包括对象标识号和行为序列号；将所述序列数据集合中的各个序列数据按照预设长度进行处理，得到所述待处理序列数据集合，所述预设长度根据所述预设时长内行为数据的长度设定。5.根据权利要求4所述的方法，其特征在于，所述将所述序列数据集合中的各个序列数据按照预设长度进行处理得到所述待处理序列数据集合包括：在所述序列数据集合中存在序列长度小于所述预设长度的第一序列数据时，对所述第一序列数据进行补充处理，以使得所述第一序列数据的序列长度等于所述预设长度；在所述序列数据集合中存在序列长度大于所述预设长度的第二序列数据时，对所述第二序列数据进行截断处理，以使得所述第二序列数据的序列长度等于所述预设长度；所述序列长度等于所述预设长度的序列数据作为所述待处理序列数据集合。6.根据权利要求1至5中任一项所述的方法，其特征在于，所述方法还包括：获取训练行为序列数据和初始模型，所述初始模型包括输入层、嵌入层、多头自注意力机制层以及多层全连接层；将所述训练行为序列数据输入所述初始模型的输入层和嵌入层，得到所述训练行为序列数据的序列向量；对所述序列向量进行掩码处理和随机顺序调整得到待预测序列向量，其中，所述待预测序列向量包括经过掩码处理得到掩码字符向量和经过随机顺序调整得到随机字符向量；
将所述待预测序列向量输入所述初始模型的多头自注意力机制层以及多层全连接层，得到第一预测字符和第二预测字符，所述第一预测字符为所述掩码字符向量对应的预测字符，所述第二预测字符为所述随机字符向量对应的预测字符；根据所述第一预测字符与所述掩码字符向量对应的真实字符计算第一损失值，并根据所述第二预测字符与所述随机字符向量对应的真实字符计算第二损失值；根据所述第一损失值和所述第二损失值训练所述初始模型得到的特征提取模型。7.根据权利要求6所述的方法，其特征在于，所述将所述训练行为序列数据输入所述初始模型的输入层和嵌入层得到所述训练行为序列数据的序列向量包括：将所述训练行为序列数据输入所述输入层，得到所述训练行为序列数据中每个行为序列的第一编码和第二编码，所述第二编码用于指示行为序列所处位置的位...

【专利技术属性】
技术研发人员：陈观钦，
申请(专利权)人：深圳市腾讯计算机系统有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人