一种数据处理方法、装置、设备以及存储介质制造方法及图纸

技术编号:39241749 阅读:8 留言:0更新日期:2023-10-30 11:54
本申请实施例提供了一种数据处理方法、装置、设备以及存储介质,用于识别异常行为群体。包括:获取待处理序列数据集合,待处理序列数据集合对应第一行为数据;将待处理序列数据集合输入特征提取模型得到全局序列特征向量,其中,特征提取模型是通过预测掩码字符向量和预测随机调换顺序的随机字符向量训练得到;对全局序列特征向量进行聚类分区得到第一簇集合以及第一簇集合中每个簇的聚类中心;基于簇的对象数量以及簇的聚类中心确定第一簇集合中每个簇的密集度;从第一簇集合中选择密集度排序前N个簇生成第二簇集合;根据可疑判决规则确定第二簇集合中每个簇的可疑判决结果。本申请提供的技术方案可应用于计算机、云技术、游戏等领域。戏等领域。戏等领域。

【技术实现步骤摘要】
一种数据处理方法、装置、设备以及存储介质


[0001]本申请涉及计算机领域,尤其涉及一种数据处理方法、装置、设备以及存储介质。

技术介绍

[0002]随着互联网的普及和发展,网络游戏越来越受到广大网民的喜爱,其丰富了人们的休闲娱乐生活。然而,近年来,作弊行为在各种团队作战的玩法中不断涌现,作弊用户通过使用外挂程序带领实力较弱的玩家通过游戏关卡,从而获得游戏收益。这种作弊行为对于正常玩家来说极为不公平,严重破坏了游戏的玩法生态。
[0003]因此目前急需一种可以识别游戏黑产的方法来进行识别,进而保证游戏的正常运行。

技术实现思路

[0004]本申请实施例提供了一种数据处理方法、装置、设备以及存储介质,用于识别异常行为群体。
[0005]有鉴于此,本申请一方面提供一种数据处理方法,包括:获取待处理序列数据集合,该待处理序列数据集合对应第一行为数据;将该待处理序列数据集合输入特征提取模型得到全局序列特征向量,其中,该特征提取模型是通过预测掩码字符向量和预测随机调换顺序的随机字符向量训练得到;对该全局序列特征向量进行聚类分区得到第一簇集合以及该第一簇集合中每个簇的聚类中心;基于簇的对象数量以及簇的聚类中心确定该第一簇集合中每个簇的密集度;从该第一簇集合中选择密集度排序前N个簇生成第二簇集合;根据可疑判决规则确定该第二簇集合中每个簇的可疑判决结果。
[0006]本申请另一方面提供一种数据处理装置,包括:获取模块,用于获取待处理序列数据集合,该待处理序列数据集合对应第一行为数据;
[0007]处理模块,用于将该待处理序列数据集合输入特征提取模型得到全局序列特征向量,其中,该特征提取模型是通过预测掩码字符向量和预测随机调换顺序的随机字符向量训练得到;对该全局序列特征向量进行聚类分区得到第一簇集合以及该第一簇集合中每个簇的聚类中心;基于簇的对象数量以及簇的聚类中心确定该第一簇集合中每个簇的密集度;从该第一簇集合中选择密集度排序前N个簇生成第二簇集合;根据可疑判决规则确定该第二簇集合中每个簇的可疑判决结果。
[0008]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该处理模块,具体用于计算每个簇中的对象与该每个簇的聚类中心的欧式距离;对每个簇中的全部欧式距离计算平均值,该平均值作为每个簇的密集度。
[0009]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该处理模块,具体用于对该全局序列特征向量求平均得到平均特征向量;
[0010]对该平均特征向量进行去冗余和降维处理以得到特征向量;
[0011]基于聚类算法对该特征向量进行聚类分区得到该第一簇集合以及该第一簇集合
中每个簇的聚类中心。
[0012]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该获取模块,具体用于获取行为日志数据;
[0013]从该行为日志数据中截取预设时长的行为数据生成序列数据集合,该序列数据集合中每一个序列数据包括对象标识号和行为序列号;
[0014]将该序列数据集合中的各个序列数据按照预设长度进行处理得到该待处理序列数据集合,该预设长度根据该预设时长内行为数据的长度设定。
[0015]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该获取模块,具体用于在该序列数据集合中存在序列长度小于该预设长度的第一序列数据时,对该第一序列数据进行补充处理,以使得该第一序列数据的序列长度等于该预设长度;
[0016]在该序列数据集合中存在序列长度大于该预设长度的第二序列数据时,对该第二序列数据进行截断处理,以使得该第二序列数据的序列长度等于该预设长度;
[0017]该序列长度等于该预设长度的序列数据作为该待处理序列数据集合。
[0018]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该获取模块,还用于获取训练行为序列数据和初始模型,该初始模型包括输入层、嵌入层、多头自注意力机制层以及多层全连接层;
[0019]该处理模块,还用于将该训练行为序列数据输入该初始模型的输入层和嵌入层得到该训练行为序列数据的序列向量;
[0020]对该序列向量进行掩码处理和随机顺序调整得到待预测序列向量,其中,该待预测序列向量包括经过掩码处理得到掩码字符向量和经过随机顺序调整得到随机字符向量;
[0021]将该待预测序列向量输入该初始模型的多头自注意力机制层以及多层全连接层得到第一预测字符和第二预测字符,该第一预测字符为该掩码字符向量对应的预测字符,该第二预测字符为该随机字符向量对应的预测字符;
[0022]根据该第一预测字符与该掩码字符向量对应的真实字符计算第一损失值,并根据该第二预测字符与该随机字符向量对应的真实字符计算第二损失值;
[0023]根据该第一损失值和该第二损失值训练该初始模型得到的特征提取模型。
[0024]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该处理模块,具体用于将该训练行为序列数据输入该输入层得到该训练行为序列数据中每个行为序列的第一编码和第二编码,该第二编码用于指示行为序列所处位置的位置编码,该第一编码用于指示行为序列的数据编码;
[0025]通过该嵌入层将该第一编码与该第二编码嵌入编码得到该训练行为序列数据的序列向量。
[0026]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该处理模块,具体用于选择该序列向量中的第一字符向量集合进行掩码处理得到该掩码字符向量,选择该序列向量中的第二字符向量集合进行随机顺序调整得到该随机字符向量;
[0027]将该序列向量中未经过处理的字符向量、该掩码字符向量和该随机字符向量生成该待预测序列向量。
[0028]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该处理模块,还用于将该待预测序列向量通过该初始模型的第一自注意力机制层,得到该待预测
序列向量的第一语义矩阵,该第一自注意力机制包含于该多头自注意力机制层;
[0029]将该第一语义矩阵输入第一全连接层得到第一语义转换表示,该第一全连接层包含于该多层全连接层;
[0030]将该第一语义转换输入该初始模型的第二自注意力机制层,得到第二语义矩阵,该第二自注意力机制包含于该多头自注意力机制层;
[0031]将该第二语义矩阵输入第二全连接层,得到第二语义转换表示,该第二全连接层包含于该多层全连接层;
[0032]重复上述动作至目标次数得到该待预测序列向量的最终语义表示;
[0033]将该最终语义表示输入该初始模型的全连接分类层,得到该第一预测字符和该第二预测字符,该全连接分类层包含于该多层全连接层。
[0034]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,该全连接分类层的权重参数包括L1和L2正则化参数。
[0035]在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取待处理序列数据集合,所述待处理序列数据集合对应第一行为数据;将所述待处理序列数据集合输入特征提取模型得到全局序列特征向量,其中,所述特征提取模型是通过预测掩码字符向量和预测随机调换顺序的随机字符向量训练得到;对所述全局序列特征向量进行聚类分区得到第一簇集合以及所述第一簇集合中每个簇的聚类中心;基于簇的对象数量以及簇的聚类中心确定所述第一簇集合中每个簇的密集度;从所述第一簇集合中选择密集度排序前N个簇生成第二簇集合;根据可疑判决规则确定所述第二簇集合中每个簇的可疑判决结果。2.根据权利要求1所述的方法,其特征在于,所述基于簇的对象数量以及簇的聚类中心确定所述第一簇集合中每个簇的密集度包括:计算每个簇中的对象与所述每个簇的聚类中心的欧式距离,对每个簇中的全部欧式距离计算平均值,所述平均值作为每个簇的密集度。3.根据权利要求1所述的方法,其特征在于,所述对所述全局序列特征向量进行聚类分区得到第一簇集合以及所述第一簇集合中每个簇的聚类中心包括:对所述全局序列特征向量求平均得到平均特征向量;对所述平均特征向量进行去冗余和降维处理以得到特征向量;基于聚类算法对所述特征向量进行聚类分区得到所述第一簇集合以及所述第一簇集合中每个簇的聚类中心。4.根据权利要求1所述的方法,其特征在于,所述获取待处理序列数据集合包括:获取行为日志数据;从所述行为日志数据中截取预设时长的行为数据生成序列数据集合,所述序列数据集合中每一个序列数据包括对象标识号和行为序列号;将所述序列数据集合中的各个序列数据按照预设长度进行处理,得到所述待处理序列数据集合,所述预设长度根据所述预设时长内行为数据的长度设定。5.根据权利要求4所述的方法,其特征在于,所述将所述序列数据集合中的各个序列数据按照预设长度进行处理得到所述待处理序列数据集合包括:在所述序列数据集合中存在序列长度小于所述预设长度的第一序列数据时,对所述第一序列数据进行补充处理,以使得所述第一序列数据的序列长度等于所述预设长度;在所述序列数据集合中存在序列长度大于所述预设长度的第二序列数据时,对所述第二序列数据进行截断处理,以使得所述第二序列数据的序列长度等于所述预设长度;所述序列长度等于所述预设长度的序列数据作为所述待处理序列数据集合。6.根据权利要求1至5中任一项所述的方法,其特征在于,所述方法还包括:获取训练行为序列数据和初始模型,所述初始模型包括输入层、嵌入层、多头自注意力机制层以及多层全连接层;将所述训练行为序列数据输入所述初始模型的输入层和嵌入层,得到所述训练行为序列数据的序列向量;对所述序列向量进行掩码处理和随机顺序调整得到待预测序列向量,其中,所述待预测序列向量包括经过掩码处理得到掩码字符向量和经过随机顺序调整得到随机字符向量;
将所述待预测序列向量输入所述初始模型的多头自注意力机制层以及多层全连接层,得到第一预测字符和第二预测字符,所述第一预测字符为所述掩码字符向量对应的预测字符,所述第二预测字符为所述随机字符向量对应的预测字符;根据所述第一预测字符与所述掩码字符向量对应的真实字符计算第一损失值,并根据所述第二预测字符与所述随机字符向量对应的真实字符计算第二损失值;根据所述第一损失值和所述第二损失值训练所述初始模型得到的特征提取模型。7.根据权利要求6所述的方法,其特征在于,所述将所述训练行为序列数据输入所述初始模型的输入层和嵌入层得到所述训练行为序列数据的序列向量包括:将所述训练行为序列数据输入所述输入层,得到所述训练行为序列数据中每个行为序列的第一编码和第二编码,所述第二编码用于指示行为序列所处位置的位...

【专利技术属性】
技术研发人员:陈观钦
申请(专利权)人:深圳市腾讯计算机系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1