一种数据处理方法和相关装置制造方法及图纸

技术编号:39241778 阅读:11 留言:0更新日期:2023-10-30 11:54
本申请实施例公开了一种数据处理方法和相关装置,至少应用于人工智能领域中的机器学习。获取原始交互操作序列,每个原始交互操作序列用于表征通过与其对应的对象标识执行的多个交互操作,且多个交互操作按照执行时间顺序排列。基于原始交互操作序列训练得到待定编码模型,以学习原始交互操作序列内部的关联关系。基于原始交互操作序列构建样本对,通过样本对微调待定编码模型,得到目标编码模型,以学习原始交互操作序列外部的关联关系。由此,通过多次训练得到的目标编码模型进行特征提取,得到的特征向量对输入数据表征的更为准确,基于表征更为准确的特征向量进行后续识别操作的覆盖率和准确率更高。操作的覆盖率和准确率更高。操作的覆盖率和准确率更高。

【技术实现步骤摘要】
一种数据处理方法和相关装置


[0001]本申请涉及数据处理
,特别是涉及一种数据处理方法和相关装置。

技术介绍

[0002]随着科学技术的发展,对象可以通过计算机设备在各种网络平台上执行多种交互操作,如玩游戏、浏览网站、购买商品等。但是,恶意对象会通过脚本(即用于控制软件引用程序的编程语言)等方式在网络平台上自动执行一些交互操作,从而对网络平台或该网络平台的其他对象造成一些不良的影响。
[0003]相关技术中,会采用基于规则模板的方式对恶意对象使用的对象标识的类型进行识别。但是,上述基于规则模板的方式,很难准确表征来自恶意对象的交互操作的特性,导致后续识别操作的覆盖率和准确率较低。

技术实现思路

[0004]为了解决上述技术问题,本申请提供了一种数据处理方法和相关装置,用于提高来自恶意对象的交互操作的特性表征的准确性,从而提高后续识别操作的覆盖率和准确率。
[0005]本申请实施例公开了如下技术方案:
[0006]一方面,本申请实施例提供一种数据处理方法,所述方法包括:
[0007]获取原始交互操作序列,所述原始交互操作序列用于表征通过对应对象标识执行的按照执行时间顺序排列的多个交互操作;
[0008]根据所述原始交互操作序列,训练得到用于特征提取的待定编码模型;
[0009]根据所述原始交互操作序列构建具有标签的样本对,所述标签用于标识所述样本对为正样本对或负样本对,所述正样本对包括所述原始交互操作序列和相似交互操作序列,所述相似交互操作序列和所述原始交互操作序列间的相似度大于或等于预设相似阈值,所述负样本对包括所述原始交互操作序列和非相似交互操作序列,所述非相似交互操作序列和所述原始交互操作序列间的相似度小于所述预设相似阈值;
[0010]通过所述待定编码模型对所述样本包括的每个交互操作序列对分别进行特征提取,得到第一特征向量和第二特征向量;
[0011]确定目标相似度,所述目标相似度为所述第一特征向量和所述第二特征向量间的相似度;
[0012]根据所述样本对的标签和所述目标相似度的差异,调整所述待定编码模型的模型参数,得到目标编码模型,以便根据所述目标编码模型确定待识别对象标识的类型。
[0013]另一方面,本申请实施例提供一种数据处理装置,其特征在于,所述装置包括:获取单元、第一训练单元、构建单元、特征提取单元、确定单元和第二训练单元;
[0014]所述获取单元,用于获取原始交互操作序列,所述原始交互操作序列用于表征通过对应对象标识执行的按照执行时间顺序排列的多个交互操作;
[0015]所述第一训练单元,用于根据所述原始交互操作序列,训练得到用于特征提取的待定编码模型;
[0016]所述构建单元,用于根据所述原始交互操作序列构建具有标签的样本对,所述标签用于标识所述样本对为正样本对或负样本对,所述正样本对包括所述原始交互操作序列和相似交互操作序列,所述相似交互操作序列和所述原始交互操作序列间的相似度大于或等于预设相似阈值,所述负样本对包括所述原始交互操作序列和非相似交互操作序列,所述非相似交互操作序列和所述原始交互操作序列间的相似度小于所述预设相似阈值;
[0017]所述特征提取单元,用于通过所述待定编码模型对所述样本对包括的每个交互操作序列分别进行特征提取,得到第一特征向量和第二特征向量;
[0018]所述确定单元,用于确定目标相似度,所述目标相似度为所述第一特征向量和所述第二特征向量间的相似度;
[0019]所述第二训练单元,用于根据所述样本对的标签和所述目标相似度的差异,调整所述待定编码模型的模型参数,得到目标编码模型,以便根据所述目标编码模型确定待识别对象标识的类型。
[0020]另一方面,本申请实施例提供一种计算机设备,所述计算机设备包括处理器以及存储器:
[0021]所述存储器用于存储计算机程序,并将所述计算机程序传输给所述处理器;
[0022]所述处理器用于根据所述计算机程序中的指令执行上述方面所述的方法。
[0023]另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述方面所述的方法。
[0024]另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面所述的方法。
[0025]由上述技术方案可以看出,获取原始交互操作序列,每个原始交互操作序列用于表征通过与其对应的对象标识执行的多个交互操作,且多个交互操作按照执行时间顺序排列。根据原始交互操作序列训练得到用于特征提取的待定编码模型,以使待定编码模型学习原始交互操作序列包括的多个交互操作之间的属性特征,即原始交互操作序列内部的关联关系。根据原始交互操作序列构建正样本对和负样本对,正样本对包括的原始交互操作序列和相似交互操作序列间的相似度较高,负样本对包括的原始交互操作序列和非相似交互操作序列间的相似度较低。通过待定编码模型对样本对包括的两个交互操作序列分别进行特征提取,得到第一特征向量和第二特征向量,将第一特征向量和第二特征向量间相似度作为目标相似度,根据样本对的标签和目标相似度的差异,调整待定编码模型的模型参数,得到目标编码模型。该目标编码模型通过对样本对包括的两个交互操作序列分别进行特征提取,从而学习原始交互操作序列与相似交互操作序列间的相似特征,以及原始交互操作序列与非相似交互操作序列间的非相似特征,即原始交互操作序列外部的关联关系。
[0026]由此,目标编码模型是基于待定编码模型微调得到的,不仅能够学习到原始交互操作序列外部的关联关系,还能够学习到原始交互操作序列内部的关联关系。通过目标编码模型进行特征提取,得到的特征向量对输入数据表征的更为准确,基于表征更为准确的
特征向量进行后续识别操作的覆盖率和准确率更高。
附图说明
[0027]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0028]图1为本申请实施例提供的数据处理方法的应用场景示意图的;
[0029]图2为本申请实施例提供的数据处理方法的流程示意图;
[0030]图3为本申请实施例提供的一种密集度的示意图;
[0031]图4为本申请实施例提供的多种修改方式的示意图;
[0032]图5为本申请实施例提供的一种自编码器的框架示意图;
[0033]图6为本申请实施例提供的多种调整方式的示意图;
[0034]图7为本申请实施例提供的一种数据处理方法的示意图;
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:获取原始交互操作序列,所述原始交互操作序列用于表征通过对应对象标识执行的按照执行时间顺序排列的多个交互操作;根据所述原始交互操作序列,训练得到用于特征提取的待定编码模型;根据所述原始交互操作序列构建具有标签的样本对,所述标签用于标识所述样本对为正样本对或负样本对,所述正样本对包括所述原始交互操作序列和相似交互操作序列,所述相似交互操作序列和所述原始交互操作序列间的相似度大于或等于预设相似阈值,所述负样本对包括所述原始交互操作序列和非相似交互操作序列,所述非相似交互操作序列和所述原始交互操作序列间的相似度小于所述预设相似阈值;通过所述待定编码模型对所述样本对包括的每个交互操作序列分别进行特征提取,得到第一特征向量和第二特征向量;确定目标相似度,所述目标相似度为所述第一特征向量和所述第二特征向量间的相似度;根据所述样本对的标签和所述目标相似度的差异,调整所述待定编码模型的模型参数,得到目标编码模型,以便根据所述目标编码模型确定待识别对象标识的类型。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取多个待识别对象标识分别对应的多个待识别交互操作序列;根据所述多个待识别交互操作序列,分别通过所述目标编码模型进行特征提取,得到多个序列特征向量;对所述多个序列特征向量进行聚类,得到多个向量簇;确定所述多个向量簇分别对应的密集度,所述密集度用于标识对应向量簇包括的多个序列特征向量相对于簇中心的聚集程度,所述簇中心为所述对应向量簇的中心;根据多个所述密集度,从所述多个向量簇中确定满足预设筛选条件的目标向量簇;根据所述目标向量簇包括的多个序列特征向量,从所述多个待识别对象标识中确定所述类型为目标类型的待识别对象标识。3.根据权利要求2所述的方法,其特征在于,若所述目标类型为异常类型,则所述根据所述目标向量簇包括的多个序列特征向量,从所述多个待识别对象标识中确定所述类型为目标类型的待识别对象标识,包括:将所述目标向量簇包括的多个序列特征向量分别对应的多个待识别对象标识,确定为待定异常对象标识;获取多个所述待定异常对象标识的活跃时间;将活跃时间存在交集的待定异常对象标识,确定为所述类型为异常类型的待识别对象标识。4.根据权利要求1所述的方法,其特征在于,所述根据所述原始交互操作序列,训练得到用于特征提取的待定编码模型,包括:获取多种修改方式;按照所述多种修改方式对所述原始交互操作序列进行修改,得到多个形变交互操作序列;通过初始待定编码模型对目标交互操作序列进行特征提取,得到第三特征向量,所述
目标交互操作序列为所述原始交互操作序列或所述多个形变交互操作序列中的一个形变交互操作序列;根据所述第三特征向量,通过初始解码模型进行解码,得到重构交互操作序列;根据所述重构交互操作序列和所述原始交互操作序列的差异,调整所述初始待定编码模型的模型参数,得到所述待定编码模型,以及根据所述重构交互操作序列和所述原始交互操作序列的差异,调整所述初始解码模型的模型参数,得到解码器。5.根据权利要求4所述的方法,其特征在于,所述待定编码模型包括4个神经网络编码块,所述神经网络编码块包括6个多头注意力机制。6.根据权利要求4所述的方法,其特征在于,所述多种修改方式包括删除所述原始交互操作序列中部分交互操作序列、隐藏所述原始交互操作序列中部分交互操作序列,以及调换所述原始交互操作序列中部分交互操作序列中的多种组合方式。7.根据权利要求1所述的方法,其特征在于,所述确定目标相似度,包括:对所述第一特征向量进行池化操作,得到第一池化特征向量;对所述第二特征向量进行池化操作,得到第二池化特征向量,所述第一池化特征向量与所述第二池化特征向量的维度相等;确定所述第一池化特征向量和所述第二池化特征向量间的向量相似度。8.根据权利要求1所述的方法,其特征在于,所述根据所述样本对的标签和所述目标相似度的差异,调整所述待定编码模型的模型参数,得到目标编码模型,包括:若所述样本对的标签标识所述样本对为正样本对,根据所述目标相似度确定第一损失;若所述样本对的标签标识所述...

【专利技术属性】
技术研发人员:陈观钦王摘星陈健柯王梦秋
申请(专利权)人:深圳市腾讯天游科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1