一种数据处理方法和相关装置制造方法及图纸

技术编号：39241778 阅读：11 留言：0更新日期：2023-10-30 11:54

本申请实施例公开了一种数据处理方法和相关装置，至少应用于人工智能领域中的机器学习。获取原始交互操作序列，每个原始交互操作序列用于表征通过与其对应的对象标识执行的多个交互操作，且多个交互操作按照执行时间顺序排列。基于原始交互操作序列训练得到待定编码模型，以学习原始交互操作序列内部的关联关系。基于原始交互操作序列构建样本对，通过样本对微调待定编码模型，得到目标编码模型，以学习原始交互操作序列外部的关联关系。由此，通过多次训练得到的目标编码模型进行特征提取，得到的特征向量对输入数据表征的更为准确，基于表征更为准确的特征向量进行后续识别操作的覆盖率和准确率更高。操作的覆盖率和准确率更高。操作的覆盖率和准确率更高。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据处理方法和相关装置

[0001]本申请涉及数据处理
，特别是涉及一种数据处理方法和相关装置。

技术介绍

[0002]随着科学技术的发展，对象可以通过计算机设备在各种网络平台上执行多种交互操作，如玩游戏、浏览网站、购买商品等。但是，恶意对象会通过脚本(即用于控制软件引用程序的编程语言)等方式在网络平台上自动执行一些交互操作，从而对网络平台或该网络平台的其他对象造成一些不良的影响。
[0003]相关技术中，会采用基于规则模板的方式对恶意对象使用的对象标识的类型进行识别。但是，上述基于规则模板的方式，很难准确表征来自恶意对象的交互操作的特性，导致后续识别操作的覆盖率和准确率较低。

技术实现思路

[0004]为了解决上述技术问题，本申请提供了一种数据处理方法和相关装置，用于提高来自恶意对象的交互操作的特性表征的准确性，从而提高后续识别操作的覆盖率和准确率。
[0005]本申请实施例公开了如下技术方案：
[0006]一方面，本申请实施例提供一种数据处理方法，所述方法包括：
[0007]获取原始交互操作序列，所述原始交互操作序列用于表征通过对应对象标识执行的按照执行时间顺序排列的多个交互操作；
[0008]根据所述原始交互操作序列，训练得到用于特征提取的待定编码模型；
[0009]根据所述原始交互操作序列构建具有标签的样本对，所述标签用于标识所述样本对为正样本对或负样本对，所述正样本对包括所述原始交互操作序列和相似交互操作序列，所述相似交互操作序列和所

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，其特征在于，所述方法包括：获取原始交互操作序列，所述原始交互操作序列用于表征通过对应对象标识执行的按照执行时间顺序排列的多个交互操作；根据所述原始交互操作序列，训练得到用于特征提取的待定编码模型；根据所述原始交互操作序列构建具有标签的样本对，所述标签用于标识所述样本对为正样本对或负样本对，所述正样本对包括所述原始交互操作序列和相似交互操作序列，所述相似交互操作序列和所述原始交互操作序列间的相似度大于或等于预设相似阈值，所述负样本对包括所述原始交互操作序列和非相似交互操作序列，所述非相似交互操作序列和所述原始交互操作序列间的相似度小于所述预设相似阈值；通过所述待定编码模型对所述样本对包括的每个交互操作序列分别进行特征提取，得到第一特征向量和第二特征向量；确定目标相似度，所述目标相似度为所述第一特征向量和所述第二特征向量间的相似度；根据所述样本对的标签和所述目标相似度的差异，调整所述待定编码模型的模型参数，得到目标编码模型，以便根据所述目标编码模型确定待识别对象标识的类型。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取多个待识别对象标识分别对应的多个待识别交互操作序列；根据所述多个待识别交互操作序列，分别通过所述目标编码模型进行特征提取，得到多个序列特征向量；对所述多个序列特征向量进行聚类，得到多个向量簇；确定所述多个向量簇分别对应的密集度，所述密集度用于标识对应向量簇包括的多个序列特征向量相对于簇中心的聚集程度，所述簇中心为所述对应向量簇的中心；根据多个所述密集度，从所述多个向量簇中确定满足预设筛选条件的目标向量簇；根据所述目标向量簇包括的多个序列特征向量，从所述多个待识别对象标识中确定所述类型为目标类型的待识别对象标识。3.根据权利要求2所述的方法，其特征在于，若所述目标类型为异常类型，则所述根据所述目标向量簇包括的多个序列特征向量，从所述多个待识别对象标识中确定所述类型为目标类型的待识别对象标识，包括：将所述目标向量簇包括的多个序列特征向量分别对应的多个待识别对象标识，确定为待定异常对象标识；获取多个所述待定异常对象标识的活跃时间；将活跃时间存在交集的待定异常对象标识，确定为所述类型为异常类型的待识别对象标识。4.根据权利要求1所述的方法，其特征在于，所述根据所述原始交互操作序列，训练得到用于特征提取的待定编码模型，包括：获取多种修改方式；按照所述多种修改方式对所述原始交互操作序列进行修改，得到多个形变交互操作序列；通过初始待定编码模型对目标交互操作序列进行特征提取，得到第三特征向量，所述
目标交互操作序列为所述原始交互操作序列或所述多个形变交互操作序列中的一个形变交互操作序列；根据所述第三特征向量，通过初始解码模型进行解码，得到重构交互操作序列；根据所述重构交互操作序列和所述原始交互操作序列的差异，调整所述初始待定编码模型的模型参数，得到所述待定编码模型，以及根据所述重构交互操作序列和所述原始交互操作序列的差异，调整所述初始解码模型的模型参数，得到解码器。5.根据权利要求4所述的方法，其特征在于，所述待定编码模型包括4个神经网络编码块，所述神经网络编码块包括6个多头注意力机制。6.根据权利要求4所述的方法，其特征在于，所述多种修改方式包括删除所述原始交互操作序列中部分交互操作序列、隐藏所述原始交互操作序列中部分交互操作序列，以及调换所述原始交互操作序列中部分交互操作序列中的多种组合方式。7.根据权利要求1所述的方法，其特征在于，所述确定目标相似度，包括：对所述第一特征向量进行池化操作，得到第一池化特征向量；对所述第二特征向量进行池化操作，得到第二池化特征向量，所述第一池化特征向量与所述第二池化特征向量的维度相等；确定所述第一池化特征向量和所述第二池化特征向量间的向量相似度。8.根据权利要求1所述的方法，其特征在于，所述根据所述样本对的标签和所述目标相似度的差异，调整所述待定编码模型的模型参数，得到目标编码模型，包括：若所述样本对的标签标识所述样本对为正样本对，根据所述目标相似度确定第一损失；若所述样本对的标签标识所述...

【专利技术属性】
技术研发人员：陈观钦，王摘星，陈健柯，王梦秋，
申请(专利权)人：深圳市腾讯天游科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人