数据处理方法、装置及设备制造方法及图纸

技术编号：35314954 阅读：14 留言：0更新日期：2022-10-22 13:07

本说明书实施例提供了一种数据处理方法、装置及设备，所述方法包括：获取待检测的目标页面，并将所述目标页面包含的文本信息划分为多个子文本信息；基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息，以及预先训练的类型确定模型，确定所述目标页面的页面类型，所述类型确定模型用于基于多模态数据确定页面的页面类型，所述目标页面的布局信息包括每个所述子文本信息在所述目标页面的第一位置信息，以及所述图像特征向量对应的图像在所述目标页面的第二位置信息；基于所述目标页面的页面类型，确定所述目标页面是否为存在风险的页面。的页面。的页面。

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法、装置及设备

[0001]本说明书实施例涉及数据处理
，尤其涉及一种数据处理方法、装置及设备。

技术介绍

[0002]随着互联网行业的迅速发展，网络服务的数量和类型越来越多，网络风险也随之增多，如何为用户提供更加安全的网络环境，成为网络服务商关注的焦点。
[0003]在风控场景下，可以通过人工对网络页面进行巡检的方式，确定网络页面是否为存在风险的页面，但是，在黑产的欺诈手法发生新的变化时，会出现风控数据量大、更新速度快等情况，因而，人工巡检的方式会使得数据巡检压力大，数据训练效率低，这就可能导致无法及时准确的确定某页面是否为存在风险的页面，因此，需要一种在风控场景下，能及时准确的确定页面是否为存在风险的页面，以进行风险控制的解决方案。

技术实现思路

[0004]本说明书实施例的目的是提供一种数据处理方法、装置及设备，以提供一种在风控场景下，能及时准确的确定页面是否为存在风险的页面，以进行风险控制的解决方案。
[0005]为了实现上述技术方案，本说明书实施例是这样实现的：第一方面，本说明书实施例提供了一种数据处理方法，包括：获取待检测的目标页面，并将所述目标页面包含的文本信息划分为多个子文本信息；基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息，以及预先训练的类型确定模型，确定所述目标页面的页面类型，所述类型确定模型用于基于多模态数据确定页面的页面类型，所述目标页面的布局信息包括每个所述子文本信息在所述目标页面的第一位置信...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法，包括：获取待检测的目标页面，并将所述目标页面包含的文本信息划分为多个子文本信息；基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息，以及预先训练的类型确定模型，确定所述目标页面的页面类型，所述类型确定模型用于基于多模态数据确定页面的页面类型，所述目标页面的布局信息包括每个所述子文本信息在所述目标页面的第一位置信息，以及所述图像特征向量对应的图像在所述目标页面的第二位置信息；基于所述目标页面的页面类型，确定所述目标页面是否为存在风险的页面。2.根据权利要求1所述的方法，所述将所述目标页面包含的文本信息划分为多个子文本信息，包括：对所述目标页面进行字符识别处理，得到所述目标页面包含的文本信息；基于预设文本划分规则，对所述目标页面包含的文本信息进行划分处理，得到所述多个子文本信息；在所述基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息，以及预先训练的类型确定模型，确定所述目标页面的页面类型之前，还包括：基于预先训练的文本特征提取模型，对每个所述子文本信息进行特征提取处理，得到每个所述子文本信息对应的文本特征向量。3.根据权利要求2所述的方法，在所述基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息，以及预先训练的类型确定模型，确定所述目标页面的页面类型之前，还包括：对所述目标页面进行图像识别处理，得到与所述目标页面对应的目标图像；将所述目标图像划分为多个子图像，并确定与每个所述子图像对应的第一特征向量，以及每个所述子图像在所述目标页面的子位置信息；所述目标页面对应的图像特征向量包括多个所述第一特征向量，所述第二位置信息包括多个所述子位置信息，所述基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息，以及预先训练的类型确定模型，确定所述目标页面的页面类型，包括：基于每个所述子文本信息对应的文本特征向量、每个所述子图像对应的所述第一特征向量、每个所述子文本信息在所述目标页面的第一位置信息、每个所述子图像在所述目标页面的子位置信息，以及所述预先训练的类型确定模型，确定所述目标页面的页面类型。4.根据权利要求3所述的方法，在所述基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息，以及预先训练的类型确定模型，确定所述目标页面的页面类型之前，还包括：获取历史页面以及所述历史页面的页面类型；将所述历史页面包含的文本信息划分为多个历史子文本信息；对所述历史页面进行图像识别处理，得到与所述历史页面对应的历史图像；将所述历史图像划分为多个子图像，并确定每个所述历史图像的子图像对应的第二特征向量，以及每个所述历史图像的子图像在所述历史页面的位置信息；
基于每个所述历史子文本信息对应的文本特征向量、每个所述历史图像的子图像对应的所述第二特征向量、每个所述历史子文本信息在所述历史页面的位置信息、每个所述历史图像的子图像在所述历史页面的位置信息，以及所述类型确定模型，确定所述历史页面的预测类型；基于所述历史页面的预测类型、所述历史页面的页面类型，以及预设损失函数，确定模型损失值；基于所述模型损失值，确定所述类型确定模型是否收敛，如果未收敛，则基于所述历史页面继续对所述类型确定模型进行训练，直到所述类型确定模型收敛，得到所述训练后的类型确定模型。5.根据权利要求4所述的方法，所述基于每个所述历史子文本信息对应的文本特征向量、每个所述历史图像的子图像对应的所述第二特征向量、每个所述历史子文本信息在所述历史页面的位置信息、每个所述历史图像的子图像在所述历史页面的位置信息，以及所述类型确定模型，确定所述历史页面的预测类型，包括：基于每个所述历史子文本信息对应的文本特征向量、每个所述历史图像的子图像对应的所述第二特征向量、每个所述历史子文本信息在所述历史页面的位置信息、每个所述历史图像的子图像在所述历史页面的位置信息，以及所述类型确定模型的向量提取层，确定所述历史页面的目标特征向量；基于...

【专利技术属性】
技术研发人员：王维强，兰钧，孟昌华，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人