数据处理方法、装置及设备制造方法及图纸

技术编号:35314954 阅读:14 留言:0更新日期:2022-10-22 13:07
本说明书实施例提供了一种数据处理方法、装置及设备,所述方法包括:获取待检测的目标页面,并将所述目标页面包含的文本信息划分为多个子文本信息;基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息,以及预先训练的类型确定模型,确定所述目标页面的页面类型,所述类型确定模型用于基于多模态数据确定页面的页面类型,所述目标页面的布局信息包括每个所述子文本信息在所述目标页面的第一位置信息,以及所述图像特征向量对应的图像在所述目标页面的第二位置信息;基于所述目标页面的页面类型,确定所述目标页面是否为存在风险的页面。的页面。的页面。

【技术实现步骤摘要】
数据处理方法、装置及设备


[0001]本说明书实施例涉及数据处理
,尤其涉及一种数据处理方法、装置及设备。

技术介绍

[0002]随着互联网行业的迅速发展,网络服务的数量和类型越来越多,网络风险也随之增多,如何为用户提供更加安全的网络环境,成为网络服务商关注的焦点。
[0003]在风控场景下,可以通过人工对网络页面进行巡检的方式,确定网络页面是否为存在风险的页面,但是,在黑产的欺诈手法发生新的变化时,会出现风控数据量大、更新速度快等情况,因而,人工巡检的方式会使得数据巡检压力大,数据训练效率低,这就可能导致无法及时准确的确定某页面是否为存在风险的页面,因此,需要一种在风控场景下,能及时准确的确定页面是否为存在风险的页面,以进行风险控制的解决方案。

技术实现思路

[0004]本说明书实施例的目的是提供一种数据处理方法、装置及设备,以提供一种在风控场景下,能及时准确的确定页面是否为存在风险的页面,以进行风险控制的解决方案。
[0005]为了实现上述技术方案,本说明书实施例是这样实现的:第一方面,本说明书实施例提供了一种数据处理方法,包括:获取待检测的目标页面,并将所述目标页面包含的文本信息划分为多个子文本信息;基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息,以及预先训练的类型确定模型,确定所述目标页面的页面类型,所述类型确定模型用于基于多模态数据确定页面的页面类型,所述目标页面的布局信息包括每个所述子文本信息在所述目标页面的第一位置信息,以及所述图像特征向量对应的图像在所述目标页面的第二位置信息;基于所述目标页面的页面类型,确定所述目标页面是否为存在风险的页面。
[0006]第二方面,本说明书实施例提供了一种数据处理装置,所述装置包括:页面获取模块,用于获取待检测的目标页面,并将所述目标页面包含的文本信息划分为多个子文本信息;类型确定模块,用于基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息,以及预先训练的类型确定模型,确定所述目标页面的页面类型,所述类型确定模型用于基于多模态数据确定页面的页面类型,所述目标页面的布局信息包括每个所述子文本信息在所述目标页面的第一位置信息,以及所述图像特征向量对应的图像在所述目标页面的第二位置信息;风险确定模块,用于基于所述目标页面的页面类型,确定所述目标页面是否为存在风险的页面。
[0007]第三方面,本说明书实施例提供了一种数据处理设备,所述数据处理设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取待检测的目标页面,并将所述目标页面包含的文本信息划分为多个子文本信息;基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所
述目标页面的布局信息,以及预先训练的类型确定模型,确定所述目标页面的页面类型,所述类型确定模型用于基于多模态数据确定页面的页面类型,所述目标页面的布局信息包括每个所述子文本信息在所述目标页面的第一位置信息,以及所述图像特征向量对应的图像在所述目标页面的第二位置信息;基于所述目标页面的页面类型,确定所述目标页面是否为存在风险的页面。
[0008]第四方面,本说明书实施例提供一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:获取待检测的目标页面,并将所述目标页面包含的文本信息划分为多个子文本信息;基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息,以及预先训练的类型确定模型,确定所述目标页面的页面类型,所述类型确定模型用于基于多模态数据确定页面的页面类型,所述目标页面的布局信息包括每个所述子文本信息在所述目标页面的第一位置信息,以及所述图像特征向量对应的图像在所述目标页面的第二位置信息;基于所述目标页面的页面类型,确定所述目标页面是否为存在风险的页面。
附图说明
[0009]为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图;图1A为本说明书一种数据处理方法实施例的流程图;图1B为本说明书一种数据处理方法实施例的处理过程示意图;图2为本说明书一种目标页面的文本信息示意图;图3为本说明书另一种数据处理方法实施例的处理过程示意图;图4为本说明书一种页面类型的确定过程示意图;图5为本说明书一种目标页面的页面类型的确定过程示意图;图6为本说明书一种数据处理装置实施例的结构示意图;图7为本说明书一种数据处理设备的结构示意图。
具体实施方式
[0010]本说明书实施例提供一种数据处理方法、装置及设备。
[0011]为了使本
的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
[0012]实施例一如图1A和图1B所示,本说明书实施例提供一种数据处理方法,该方法的执行主体可以为终端设备或服务器,终端设备可以如个人计算机等设备,也可以如手机、平板电脑等移动终端设备,该服务器可以是独立的服务器,也可以是由多个服务器组成的服务器集群。
该方法具体可以包括以下步骤:在S102中,获取待检测的目标页面,并将目标页面包含的文本信息划分为多个子文本信息。
[0013]其中,目标页面可以是任意待检测的一个或多个页面,例如,目标页面可以是某网站的预设页面(如某网站的第一个页面等),或者,目标页面还可以是某应用程序的预设页面(如资源转移应用的信息更新页面或资源转移页面等),目标页面包含的文本信息可以是基于目标页面的页面内容得到的任意文本信息,例如,若目标页面包含图像、音频、视频等元素,则可以对上述元素进行文本转换处理,并基于文本转换处理得到的文本数据构建目标页面包含的文本信息,即目标页面的文本信息可以包含对上述元素进行文本转换处理得到的文本数据,对目标页面包含的文本信息进行划分得到多个子文本信息的方法以及子文本信息的数量可以有多种,可以实际应用场景的不同而有所不同。
[0014]在实施中,随着互联网行业的迅速发展,网络服务的数量和类型越来越多,网络风险也随之增多,如何为用户提供更加安全的网络环境,成为网络服务商关注的焦点。在风控场景下,可以通过人工对网络页面进行巡检的方式,确定网络页面是否为存在风险的页面,但是,在黑产的欺诈手法发生新的变化时,会出现风控数据量大、更新速度快等情况,因而,人工巡检的方式会使得数据巡检压力大,数据训练效率低,这就可能导致无法及时准确的确定某本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,包括:获取待检测的目标页面,并将所述目标页面包含的文本信息划分为多个子文本信息;基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息,以及预先训练的类型确定模型,确定所述目标页面的页面类型,所述类型确定模型用于基于多模态数据确定页面的页面类型,所述目标页面的布局信息包括每个所述子文本信息在所述目标页面的第一位置信息,以及所述图像特征向量对应的图像在所述目标页面的第二位置信息;基于所述目标页面的页面类型,确定所述目标页面是否为存在风险的页面。2.根据权利要求1所述的方法,所述将所述目标页面包含的文本信息划分为多个子文本信息,包括:对所述目标页面进行字符识别处理,得到所述目标页面包含的文本信息;基于预设文本划分规则,对所述目标页面包含的文本信息进行划分处理,得到所述多个子文本信息;在所述基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息,以及预先训练的类型确定模型,确定所述目标页面的页面类型之前,还包括:基于预先训练的文本特征提取模型,对每个所述子文本信息进行特征提取处理,得到每个所述子文本信息对应的文本特征向量。3.根据权利要求2所述的方法,在所述基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息,以及预先训练的类型确定模型,确定所述目标页面的页面类型之前,还包括:对所述目标页面进行图像识别处理,得到与所述目标页面对应的目标图像;将所述目标图像划分为多个子图像,并确定与每个所述子图像对应的第一特征向量,以及每个所述子图像在所述目标页面的子位置信息;所述目标页面对应的图像特征向量包括多个所述第一特征向量,所述第二位置信息包括多个所述子位置信息,所述基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息,以及预先训练的类型确定模型,确定所述目标页面的页面类型,包括:基于每个所述子文本信息对应的文本特征向量、每个所述子图像对应的所述第一特征向量、每个所述子文本信息在所述目标页面的第一位置信息、每个所述子图像在所述目标页面的子位置信息,以及所述预先训练的类型确定模型,确定所述目标页面的页面类型。4.根据权利要求3所述的方法,在所述基于每个所述子文本信息对应的文本特征向量、所述目标页面对应的图像特征向量、所述目标页面的布局信息,以及预先训练的类型确定模型,确定所述目标页面的页面类型之前,还包括:获取历史页面以及所述历史页面的页面类型;将所述历史页面包含的文本信息划分为多个历史子文本信息;对所述历史页面进行图像识别处理,得到与所述历史页面对应的历史图像;将所述历史图像划分为多个子图像,并确定每个所述历史图像的子图像对应的第二特征向量,以及每个所述历史图像的子图像在所述历史页面的位置信息;
基于每个所述历史子文本信息对应的文本特征向量、每个所述历史图像的子图像对应的所述第二特征向量、每个所述历史子文本信息在所述历史页面的位置信息、每个所述历史图像的子图像在所述历史页面的位置信息,以及所述类型确定模型,确定所述历史页面的预测类型;基于所述历史页面的预测类型、所述历史页面的页面类型,以及预设损失函数,确定模型损失值;基于所述模型损失值,确定所述类型确定模型是否收敛,如果未收敛,则基于所述历史页面继续对所述类型确定模型进行训练,直到所述类型确定模型收敛,得到所述训练后的类型确定模型。5.根据权利要求4所述的方法,所述基于每个所述历史子文本信息对应的文本特征向量、每个所述历史图像的子图像对应的所述第二特征向量、每个所述历史子文本信息在所述历史页面的位置信息、每个所述历史图像的子图像在所述历史页面的位置信息,以及所述类型确定模型,确定所述历史页面的预测类型,包括:基于每个所述历史子文本信息对应的文本特征向量、每个所述历史图像的子图像对应的所述第二特征向量、每个所述历史子文本信息在所述历史页面的位置信息、每个所述历史图像的子图像在所述历史页面的位置信息,以及所述类型确定模型的向量提取层,确定所述历史页面的目标特征向量;基于...

【专利技术属性】
技术研发人员:王维强兰钧孟昌华
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1