数据处理方法、装置、设备及存储介质制造方法及图纸

技术编号:36928485 阅读:11 留言:0更新日期:2023-03-22 18:51
本申请公开了一种数据处理方法、装置、设备及存储介质。该方法包括获取包括N种类型的资源的待识别资源和待识别资源的资源信息;将待识别资源和资源信息输入敏感数据识别模型,通过敏感数据识别模型对待识别资源进行特征抽取,得到N种类型的资源的隐藏特征;根据N种类型的资源的隐藏特征中任意两种类型的资源的隐藏特征,计算任意两种类型中每种类型的资源的注意力隐藏特征;基于N种类型的资源的注意力隐藏特征,从敏感数据识别模型中输出待识别资源的识别结果。如此,既可以识别到资源中的文本敏感数据,也可以识别到非文本敏感数据,在提高识别资源类型的同时,还可以提高敏感数据的识别效率。感数据的识别效率。感数据的识别效率。

【技术实现步骤摘要】
数据处理方法、装置、设备及存储介质


[0001]本申请属于计算机
,具体涉及一种数据处理方法、装置、电子设备及存储介质。

技术介绍

[0002]随着信息技术的飞速发展,人们在生产、生活中产生的各类数据呈指数级增长,如何在海量数据中识别敏感数据,以对其进行保护成为亟需关注的问题。
[0003]在相关技术中,虽然可以通过文本识别的方式识别海量数据中的文本敏感数据,但是,该方式无法识别海量数据中非文本如图像、音频等敏感数据,如此,识别敏感数据的方式较为单一,无法识别多种类型的敏感数据。

技术实现思路

[0004]本申请实施例提供一种数据处理方法、装置、设备及存储介质,能够解决现有技术中识别敏感数据的方式较为单一,导致无法识别多种类型的敏感数据的问题。
[0005]第一方面,本申请实施例提供一种数据处理方法,该方法可以包括:
[0006]获取待识别资源和待识别资源的资源信息,待识别资源包括N种类型的资源,资源信息包括N种类型的资源中每种类型的资源的类型标识和位置向量,N为大于1的整数;
[0007]将待识别资源和资源信息输入敏感数据识别模型,通过敏感数据识别模型对待识别资源进行特征抽取,得到N种类型的资源的隐藏特征;
[0008]根据N种类型的资源的隐藏特征中任意两种类型的资源的隐藏特征,计算任意两种类型中每种类型的资源的注意力隐藏特征,注意力隐藏特征用于表征任意两种类型的资源中的一种类型的资源的隐藏特征对另一种类型的资源的隐藏特征的注意力分布;
[0009]基于N种类型的资源的注意力隐藏特征,从敏感数据识别模型中输出待识别资源的识别结果。
[0010]第二方面,本申请实施例提供了一种数据处理装置,该装置可以包括:
[0011]获取模块,用于获取待识别资源和待识别资源的资源信息,待识别资源包括N种类型的资源,资源信息包括N种类型的资源中每种类型的资源的类型标识和位置向量,N为大于1的整数;
[0012]处理模块,用于将待识别资源和资源信息输入敏感数据识别模型,通过敏感数据识别模型对待识别资源进行特征抽取,得到N种类型的资源的隐藏特征;
[0013]计算模块,用于根据N种类型的资源的隐藏特征中任意两种类型的资源的隐藏特征,计算任意两种类型中每种类型的资源的注意力隐藏特征,注意力隐藏特征用于表征任意两种类型的资源中的一种类型的资源的隐藏特征对另一种类型的资源的隐藏特征的注意力分布;
[0014]输出模块,用于基于N种类型的资源的注意力隐藏特征,从敏感数据识别模型中输出待识别资源的识别结果。
[0015]第三方面,本申请实施例提供了一种计算设备,该计算设备包括:处理器以及存储有计算机程序指令的存储器;
[0016]处理器执行计算机程序指令时实现如第一方面所示的数据处理方法。
[0017]第四方面,本申请实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面所示的数据处理方法。
[0018]第五方面,本申请实施例提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现如第一方面所示的数据处理方法。
[0019]第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所示的数据处理方法。
[0020]本申请实施例的数据处理方法、装置、设备及存储介质,获取包括N种类型的资源的待识别资源和待识别资源的资源信息,资源信息包括N种类型的资源中每种类型的资源的类型标识和位置向量,N为大于1的整数;接着,将待识别资源和资源信息输入敏感数据识别模型,通过敏感数据识别模型对待识别资源进行特征抽取,得到N种类型的资源的隐藏特征,然后,根据N种类型的资源的隐藏特征中任意两种类型的资源的隐藏特征,计算任意两种类型中每种类型的资源的注意力隐藏特征,注意力隐藏特征用于表征任意两种类型的资源中的一种类型的资源的隐藏特征对另一种类型的资源的隐藏特征的注意力分布,并基于N种类型的资源的注意力隐藏特征,从敏感数据识别模型中输出待识别资源的识别结果。如此,通过上述方式既可以识别到资源中的文本敏感数据,也可以识别到资源中的非文本敏感数据如图像、音频等,无需针对具有多种类型的资源采用不同的识别方式分别识别,在提高敏感数据的识别效率的同时,避免了分别识别没有关联多种类型的资源之间的关联关系,导致识别准确度低的问题,另外,还可以通过上述方式确定待识别资源中敏感数据的敏感级别,方便用户基于敏感级别对待识别的资源进行处理。
附图说明
[0021]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1为本申请实施例提供的一种数据处理方法的流程图;
[0023]图2为本申请实施例提供的一种数据处理方法的训练初始敏感数据识别模型的结构示意图之一;
[0024]图3为本申请实施例提供的一种数据处理方法的训练初始敏感数据识别模型的结构示意图之二;
[0025]图4为本申请实施例提供的一种数据处理方法的训练初始敏感数据识别模型的结构示意图之三;
[0026]图5为本申请实施例提供的一种数据处理方法的训练初始敏感数据识别模型的结构示意图之四;
[0027]图6是本申请一个实施例提供的数据处理装置的结构示意图;
[0028]图7是本申请一个实施例提供的数据处理设备的结构示意图。
具体实施方式
[0029]下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
[0030]需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括
……”
限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0031]近些年,有很多用户或商户的敏感数据(如用户个人信息、商户涉密资料)被泄漏而损失惨重,因此,数据安全越来越重要。要保护数据安全,首先要了解哪本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取待识别资源和所述待识别资源的资源信息,所述待识别资源包括N种类型的资源,所述资源信息包括所述N种类型的资源中每种类型的资源的类型标识和位置向量,N为大于1的整数;将所述待识别资源和所述资源信息输入敏感数据识别模型,通过所述敏感数据识别模型对所述待识别资源进行特征抽取,得到所述N种类型的资源的隐藏特征;根据所述N种类型的资源的隐藏特征中任意两种类型的资源的隐藏特征,计算所述任意两种类型中每种类型的资源的注意力隐藏特征,所述注意力隐藏特征用于表征所述任意两种类型的资源中的一种类型的资源的隐藏特征对另一种类型的资源的隐藏特征的注意力分布;基于所述N种类型的资源的注意力隐藏特征,从所述敏感数据识别模型中输出所述待识别资源的识别结果。2.根据权利要求1所述的方法,其特征在于,所述将所述待识别资源和所述资源信息输入敏感数据识别模型,通过所述敏感数据识别模型对所述待识别资源进行特征抽取,得到所述N种类型的资源的隐藏特征,包括:通过所述敏感数据识别模型,根据预设类型标识和预设映射算法的关联信息,获取所述资源信息中N种类型标识的每种类型标识对应的映射算法;通过所述每种类型标识对应的映射算法,对所述N种类型的资源中与所述每种类型标识对应的资源和位置向量进行映射,得到N个映射向量,所述N个映射向量的向量格式与所述敏感数据识别模型中编码器的输入格式对应:通过所述编码器对所述N个映射向量中每个映射向量进行特征提取,得到所述N种类型的资源的隐藏特征。3.根据权利要求2所述的方法,其特征在于,所述N种类型标识包括第一种类型标识和第二种类型标识,所述第一种类型标识对应第一映射算法,所述第二种类型标识对应第二映射算法,所述N个映射向量包括多维向量和二维矩阵;所述通过所述每种类型标识对应的映射算法,对所述N种类型的资源中与所述每种类型标识对应的资源和位置向量进行映射,得到N个映射向量,包括:通过所述第一映射算法,将所述N种类型的资源中与第一种类型标识对应的资源和位置向量映射到预设空间,得到所述多维向量;以及,通过所述第二映射算法将所述第二种类型标识对应的资源映射到一维向量,并将所述第二种类型标识对应的资源的位置向量转换为二维矩阵。4.根据权利要求1所述的方法,其特征在于,所述根据所述N种类型的资源的隐藏特征中任意两种类型的资源的隐藏特征,计算所述任意两种类型中每种类型的资源的注意力隐藏特征,包括:根据所述N种类型的资源的隐藏特征,生成所述N种类型的资源的隐藏特征中每种类型的资源的隐藏特征的第一向量集合,所述第一向量集合包括查询向量、关键向量和内容向量;将所述任意两种类型的资源的隐藏特征的向量集合中的查询向量进行交叉互换,得到所述任意两种类型中每种类型的资源的隐藏特征的第二向量集合,所述第二向量集合包括
所述任意两种类型中第一种类型的关键向量、内容向量和第二种类型的资源对应的查询向量;通过多头注意计算算法,对所述任意两种类型中每种类型的资源的隐藏特征的第二向量集合进行处理,得到第一处理结果;对所述第一处理结果依次进行残差连接和归一化处理,得到第二处理结果;通过所述敏感数据识别模型中前馈神经网络,对所述第二处理结果再进行残差连接和归一化处理,得到所述每种类型的资源的注意力隐藏特征。5.根据权利要求1所述的方法,其特征在于,所述识别结果包括所述每种类型的资源的敏感等级;所述基于所述N种类型的资源的注意力隐藏特征,从所述敏感数据识别模型中输出所述待识别资源的识别结果,包括:合并所述N种类型的资源的注意力隐藏特征,得到注意力隐藏特征集合;对所述注意力隐藏特征集合依次进行池化和全连接处理,得到所述每种类型的资源中的敏感数据的敏感等级。6.根据权利要求1所述的方法,其特征在于,所述计算所述任意两种类型中每种类型的资源的注意力隐藏特征之后,所述方法还包括:在所述每种类型的资源包括异常资源的情况下,通过所述敏感数据识别模型中的多层感知器,对所述每种类型的资源的注意力隐藏特征进行重构,得到与所述异常资源对应的重构特征的概率值;根据所述重构特征的概率值,确定所述异常资源的敏感等级;其中,所述异常资源包括下述中的至少一种:被删除的资源、被修改的...

【专利技术属性】
技术研发人员:丁鹏勇刘斌苏慧兰刘旸旭马珺浩吕正林郑瑞刚周莉刘玮张歆孙敏梁恩磊李莉汪帆
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1