【技术实现步骤摘要】
数据处理方法、装置、设备及存储介质
[0001]本申请属于计算机
,具体涉及一种数据处理方法、装置、电子设备及存储介质。
技术介绍
[0002]随着信息技术的飞速发展,人们在生产、生活中产生的各类数据呈指数级增长,如何在海量数据中识别敏感数据,以对其进行保护成为亟需关注的问题。
[0003]在相关技术中,虽然可以通过文本识别的方式识别海量数据中的文本敏感数据,但是,该方式无法识别海量数据中非文本如图像、音频等敏感数据,如此,识别敏感数据的方式较为单一,无法识别多种类型的敏感数据。
技术实现思路
[0004]本申请实施例提供一种数据处理方法、装置、设备及存储介质,能够解决现有技术中识别敏感数据的方式较为单一,导致无法识别多种类型的敏感数据的问题。
[0005]第一方面,本申请实施例提供一种数据处理方法,该方法可以包括:
[0006]获取待识别资源和待识别资源的资源信息,待识别资源包括N种类型的资源,资源信息包括N种类型的资源中每种类型的资源的类型标识和位置向量,N为大于1的整数;
[0007]将待识别资源和资源信息输入敏感数据识别模型,通过敏感数据识别模型对待识别资源进行特征抽取,得到N种类型的资源的隐藏特征;
[0008]根据N种类型的资源的隐藏特征中任意两种类型的资源的隐藏特征,计算任意两种类型中每种类型的资源的注意力隐藏特征,注意力隐藏特征用于表征任意两种类型的资源中的一种类型的资源的隐藏特征对另一种类型的资源的隐藏特征的注意力分布;
[000 ...
【技术保护点】
【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取待识别资源和所述待识别资源的资源信息,所述待识别资源包括N种类型的资源,所述资源信息包括所述N种类型的资源中每种类型的资源的类型标识和位置向量,N为大于1的整数;将所述待识别资源和所述资源信息输入敏感数据识别模型,通过所述敏感数据识别模型对所述待识别资源进行特征抽取,得到所述N种类型的资源的隐藏特征;根据所述N种类型的资源的隐藏特征中任意两种类型的资源的隐藏特征,计算所述任意两种类型中每种类型的资源的注意力隐藏特征,所述注意力隐藏特征用于表征所述任意两种类型的资源中的一种类型的资源的隐藏特征对另一种类型的资源的隐藏特征的注意力分布;基于所述N种类型的资源的注意力隐藏特征,从所述敏感数据识别模型中输出所述待识别资源的识别结果。2.根据权利要求1所述的方法,其特征在于,所述将所述待识别资源和所述资源信息输入敏感数据识别模型,通过所述敏感数据识别模型对所述待识别资源进行特征抽取,得到所述N种类型的资源的隐藏特征,包括:通过所述敏感数据识别模型,根据预设类型标识和预设映射算法的关联信息,获取所述资源信息中N种类型标识的每种类型标识对应的映射算法;通过所述每种类型标识对应的映射算法,对所述N种类型的资源中与所述每种类型标识对应的资源和位置向量进行映射,得到N个映射向量,所述N个映射向量的向量格式与所述敏感数据识别模型中编码器的输入格式对应:通过所述编码器对所述N个映射向量中每个映射向量进行特征提取,得到所述N种类型的资源的隐藏特征。3.根据权利要求2所述的方法,其特征在于,所述N种类型标识包括第一种类型标识和第二种类型标识,所述第一种类型标识对应第一映射算法,所述第二种类型标识对应第二映射算法,所述N个映射向量包括多维向量和二维矩阵;所述通过所述每种类型标识对应的映射算法,对所述N种类型的资源中与所述每种类型标识对应的资源和位置向量进行映射,得到N个映射向量,包括:通过所述第一映射算法,将所述N种类型的资源中与第一种类型标识对应的资源和位置向量映射到预设空间,得到所述多维向量;以及,通过所述第二映射算法将所述第二种类型标识对应的资源映射到一维向量,并将所述第二种类型标识对应的资源的位置向量转换为二维矩阵。4.根据权利要求1所述的方法,其特征在于,所述根据所述N种类型的资源的隐藏特征中任意两种类型的资源的隐藏特征,计算所述任意两种类型中每种类型的资源的注意力隐藏特征,包括:根据所述N种类型的资源的隐藏特征,生成所述N种类型的资源的隐藏特征中每种类型的资源的隐藏特征的第一向量集合,所述第一向量集合包括查询向量、关键向量和内容向量;将所述任意两种类型的资源的隐藏特征的向量集合中的查询向量进行交叉互换,得到所述任意两种类型中每种类型的资源的隐藏特征的第二向量集合,所述第二向量集合包括
所述任意两种类型中第一种类型的关键向量、内容向量和第二种类型的资源对应的查询向量;通过多头注意计算算法,对所述任意两种类型中每种类型的资源的隐藏特征的第二向量集合进行处理,得到第一处理结果;对所述第一处理结果依次进行残差连接和归一化处理,得到第二处理结果;通过所述敏感数据识别模型中前馈神经网络,对所述第二处理结果再进行残差连接和归一化处理,得到所述每种类型的资源的注意力隐藏特征。5.根据权利要求1所述的方法,其特征在于,所述识别结果包括所述每种类型的资源的敏感等级;所述基于所述N种类型的资源的注意力隐藏特征,从所述敏感数据识别模型中输出所述待识别资源的识别结果,包括:合并所述N种类型的资源的注意力隐藏特征,得到注意力隐藏特征集合;对所述注意力隐藏特征集合依次进行池化和全连接处理,得到所述每种类型的资源中的敏感数据的敏感等级。6.根据权利要求1所述的方法,其特征在于,所述计算所述任意两种类型中每种类型的资源的注意力隐藏特征之后,所述方法还包括:在所述每种类型的资源包括异常资源的情况下,通过所述敏感数据识别模型中的多层感知器,对所述每种类型的资源的注意力隐藏特征进行重构,得到与所述异常资源对应的重构特征的概率值;根据所述重构特征的概率值,确定所述异常资源的敏感等级;其中,所述异常资源包括下述中的至少一种:被删除的资源、被修改的...
【专利技术属性】
技术研发人员:丁鹏勇,刘斌,苏慧兰,刘旸旭,马珺浩,吕正林,郑瑞刚,周莉,刘玮,张歆,孙敏,梁恩磊,李莉,汪帆,
申请(专利权)人:中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。