【技术实现步骤摘要】
海量数据中识别目标类型数据的方法及装置
[0001]本专利技术涉及数据安全处理
,具体而言,涉及一种海量数据中识别目标类型数据的方法、装置、电子设备及计算机可读介质。
技术介绍
[0002]随着互联网的急速发展,类似企业数据仓库这种海量数据库的数据价值及可访问性得到了很大提升,同时,也对数据安全性带来了极大挑战。为此,准确识别数据仓库中有价值的目标类型数据变得尤为重要。而在数据仓库中,数据主要以字段为单位存储在数据表中,因此,数据仓库中需要准确识别目标类型字段。
[0003]目前,对于目标类型字段的识别需要应用系统通过jdbc数据库连接池获取数据表,判断数据表单个字段的抽样值是否与预定的目标类型字段相匹配,若匹配则将该字段识别为目标类型字段。在这种方式中,只关注单个字段的抽样值是否与预定的目标类型字段相匹配,而忽略匹配到的字段值在抽样总数上的占比,影响识别结果的准确性,进而存在敏感数据泄露的安全隐患。
技术实现思路
[0004]有鉴于此,本专利技术主要目的在于提出一种海量数据中识别目标类型数据的 ...
【技术保护点】
【技术特征摘要】
1.一种海量数据中识别目标类型数据的方法,其特征在于,所述方法包括:根据数据仓库中数据表类型对应的抽样规则从数据表n个字段中分别抽取n个样本数据;将第i样本数据输入至字段识别模型的M个接口,得到第i样本数据在M个预设字段类型上的识别结果;其中:字段识别模型的每个接口对应识别一个预设字段类型;根据第i样本数据在M个预设字段类型上的识别结果确定第i个字段判定为M个预设字段类型的概率;根据所述概率识别目标类型字段;其中:M、n、i均为大于零的自然数,且i小于等于n。2.根据权利要求1所述的方法,其特征在于,样本数据为json格式;所述将第i样本数据输入至字段识别模型的M个接口,得到第i样本数据在M个预设字段类型上的识别结果包括:将第i样本数据根据json结构进行拆解,得到第i样本数据的多个主键值;将每个主键值输入至字段识别模型的M个接口,得到每个主键值在M个预设字段类型上的识别结果;根据每个主键值在M个预设字段类型上的识别结果确定第i样本数据在M个预设字段类型上的识别结果。3.根据权利要求1或2所述的方法,其特征在于,第i个字段判定为第j个预设字段类型的概率q
ij
通过如下公式获取:其中:N
1ij
为第i个样本数据在第j个预设字段类型上的识别结果为第一识别结果的样本个数,N为第i个样本数据的总个数,j为大于零且小于等于M的自然数。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:配置每个预设字段类型的概率阈值;判断目标类型字段判定为第j个预设字段类型的概率是否大于第j个预设字段类型的概率阈值;若大于,根据所述第j个预设字段类型标记目标类型字段的类型;根据所述类型对所述目标类型字段进行脱敏处理。5.根据权利要求1所述的方法,其特征在于,所述数据表包括:分区表和非分区表;对非分区表采用第一抽样规则从数据表n个字段中分别抽取n个样本数据;对分区表按照分区顺序依次从各个分区的n个字段分别中抽取n个样本数据。6.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据目标类型字段提取目标类型数据表,并对所述目标类型数据表配置多层级的审批机制;和/或:对目标类型字段进行脱敏处理。7.一种海量数据中识别目标类型数据的装置,其特征在于,所述装置包括:抽样模块,用于根据数据仓库中数据表类型对应的抽样规则从数据表n个字段中分别抽取n个样本数据;
第一识别模块,用于将第i样本数据输入至字段识别模型的M个接口,得到第i样本数据在M个预设字段类型上的...
【专利技术属性】
技术研发人员:付彪,宋荣鑫,黄建庭,黄龙,
申请(专利权)人:上海淇毓信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。