基于神经网络的数据规范性检查方法、装置、设备及介质制造方法及图纸

技术编号:33631592 阅读:13 留言:0更新日期:2022-06-02 01:36
本申请公开了一种基于神经网络的数据规范性检查方法、装置、设备及介质,所述方法包括:获取待检查的数据;将待检查的数据输入预训练的数据类型识别模型,得到每列数据的数据类型;将每列数据以及对应的数据类型输入预训练的规范性检查模型,得到每列数据的规范性检查结果。根据本申请实施例提供的数据规范性检查方法,大大提高了数据规范性检查的效率,增加了数据类型的识别能力以及泛化能力,从而避免由于正则表达式的局限性和强匹配性导致的数据类型识别遗漏,还减少了人员对公共数据的接触,从而保障了数据共享和使用安全。从而保障了数据共享和使用安全。从而保障了数据共享和使用安全。

【技术实现步骤摘要】
基于神经网络的数据规范性检查方法、装置、设备及介质


[0001]本专利技术涉及数据处理
,特别涉及一种基于神经网络的数据规范性检查方法、装置、设备及介质。

技术介绍

[0002]随着政府数字化改革的不断推进,数据安全对于政府工作的重要性也越专利技术显。对于政府部门而言,针对公共数据开展数据安全防护便成为了工作重点。作为数据安全领域里的一个重要检查项,数据规范性检查对于公共数据的安全建设是必不可缺的一步,它是检查数据是否按照业务要求和规范性进行保存。
[0003]现有技术中的数据规范性检查方法,有的通过数据部门的员工进行人为检查,这种最基础的人为检查方式往往需要耗费大量的人力和时间,在效率上无法满足实际的业务需求。有的通过设定正则式进行数据匹配,通过正则方式进行的数据匹配,也会由于需要大量复杂的正则式导致检测规则的泛化性较差,从而出现遗漏,其庞大的数据量和众多的数据存储格式也影响检查的效率和准确性。

技术实现思路

[0004]本申请实施例提供了一种基于神经网络的数据规范性检查方法、装置、设备及介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
[0005]第一方面,本申请实施例提供了一种基于神经网络的数据规范性检查方法,包括:
[0006]获取待检查的数据;
[0007]将待检查的数据输入预训练的数据类型识别模型,得到每列数据的数据类型;
[0008]将每列数据以及对应的数据类型输入预训练的规范性检查模型,得到每列数据的规范性检查结果。
[0009]在一个可选地实施例中,将待检查的数据输入预训练的数据类型识别模型之前,还包括:
[0010]制定目标数据类别,目标数据类别为一级或多级目标数据类别;
[0011]获取每个最小级别的目标数据类别对应的数据并进行标注,得到第一数据集;
[0012]将第一数据集分为训练集和测试集,根据训练集和测试集训练数据类型识别模型。
[0013]在一个可选地实施例中,将待检查的数据输入预训练的数据类型识别模型,得到每列数据的数据类型,包括:
[0014]将待检查的数据输入预训练的数据类型识别模型,得到每列数据中每个数据的数据类型;
[0015]对每列数据中所有数据的数据类型进行投票,将比例较多的数据类型作为该列数
据的数据类型,将数据类型比例相等的列定义为其他类型,将无法识别数据类型的列定义为其他类型;
[0016]统计其他类型的数据列中的数据类型,并进行标注,得到更新后的训练数据集;
[0017]根据更新后的训练数据集训练数据类型识别模型,得到更新后的数据类型识别模型;
[0018]根据更新后的数据类型识别模型再次识别其他类型的数据列的数据类型,直到得到所有数据列的数据类型。
[0019]在一个可选地实施例中,将每列数据以及对应的数据类型输入预训练的规范性检查模型之前,还包括:
[0020]根据待检查数据对应的部门业务,设定待检查数据类别,待检查数据类别为一级数据类别;
[0021]获取待检查数据类别对应的数据并进行标注,得到第二数据集,其中,第二数据集中的数据格式满足预设的规范性检查规则;
[0022]将第二数据集分为训练集和测试集,根据训练集和测试集训练规范性检查模型。
[0023]在一个可选地实施例中,将每列数据以及对应的数据类型输入预训练的规范性检查模型,得到每列数据的规范性检查结果,包括:
[0024]将每列数据以及对应的数据类型输入预训练的规范性检查模型;
[0025]判断每列数据的数据类型是否属于待检查数据类别,若不属于,则确定该列数据的格式不规范。
[0026]在一个可选地实施例中,还包括:
[0027]若某列数据的数据类型属于预设的待检查数据类别,则输出该列数据中每个数据的数据类型;
[0028]判断该列数据中每个数据的数据类型是否全部相同,若全部相同,则确定该列数据的格式规范;
[0029]若不是全部相同,则确定该列数据的格式不规范。
[0030]在一个可选地实施例中,数据类型识别模型以及规范性检查模型的神经网络结构为改进的GAE网络结构,改进的GAE网络结构包括编码层以及反编码层,编码层包括依次连接的GNN网络以及FC网络,反编码层包括FC网络。
[0031]第二方面,本申请实施例提供了一种基于神经网络的数据规范性检查装置,包括:
[0032]获取模块,用于获取待检查的数据;
[0033]识别模块,用于将待检查的数据输入预训练的数据类型识别模型,得到每列数据的数据类型;
[0034]检查模块,用于将每列数据以及对应的数据类型输入预训练的规范性检查模型,得到每列数据的规范性检查结果。
[0035]第三方面,本申请实施例提供了一种基于神经网络的数据规范性检查设备,包括处理器和存储有程序指令的存储器,处理器被配置为在执行程序指令时,执行上述实施例提供的基于神经网络的数据规范性检查方法。
[0036]第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机可读指令,计算机可读指令被处理器执行以实现上述实施例提供的一种基于神经网络的数据规范
性检查方法。
[0037]本申请实施例提供的技术方案可以包括以下有益效果:
[0038]根据本申请实施例提供的基于神经网络的数据规范性检查方法,使用先数据类型识别再数据格式检查的方式,提高数据规范性检查的效率;使用预训练的神经网络模型代替正则表达式对数据类型进行识别,从而避免由于正则表达式的局限性和强匹配性导致的数据类型识别遗漏;使用神经网络模型代替人工数据服务,减少人员对公共数据的接触,从而保障了数据共享和使用安全;使用神经网络代替人工数据规范性检查,减少人工过程的时间,从而提高了数据规范性检查的效率,适应业务发展要求和性能需求。
[0039]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。
附图说明
[0040]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。
[0041]图1是根据一示例性实施例示出的一种基于神经网络的数据规范性检查方法的流程示意图;
[0042]图2是根据一示例性实施例示出的一种数据识别模型的训练方法示意图;
[0043]图3是根据一示例性实施例示出的一种数据识别模型的更新方法示意图;
[0044]图4是根据一示例性实施例示出的一种改进的GAE网络结构的示意图;
[0045]图5是根据一示例性实施例示出的一种基于神经网络的数据规范性检查装置的结构示意图;
[0046]图6是根据一示例性实施例示出的一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于神经网络的数据规范性检查方法,其特征在于,包括:获取待检查的数据;将待检查的数据输入预训练的数据类型识别模型,得到每列数据的数据类型;将每列数据以及对应的数据类型输入预训练的规范性检查模型,得到每列数据的规范性检查结果。2.根据权利要求1所述的方法,其特征在于,将待检查的数据输入预训练的数据类型识别模型之前,还包括:制定目标数据类别,所述目标数据类别为一级或多级目标数据类别;获取每个最小级别的目标数据类别对应的数据并进行标注,得到第一数据集;将所述第一数据集分为训练集和测试集,根据所述训练集和测试集训练所述数据类型识别模型。3.根据权利要求1所述的方法,其特征在于,将待检查的数据输入预训练的数据类型识别模型,得到每列数据的数据类型,包括:将待检查的数据输入预训练的数据类型识别模型,得到每列数据中每个数据的数据类型;对每列数据中所有数据的数据类型进行投票,将比例较多的数据类型作为该列数据的数据类型,将数据类型比例相等的列定义为其他类型,将无法识别数据类型的列定义为其他类型;统计其他类型的数据列中的数据类型,并进行标注,得到更新后的训练数据集;根据更新后的训练数据集训练所述数据类型识别模型,得到更新后的数据类型识别模型;根据所述更新后的数据类型识别模型再次识别其他类型的数据列的数据类型,直到得到所有数据列的数据类型。4.根据权利要求1所述的方法,其特征在于,将每列数据以及对应的数据类型输入预训练的规范性检查模型之前,还包括:根据待检查数据对应的部门业务,设定待检查数据类别,所述待检查数据类别为一级数据类别;获取所述待检查数据类别对应的数据并进行标注,得到第二数据集,其中,所述第二数据集中的数据格式满足预设的规范性检查规则;将所述第二数据集分为训练集和测试集,根据所述训练集和测试集...

【专利技术属性】
技术研发人员:俞弘毅单超炳郑聪龚小龙李克勤麻志毅
申请(专利权)人:浙江省北大信息技术高等研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1