数据匹配方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:39052196 阅读:12 留言:0更新日期:2023-10-12 19:44
本申请涉及一种数据匹配方法、装置、计算机设备和存储介质。所述方法包括:获取待匹配数据中符合预设规则的第一待验证数据,其中,所述待匹配数据包括非结构化数据,所述预设规则根据目标原始数据中主列数据确定;根据所述目标原始数据中从列数据的字节长度,在所述第一待验证数据的预设临近范围内进行数据截取,得到第二待验证数据,并获取所述第二待验证数据的指纹;在所述第二待验证数据的指纹与所述目标原始数据中从列数据的指纹相匹配的情况下,确定所述待匹配数据中存在所述目标原始数据的技术方案,降低指纹计算量的同时,还提高了匹配的效率,进一步降低计算资源的消耗。进一步降低计算资源的消耗。进一步降低计算资源的消耗。

【技术实现步骤摘要】
数据匹配方法、装置、计算机设备和存储介质


[0001]本申请涉及信息
,特别是涉及一种数据匹配方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着信息网络的普及,数据信息安全已经成为我们必须面对的问题,特别是互联网时代,如果不对数据信息安全进行管理和监控,一旦出现信息泄露、丢失、损坏等情况,将会造成巨大的损失。
[0003]在验证非结构化数据中是否存在有需要保密的结构化数据时,相关技术中,通常是对非结构化数据进行分词处理,然后获取分词后的待验证数据的指纹,与结构化数据中目标数据的指纹进行匹配,来确定该非结构化数据中是否泄露了结构化数据中的目标数据。
[0004]然而,在相关技术中,由于是先进行分词,然后基于分词后的数据计算指纹并进行指纹匹配,该过程中的计算量较大,进而会导致计算设备存在:设备性能要求高、匹配准确率低的问题。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种低计算量、高匹配效率以及低资源消耗的数据匹配方法、装置、计算机设备和计算机可读存储介质。
[0006]第一方面,本申请提供了一种数据匹配方法。所述方法包括:
[0007]获取待匹配数据中符合预设规则的第一待验证数据,其中,所述待匹配数据包括非结构化数据,所述预设规则根据目标原始数据中主列数据确定;根据所述目标原始数据中从列数据的字节长度,在所述第一待验证数据的预设临近范围内进行数据截取,得到第二待验证数据,并获取所述第二待验证数据的指纹;在所述第二待验证数据的指纹与所述目标原始数据中从列数据的指纹相匹配的情况下,确定所述待匹配数据中存在所述目标原始数据。
[0008]在其中一个实施例中,所述从列数据包括至少一个元素;所述根据所述目标原始数据中从列数据的字节长度,在所述第一待验证数据的预设临近范围内进行数据截取,得到第二待验证数据,并获取所述第二待验证数据的指纹,包括:根据所述从列数据中目标元素的字节长度,在所述第一待验证数据的预设临近范围内进行数据截取,得到第二待验证数据,并获取所述第二待验证数据的指纹。
[0009]在其中一个实施例中,所述根据所述目标原始数据中从列数据的字节长度,在所述第一待验证数据的预设临近范围内进行数据截取,得到第二待验证数据,并获取所述第二待验证数据的指纹,包括:根据所述目标原始数据中从列数据的字节长度,在所述第一待验证数据的预设临近范围内,按照预设偏移量依次截取所述第二待验证数据,并获取所述第二待验证数据的指纹。
[0010]在其中一个实施例中,所述预设偏移量包括:1字节的偏移步长。
[0011]在其中一个实施例中,在所述获取待匹配数据中符合预设规则的第一待验证数据之前,所述方法还包括:获取所述预设规则、第一数据和所述目标原始数据中从列数据的指纹,其中,所述第一数据用于表示所述目标原始数据中从列数据的字节长度。
[0012]在其中一个实施例中,所述根据所述目标原始数据中从列数据的字节长度,在所述第一待验证数据的预设临近范围内进行数据截取,得到第二待验证数据,包括:对所述第一待验证数据的预设临近范围内的所述待匹配数据进行分词,得到第一字段集;在第一字段集中,获取与所述目标原始数据中从列数据的字节长度相同的字段作为所述第二待验证数据。
[0013]在其中一个实施例中,所述根据所述目标原始数据中从列数据的字节长度,在所述第一待验证数据的预设临近范围内进行数据截取,得到第二待验证数据之前,所述方法还包括:验证所述第一待验证数据的指纹与所述目标原始数据中主列数据的指纹是否匹配;在所述第一待验证数据的指纹与所述目标原始数据中主列数据的指纹相匹配的情况下,继续执行所述根据所述目标原始数据中从列数据的字节长度,在所述第一待验证数据的预设临近范围内进行数据截取,得到第二待验证数据
[0014]第二方面,本申请还提供了一种数据匹配装置。所述装置包括:
[0015]第一匹配模块,用于获取待匹配数据中符合预设规则的第一待验证数据,其中,所述待匹配数据包括非结构化数据,所述预设规则根据目标原始数据中主列数据确定;
[0016]获取模块,用于根据所述目标原始数据中从列数据的字节长度,在所述第一待验证数据的预设临近范围内进行数据截取,得到第二待验证数据,并获取所述第二待验证数据的指纹;
[0017]第二匹配模块,用于在所述第二待验证数据的指纹与所述目标原始数据中从列数据的指纹相匹配的情况下,确定所述待匹配数据中存在所述目标原始数据。
[0018]第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
[0019]获取待匹配数据中符合预设规则的第一待验证数据,其中,所述待匹配数据包括非结构化数据,所述预设规则根据目标原始数据中主列数据确定;
[0020]根据所述目标原始数据中从列数据的字节长度,在所述第一待验证数据的预设临近范围内进行数据截取,得到第二待验证数据,并获取所述第二待验证数据的指纹;
[0021]在所述第二待验证数据的指纹与所述目标原始数据中从列数据的指纹相匹配的情况下,确定所述待匹配数据中存在所述目标原始数据。
[0022]第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
[0023]获取待匹配数据中符合预设规则的第一待验证数据,其中,所述待匹配数据包括非结构化数据,所述预设规则根据目标原始数据中主列数据确定;
[0024]根据所述目标原始数据中从列数据的字节长度,在所述第一待验证数据的预设临近范围内进行数据截取,得到第二待验证数据,并获取所述第二待验证数据的指纹;
[0025]在所述第二待验证数据的指纹与所述目标原始数据中从列数据的指纹相匹配的情况下,确定所述待匹配数据中存在所述目标原始数据。
[0026]上述数据匹配方法、装置、计算机设备和存储介质,先通过预设规则在非结构化数据中进行粗匹配,快速确定符合预设规则的第一待验证数据,在该第一待验证数据周围以目标结构化数据的字节长度截取第二待验证数据,对第二待验证数据以及目标结构化数据进行指纹匹配,降低指纹计算量的同时,还提高了匹配的效率,进一步降低计算资源的消耗。
附图说明
[0027]图1为一个实施例中数据匹配方法的应用环境图;
[0028]图2为一个实施例中数据匹配方法的流程图;
[0029]图3为一个实施例中第一数据库的构造方法流程图;
[0030]图4为一个实施例中数据匹配方法的流程示意图;
[0031]图5为一个实施例中数据匹配方法的流程示意图;
[0032]图6为一个实施例中数据匹配装置的结构框图;
[0033]图7为一个实施例中计算机设备的结构图。
具体实施方式
[0034]为了使本申请的目的、技术方案及优点更加清楚明白,以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据匹配方法,其特征在于,所述方法包括:获取待匹配数据中符合预设规则的第一待验证数据,其中,所述待匹配数据包括非结构化数据,所述预设规则根据目标原始数据中主列数据确定;根据所述目标原始数据中从列数据的字节长度,在所述第一待验证数据的预设临近范围内进行数据截取,得到第二待验证数据,并获取所述第二待验证数据的指纹;在所述第二待验证数据的指纹与所述目标原始数据中从列数据的指纹相匹配的情况下,确定所述待匹配数据中存在所述目标原始数据。2.根据权利要求1所述的数据匹配方法,其特征在于,所述从列数据包括至少一个元素;所述根据所述目标原始数据中从列数据的字节长度,在所述第一待验证数据的预设临近范围内进行数据截取,得到第二待验证数据,并获取所述第二待验证数据的指纹,包括:根据所述从列数据中目标元素的字节长度,在所述第一待验证数据的预设临近范围内进行数据截取,得到第二待验证数据,并获取所述第二待验证数据的指纹。3.根据权利要求1所述的数据匹配方法,其特征在于,所述根据所述目标原始数据中从列数据的字节长度,在所述第一待验证数据的预设临近范围内进行数据截取,得到第二待验证数据,并获取所述第二待验证数据的指纹,包括:根据所述目标原始数据中从列数据的字节长度,在所述第一待验证数据的预设临近范围内,按照预设偏移量依次截取所述第二待验证数据,并获取所述第二待验证数据的指纹。4.根据权利要求3所述的数据匹配方法,其特征在于,所述预设偏移量包括:1字节的偏移步长。5.根据权利要求1所述的数据匹配方法,其特征在于,在所述获取待匹配数据中符合预设规则的第一待验证数据之前,所述方法还包括:获取所述预设规则、第一数据和所述目标原始数据中从列数据的指纹,其中,所述第一数据用于表示所述目标原始数据中从列数据的字节长度。6.根据权利要求1所述的数据匹配方法,其特征在于,所述根据所述...

【专利技术属性】
技术研发人员:周杨谭孟恩
申请(专利权)人:杭州安恒信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1