文件内容比对方法和装置制造方法及图纸

技术编号:30342209 阅读:24 留言:0更新日期:2021-10-12 23:14
本发明专利技术提供了文件内容比对方法,包括:从文本文件和第一图片文件中提取第一字符串和第二字符串,当判断出第一字符串和第二字符串一致时,确定出文件文本和第一图片文件的比对通过,不一致时,再将文本文件转换为图片格式,通过对比两个图片文件的图像特征之间的距离,确定比对是否通过。因此能够通过比对提取出字符串,确定出两个文件的比对结果,避免了传统方法中使用单个字符进行比对时,单个字符的识别障碍问题;若第一次比对不通过时,则将第次一比对不通过的文本文件转换成图片格式,利用图片文件的特征值,在整体上考察两个图片文件内容的一致性,避免了人工检测无法识别的模糊文本文件时,存在的漏检问题,进而提高了文件比对的精准度。比对的精准度。比对的精准度。

【技术实现步骤摘要】
文件内容比对方法和装置


[0001]本文件涉及数据处理
,尤其涉及一种文件内容比对方法和装置。

技术介绍

[0002]为了提高办事效率,对一些较为常用的合同,会事先制作好电子合同模板,使用时再根据需要填写好电子合同,然后再打印出纸质合同供双方进行签字盖章。一些比较重要的合同文件在签订前后均需对电子版本合同和打印出的纸质合同进行比对,以防止意外篡改,如政企合同、税务合同、电子商务合同等。
[0003]目前,主要通过传统的OCR技术进行文本内容的比对,具体过程如下,先使用电子扫描设备将纸质合同转化成图片文件,通过检测图片文件中不同位置的亮暗程度,逐字识别出图片文件中的字符,再将识别出的图片文件中的字符与电子合同进行比对,以得出比对结果。
[0004]但是,传统的OCR技术只适合识别纯文本文件,而现实中的合同文件由于有一定的格式要求,会存在标识性表格线等元素,因此扫描时会引入阴影噪声,进而对OCR的准确性产生影响,并且,当阴影噪声较大时,传统的OCR技术将无法识别文件中的字符,若通过人工方式继续识别,仍然存在较大的漏检风险。因此,目前的文件比对方法准确度不高。

技术实现思路

[0005]本说明书一个实施例的目的是提供一种文件内容比对方法和装置,以解决目前的文件比对方法准确度不高的问题。
[0006]为解决上述技术问题,本说明书一个实施例是这样实现的:
[0007]第一方面,本说明书一个实施例提供了一种文件内容比对方法,包括:获取待比对的文本文件和第一图片文件,从文本文件中提取待比对的第一字符串,从第一图片文件中提取待比对的第二字符串;判断第一字符串和第二字符串是否一致,若一致,则确定文本文件和第一图片文件比对通过,若不一致,则将文本文件的格式转换为图片格式,得到第二图片文件;判断第一图片文件的图像特征和第二图片文件的图像特征之间的距离是否满足预设距离要求;若满足,则确定文本文件和第一图片文件比对通过,若不满足,则确定文本文件和第一图片文件比对不通过。
[0008]第二方面,本说明书另一个实施例提供了一种文件内容比对装置,包括:提取模块:用于获取待比对的文本文件和第一图片文件,从文本文件中提取待比对的第一字符串,从第一图片文件中提取待比对的第二字符串;第一判断模块:用于判断第一字符串和第二字符串是否一致,若一致,则确定文本文件和第一图片文件比对通过,若不一致,则将文本文件的格式转换为图片格式,得到第二图片文件;第二判断模块:用于判断第一图片文件的图像特征和第二图片文件的图像特征之间的距离是否满足预设距离要求;确定模块:用于若满足,则确定文本文件和第一图片文件比对通过,若不满足,则确定文本文件和第一图片文件比对不通过。
[0009]第三方面,本说明书又一个实施例提供了一种文件内容比对设备,包括:存储器、处理器和存储在存储器上并可在处理器上运行的计算机可执行指令,计算机可执行指令被处理器执行时实现如上述第一方面的文件内容比对方法的步骤。
[0010]第四方面,本说明书再一个实施例提供了一种计算机可读存储介质,计算机可读存储介质用于存储计算机可执行指令,计算机可执行指令被处理器执行时实现如上述第一方面的文件内容比对方法的步骤。
[0011]在本说明书一个实施例中,从文本文件和第一图片文件中提取第一字符串和第二字符串,当判断出第一字符串和第二字符串一致时,确定出文件文本和第一图片文件的比对通过,当第一字符串和第二字符串不一致时,再将文本文件转换为图片格式,通过对比两个图片文件的图像特征之间的距离,确定比对是否通过。因此能够通过比对提取出字符串,确定出两个文件的比对结果,避免了传统方法中使用单个字符进行比对时,单个字符的识别障碍问题;若第一次比对不通过时,则将第次一比对不通过的文本文件转换成图片格式,利用图片文件的特征值,在整体上考察两个图片文件内容的一致性,避免了人工检测无法识别的模糊文本文件时,存在的漏检问题,进而提高了文件比对的精准度。
附图说明
[0012]为了更清楚地说明本说明书一个或多个实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0013]图1为本说明书一个实施例提供的文件比对方法的第一种流程示意图;
[0014]图2为本说明书一个实施例提供的文件比对方法的第二种流程示意图;
[0015]图3为本说明书一个实施例提供的文件比对装置的模块示意图;
[0016]图4为本说明书一个实施例提供的文件比对设备的模块示意图。
具体实施方式
[0017]为了使本
的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。
[0018]图1为本说明书一实施例提供的文件内容比对方法的流程示意图,如图1所示,该流程包括以下步骤:
[0019]步骤S102,获取待比对的文本文件和第一图片文件,从文本文件中提取待比对的第一字符串,从第一图片文件中提取待比对的第二字符串;
[0020]步骤S104,判断第一字符串和第二字符串是否一致,若一致,则确定文本文件和第一图片文件比对通过,若不一致,则将文本文件的格式转换为图片格式,得到第二图片文件;
[0021]步骤S106,判断第一图片文件的图像特征和第二图片文件的图像特征之间的距离
是否满足预设距离要求;
[0022]步骤S108,若满足,则确定文本文件和第一图片文件比对通过,若不满足,则确定文本文件和第一图片文件比对不通过。
[0023]本实施例中,从文本文件和第一图片文件中提取第一字符串和第二字符串,当判断出第一字符串和第二字符串一致时,确定出文件文本和第一图片文件的比对通过,当第一字符串和第二字符串不一致时,再将文本文件转换为图片格式,通过对比两个图片文件的图像特征之间的距离,确定比对是否通过。因此能够通过比对提取出字符串,确定出两个文件的比对结果,避免了传统方法中使用单个字符进行比对时,单个字符的识别障碍问题;若第一次比对不通过时,则将第次一比对不通过的文本文件转换成图片格式,利用图片文件的特征值,在整体上考察两个图片文件内容的一致性,避免了人工检测无法识别的模糊文本文件时,存在的漏检问题,进而提高了文本比对的精准度。
[0024]上述步骤S102中,获取待比对的文本文件和第一图片文件,从文本文件中提取待比对的第一字符串,从第一图片文件中提取待比对的第二字符串。
[0025]文本文件可以为pdf格式、word格式等,第一图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文件内容比对方法,其特征在于,包括:获取待比对的文本文件和第一图片文件,从所述文本文件中提取待比对的第一字符串,从所述第一图片文件中提取待比对的第二字符串;判断所述第一字符串和所述第二字符串是否一致,若一致,则确定所述文本文件和所述第一图片文件比对通过,若不一致,则将所述文本文件的格式转换为图片格式,得到第二图片文件;判断所述第一图片文件的图像特征和所述第二图片文件的图像特征之间的距离是否满足预设距离要求;若满足,则确定所述文本文件和所述第一图片文件比对通过,若不满足,则确定所述文本文件和所述第一图片文件比对不通过。2.根据权利要求1所述的方法,其特征在于,从所述文本文件中提取待比对的第一字符串,包括:对所述文本文件进行识别,确定所述文本文件中的各个字段名和各个字段值的记录位置;从各个字段值的记录位置处提取各个所述字段值,作为所述第一字符串。3.根据权利要求1所述的方法,其特征在于,从所述第一图片文件中提取待比对的第二字符串,包括:将所述文本文件的格式转换为图片格式,得到第二图片文件,并根据所述第一图片文件的图像特征和所述第二图片文件的图像特征,对所述第一图片文件和所述第二图片文件进行对齐;根据对齐后的所述第二图片文件中所述第一字符串的记录位置,在对齐后的所述第一图片文件中确定所述第二字符串的第一可能记录位置;对所述第一图片文件进行图像处理,得到所述第一图片文件中所述第二字符串的第二可能记录位置;根据所述第一可能记录位置和所述第二可能记录位置,从所述第一图片文件中提取所述第二字符串。4.根据权利要求3所述的方法,其特征在于,对所述第一图片文件进行图像处理,得到所述第一图片文件中所述第二字符串的第二可能记录位置,包括:对所述第一图片文件进行滤波处理,将滤波处理后的所述第一图片文件转换为灰度图片,并生成所述灰度图片对应的梯度图;对所述梯度图进行二值化处理,以得到多个候选位置,按照预设位置选取规则,在所述多个候选位置中选取所述第二可能记录位置。5.根据权利要求3所述的方法,其特征在于,根据所述第一可能记录位置和所述第二可能记录位置,从所述第一图片文件中提取所述第二字符串,包括:根据所述第一可能记录位置和所述第二可能记录位置,通过交并比算法确定得到目标记录位置;利用预先训练的第一神经网络模型,根据所述目标记录位置,从所述第一图片文件中提取所述...

【专利技术属性】
技术研发人员:汤斯鹏张洁辉王依桐张培炜池鸿源曹海山
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1