一种文档对照识别方法、装置、电子设备和可读存储介质制造方法及图纸

技术编号:26304639 阅读:39 留言:0更新日期:2020-11-10 20:00
本发明专利技术提供了一种文档对照识别方法、装置、电子设备和可读存储介质,该文档对照识别方法包括:获取待对照文档的图像和参考文档的电子文档;基于预先训练的区域识别模型,识别待对照文档的图像中的每一行字符区域;基于预先训练的字符识别模型,识别每一行字符区域中的字符内容,得到识别后的字符;获取识别后的字符的位置信息;生成待对照文档的电子文档;对待对照文档的电子文档和参考文档的电子文档进行内容对比;根据对比结果,判断待对照文档与参考文档是否有差异点。本发明专利技术可以准确识别待对照文档中的信息并且可以将识别后的信息与参考文档中的内容进行对照,进而判断待对照文档中的内容与参考文档中的内容是否一致。

【技术实现步骤摘要】
一种文档对照识别方法、装置、电子设备和可读存储介质
本专利技术涉及机器学习
,特别涉及一种文档对照识别方法、装置、电子设备和可读存储介质。
技术介绍
在日常生活中,经常需要对两份文档进行对比,比如将发表的文章和原稿进行对比,将两份论文进行对比、将两份合同进行对比等,现有技术中对两份文档的对比主要依靠人工完成,这大大增加了人工成本,此外,准确率也难以得到保证。以合同为例,在签订合同的过程中,通常由双方协商确定合同的内容并由一方根据协商确定的内容进行合同的拟定,一方拟定完合同后发送给另一方进行确认,另一方确认后对合同进行打印盖章,并将打印盖完章的合同邮寄给拟定合同的一方,或者将打印盖完章的合同以照片或扫描件的形式传输给拟定合同的一方。由于,在此过程中,另一方有可能对合同的内容进行修改,为了安全起见,拟定合同的一方需要对另一方盖完章后的合同进行对照,以判断盖完章后的合同与原始合同是否一致,现有技术主要依靠人工对比的方式进行判断,这大大增加了人工成本,且人工对比过程中可能会由于人员疲劳、粗心等因素造成对比结果不准确的问题出现。...

【技术保护点】
1.一种文档对照识别方法,其特征在于,包括:/n获取待对照文档的图像和参考文档的电子文档;/n基于预先训练的区域识别模型,识别所述待对照文档的图像中的每一行字符区域,所述区域识别模型为基于神经网络的模型;/n基于预先训练的字符识别模型,识别所述每一行字符区域中的字符内容,得到识别后的字符,所述字符识别模型为基于神经网络的模型;/n获取所述识别后的字符的位置信息;/n根据所述位置信息以及所述识别后的字符,生成待对照文档的电子文档;/n对所述待对照文档的电子文档和所述参考文档的电子文档进行内容对比;以及/n根据对比结果,判断所述待对照文档与所述参考文档是否有差异点,并根据所述差异点的位置信息对所述...

【技术特征摘要】
1.一种文档对照识别方法,其特征在于,包括:
获取待对照文档的图像和参考文档的电子文档;
基于预先训练的区域识别模型,识别所述待对照文档的图像中的每一行字符区域,所述区域识别模型为基于神经网络的模型;
基于预先训练的字符识别模型,识别所述每一行字符区域中的字符内容,得到识别后的字符,所述字符识别模型为基于神经网络的模型;
获取所述识别后的字符的位置信息;
根据所述位置信息以及所述识别后的字符,生成待对照文档的电子文档;
对所述待对照文档的电子文档和所述参考文档的电子文档进行内容对比;以及
根据对比结果,判断所述待对照文档与所述参考文档是否有差异点,并根据所述差异点的位置信息对所述差异点进行定位。


2.如权利要求1所述的文档对照识别方法,其特征在于,所述参考文档的类型为word文档、可编辑文字的PDF文档、excel文档、ppt文档或txt文档。


3.如权利要求1所述的文档对照识别方法,其特征在于,所述参考文档的类型为不可编辑文字的PDF文档、图片文档或纸质文档,所述参考文档的电子文档的获取步骤与所述待对照文档的电子文档的获取步骤相同。


4.如权利要求2或3所述的文档对照识别方法,其特征在于,所述方法还包括:
根据所述差异点所在的位置信息,输出所述待对照文档的图像的对应内容与所述参考文档的电子文档或所述参考文档的图像的对应内容进行对照显示。


5.如权利要求4所述的文档对照识别方法,其特征在于,所述输出所述待对照文档的图像的对应内容与所述参考文档的电子文档或所述参考文档的图像的对应内容进行对照显示,包括:
根据所述差异点的类型,对所述待对照文档的图像的对应内容以及所述参考文档的电子文档或所述参考文档的图像的对应内容进行相应的标注。


6.如权利要求1所述的文档对照识别方法,其特征在于,所述根据对比结果,判断所述待对照文档与所述参考文档是否有差异点,包括:
若所述对比结果为所述待对照文档的电子文档相对于所述参考文档的电子文档的内容有所增加、有所删除或有所修改,则判断所述待对照文档与所述参考文档有差异点。


7.如权利要求1所述的文档对照识别方法,其特征在于,对所述待对照文档的电子文档和所述参考文档的电子文档进行内容对比,包括:
根据所述参考文档和所述待对照文档的内容顺序,按字符对所述参考文档的电子文档和所述待对照文档的电子文档进行相互查询对比。


8.如权利要求7所述的文档对照识别方法,其特征在于,所述方法还包括:
根据所述差异点所在的位置信息,对所述参考文档的电子文档和所述待对照文档的电子文档的后续对比对象的位置信息进行调整。


9.如权利要求1所述的文档对照识别方法,其特征在于,所述字符识别模型是基于空洞卷积和注意力模型建立的模型。


10.如权利要求9所述的文档对照识别方法,其特征在于,所述字符识别模型包括针对打印字体的识别模型和针对手写字体的识别模型,所述针对打印字体的识别模型和所述针对手写字体的识别模型分别经过各自独立...

【专利技术属性】
技术研发人员:徐青松李青
申请(专利权)人:杭州睿琪软件有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1