文件检测方法与系统、机器可读存储介质及电子设备技术方案

技术编号:31089571 阅读:26 留言:0更新日期:2021-12-01 12:50
本发明专利技术涉及数据检测技术领域,公开一种文件检测方法与系统。所述文件检测方法包括:识别目标文件中的多个第一文本框及其相关信息;根据所述多个第一文本框的相关信息及多个文件模板,确定与目标文件匹配的特定文件模板;识别目标文件中的多个第二文本框及其相关信息;分别计算多个目标文本框与所述特定文件模板中的多个第二标准文本框中相应的第二特定文本框之间的重叠度;以及当多个目标文本框与多个第二特定文本框之间的重叠度均大于阈值时,确定目标文件的手写体内容符合要求。本发明专利技术可针对各种样式的文件自动且有效地检测其信息填写是否完整,且检测结果的准确性高。且检测结果的准确性高。且检测结果的准确性高。

【技术实现步骤摘要】
文件检测方法与系统、机器可读存储介质及电子设备


[0001]本专利技术涉及数据检测
,具体地涉及一种文件检测方法与系统、机器可读存储介质及电子设备。

技术介绍

[0002]房产交易过程中涉及大量备件,然而填写人由于对填写规则不熟悉及其他原因,往往对备件填写不规范,存在重要信息留白现象;而对于不合规备件,需要人工对备件进行校验,一旦发现不合规的情形则需要更正后重新进行上传,由此,增大人工校验成本和房产交易的风险。然而,备件留白样式多样,留白位置不定,人工审查也极容易出现错误。

技术实现思路

[0003]本专利技术的目的是提供一种文件检测方法与系统、机器可读存储介质及电子设备,其可针对各种样式的文件自动且有效地检测其信息填写是否完整(即是否合规),且检测结果的准确性高。
[0004]为了实现上述目的,本专利技术第一方面提供一种文件检测方法,所述文件检测方法包括:识别目标文件中的多个第一文本框及所述多个第一文本框的位置信息与印刷体内容;根据所述多个第一文本框的位置信息与印刷体内容及多个文件模板,确定与所述目标文件匹配的特本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文件检测方法,其特征在于,所述文件检测方法包括:识别目标文件中的多个第一文本框及所述多个第一文本框的位置信息与印刷体内容;根据所述多个第一文本框的位置信息与印刷体内容及多个文件模板,确定与所述目标文件匹配的特定文件模板,其中,所述多个文件模板中的每个文件模板被标注有:多个第一标准文本框,用于容纳印刷体内容,以及与所述多个第一标准文本框对应的多个第二标准文本框,用于容纳手写体内容;所述多个第一标准文本框包含多个第一特定文本框,所述多个第一特定文本框的印刷体内容具有唯一性;识别所述目标文件中的多个第二文本框及所述多个第二文本框的位置信息,其中,所述多个第二文本框容纳有手写体内容;根据所述多个第二文本框中包含的多个目标文本框的位置信息及所述特定文件模板中的多个第二标准文本框的位置信息,分别计算所述多个目标文本框与所述特定文件模板中的多个第二标准文本框中相应的第二特定文本框之间的重叠度;以及在所述多个目标文本框与所述多个第二特定文本框之间的重叠度均大于阈值的情况下,确定所述目标文件的手写体内容符合要求。2.根据权利要求1所述的文件检测方法,其特征在于,所述确定与所述目标文件匹配的特定文件模板包括:基于所述多个第一文本框的印刷体内容及所述多个文件模板,采用匹配方法确定所述每个文件模板与所述目标文件的匹配分数;以及从所述多个文件模板中筛选匹配分数最高的文件模板,以将所筛选的文件模板作为所述特定文件模板。3.根据权利要求2所述的文件检测方法,其特征在于,所述采用匹配方法确定所述每个文件模板与所述目标文件的匹配分数包括:根据所述每个文件模板中的所述多个第一特定文本框的印刷体内容与所述多个第一文本框的印刷体内容,确定与所述第一文本框相对应的所述每个文件模板中的第一特定文本框的数目;以及根据所述每个文件模板中的所述多个第一特定文本框的总数目及与所述第一文本框相对应的所述每个文件模板中的第一特定文本框的数目,确定所述每个文件模板与所述目标文件的匹配分数。4.根据权利要求1所述的文件检测方法,其特征在于,所述分别计算所述多个目标文本框与所述特定文件模板中的多个第二标准文本框中相应的第二特定文本框之间的重叠度包括:根据所述多个目标文本框的位置信息与用于将所述目标文件中的坐标转换为所述特定文件模板中的相应坐标的变换矩阵,确定坐标变换后的多个目标文本框的位置信息;以及根据所述坐标变换后的多个目标文本框的位置信息与所述特定文件模板中的多个第二标准文本框的位置信息,分别计算所述坐标变换后的多个目标文本框与所述特定文件模板中相应的第二特定文本框之间的重叠度。5.根据权利要求4所述的文件检测方法,其特征在于,所述分别计算所述多个目标文本框与所述特定文件模板中的多个第二标准文本框中相应的第二特定文本框之间的重叠度
还包括:根据所述特定文件模板中的多个第一特定文本框的位置信息及与所述多个第一特定文本框相对应的第一文本框的位置信息,确定所述变换矩阵。6.根据权利要求4所述的文件检测方法,其特征在于,所述分别计算所述坐标变换后的多个目标文本框与所述特定文件模板中相应的第二特定文本框之间的重叠度包括:根据所述坐标变换后的多个目标文本框的位置信息与所述特定文件模板中的多个第二标准文本框的位置信息,确定与所述坐标变换后的多个目标文本框相对应的所述特定文件模板中的多个第二特定文本框;采用两种不同的重复确定规则,分别计算所述坐标变换后的多个目标文本框中的坐...

【专利技术属性】
技术研发人员:常战国郭流芳李壮
申请(专利权)人:北京房江湖科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1