信息清单的对齐方法、装置、存储介质和电子设备制造方法及图纸

技术编号:30905447 阅读:18 留言:0更新日期:2021-11-22 23:50
本公开涉及计算机技术领域,涉及了一种信息清单的对齐方法及装置、存储介质和电子设备。方法包括:对信息清单进行文字信息提取处理,确定信息清单中的基准对象文本框和对应的检测对象文本框,其中检测对象文本框的行数大于所述基准对象文本框的行数;在基准对象文本框和检测对象文本框中,分别计算相邻文本框之间的距离,对得到的距离值进行聚类处理,根据聚类处理结果从检测对象文本框中筛选出待对齐文本框;将待对齐文本框中的检测对象进行合并处理,使检测对象文本框的行数与对应的基准对象文本框的行数相同并进行对齐。本公开能够在图像质量较差情况下准确对齐图像对应信息清单中项目名称及对应的属性项,确保后续业务流程的高效执行。流程的高效执行。流程的高效执行。

【技术实现步骤摘要】
信息清单的对齐方法、装置、存储介质和电子设备


[0001]本公开涉及计算机
,更具体地,涉及一种信息清单的对齐方法、信息清单的对齐装置、计算机存储介质和电子设备。

技术介绍

[0002]随着计算机
的发展,许多行业已经逐渐由计算机替代人工来处理业务,实现高效的自动化业务处理流程。在很多场景下,计算机也可辅助人工来完成工作,例如通过OCR(Optical Character Recognition,文字识别)进行图像文字识别,信息清单明细是业务处理必不可少的参考资料,能否从信息清单明细中准确识别所需数据又影响整个业务处理的处理效率。
[0003]相关技术中,在对各类图像资料进行OCR识别的过程中,由于图像资料质量较差(例如存在图像扭曲、歪斜或模糊等),导致计算机无法准确识别图像中各项目,造成图像中信息清单明细项目之间难以对齐,例如因项目名称存在多行打印情况导致的项目名称和对应的属性信息错行对不齐,而信息清单明细中往往又包括众多文字信息,明细之间对不齐极大影响了信息提取效率,进而降低了工作效率。
[0004]需要说明的是,在上述
技术介绍
部分专利技术的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0005]本公开的目的在于提供一种信息清单的对齐方法及装置、计算机存储介质和电子设备,进而至少在一定程度上避免了因图像质量差而导致的信息清单明细难以对齐等问题。
[0006]本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
[0007]根据本公开的一个方面,提供一种信息清单的对齐方法,包括:对信息清单进行文字信息提取处理,确定所述信息清单中的基准对象文本框和对应的检测对象文本框,其中所述检测对象文本框的行数大于所述基准对象文本框的行数;在所述基准对象文本框和检测对象文本框中,分别计算相邻文本框之间的距离,对得到的距离值进行聚类处理,并根据聚类处理结果从所述检测对象文本框中筛选出待对齐文本框;将所述待对齐文本框中的检测对象进行合并处理,使所述检测对象文本框的行数与对应的基准对象文本框的行数相同并进行对齐。
[0008]在本公开的一种示例性实施例中,所述在所述基准对象文本框和对应的检测对象文本框中,分别计算相邻文本框之间的距离,对得到的距离值进行聚类处理,并根据聚类处理结果从所述检测对象文本框中筛选出待对齐文本框,包括:在所述基准对象文本框中,计算相邻文本框之间的第一距离,并对所述第一距离进行聚类处理,得到第一聚类中心及各所述基准对象文本框所属第一聚类中心的类别,所述第一聚类中心对应不同的行数;在所
述检测对象文本框中,计算相邻文本框之间的第二距离,并对所述第二距离进行聚类处理,得到第二聚类中心及各所述检测对象所属的第二聚类中心的类别,所述第二聚类中心对应漏检与未漏检;根据各所述基准对象文本框所属第一聚类中心的类别和/或各所述检测对象文本框所属第二聚类中心的类别,从所述检测对象文本框中筛选出待对齐文本框。
[0009]在本公开的一种示例性实施例中,所述在所述基准对象文本框中,计算相邻文本框之间的第一距离,并对所述第一距离进行聚类处理,得到第一聚类中心,包括:在所述基准对象文本框中,计算相邻文本框之间的第一距离,并对所述第一距离进行聚类处理,得到多个候选第一聚类中心,分别与预设的行数对应;依次计算每两个候选第一聚类中心之间的第一中心距离,并将第一中心距离小于第一距离阈值所对应的两个候选第一聚类中心进行合并,得到所述第一聚类中心。
[0010]在本公开的一种示例性实施例中,所述在所述检测对象文本框中,计算相邻文本框之间的第二距离,并对所述第二距离进行聚类处理,得到第二聚类中心,包括:在所述检测对象文本框中,计算相邻文本框之间的第二距离,并对所述第二距离进行聚类处理,得到两个候选第二聚类中心;计算两个候选第二聚类中心之间的第二中心距离,并在第二中心距离小于第二距离阈值时将所述两个候选第二聚类中心进行合并,得到所述第二聚类中心。
[0011]在本公开的一种示例性实施例中,所述根据各所述基准对象文本框所属第一聚类中心的类别和/或各所述检测对象文本框所属第二聚类中心的类别,从所述检测对象文本框中筛选出待对齐文本框,包括:遍历各所述基准对象文本框,确定各所述基准对象文本框所属的第一聚类中心的类别;从所述基准对象文本框中筛选出具有目标类别的目标基准文本框,所述目标类别的行数至少为2;获取与所述目标基准文本框对应的候选检测对象文本框,并确定所述候选检测对象文本框所属的第二聚类中心的类别;根据所述候选检测对象文本框所属的第二聚类中心的类别,从所述候选检测对象文本框中确定待对齐文本框。
[0012]在本公开的一种示例性实施例中,所述根据所述候选检测对象文本框所属的第二中心的类别,从所述候选检测对象文本框中确定待对齐文本框,包括:若所述候选检测对象文本框所属的第二聚类中心的类别为未漏检,则所述候选检测对象文本框为待对齐文本框。
[0013]在本公开的一种示例性实施例中,所述根据各所述基准对象文本框所属第一聚类中心的类别和/或各所述检测对象文本框所属第二聚类中心的类别,从所述检测对象文本框中筛选出待对齐文本框,包括:遍历各所述基准对象文本框,确定各所述基准对象文本框所属的第一聚类中心的类别;从所述基准对象文本框中筛选出具有目标类别的目标基准文本框,所述目标类别的行数至少为2;将所述目标基准文本框对应的多个检测对象文本框确定为候选检测对象文本框,各所述候选检测对象文本框位于同一列;获取最末位与次末位候选检测对象文本框中检测对象字符长度的差值;若存在所述差值小于长度阈值的,则将各所述候选检测对象文本框确定为待对齐文本框。
[0014]根据本公开的一个方面,提供一种信息清单的对齐装置,所述装置包括:
[0015]信息提取模块,用于对信息清单进行文字信息提取处理,确定所述信息清单中的基准对象文本框和对应的检测对象文本框,其中所述检测对象文本框的行数大于所述基准对象文本框的行数;聚类处理模块,用于在所述基准对象文本框和检测对象文本框中,分别
计算相邻文本框之间的距离,对得到的距离值进行聚类处理,并根据聚类处理结果从所述检测对象文本框中筛选出待对齐文本框;合并模块,用于将所述待对齐文本框中的检测对象进行合并处理,使所述检测对象文本框的行数与对应的基准对象的行数相同并进行对齐。
[0016]根据本公开的一个方面,提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的信息清单的对齐方法。
[0017]根据本公开的一个方面,提供一种电子设备,包括:一个或多个处理器;以及存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述任一项所述的信息清单的对齐方法。
[0018]本公开的示例性实施例中的信息清单的对齐方法,通过提取信息清单中的基准对象文本框和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息清单的对齐方法,其特征在于,包括:对信息清单进行文字信息提取处理,确定所述信息清单中的基准对象文本框和对应的检测对象文本框,其中所述检测对象文本框的行数大于所述基准对象文本框的行数;在所述基准对象文本框和检测对象文本框中,分别计算相邻文本框之间的距离,对得到的距离值进行聚类处理,并根据聚类处理结果从所述检测对象文本框中筛选出待对齐文本框;将所述待对齐文本框中的检测对象进行合并处理,使所述检测对象文本框的行数与对应的基准对象文本框的行数相同并进行对齐。2.根据权利要求1所述的对齐方法,其特征在于,所述在所述基准对象文本框和对应的检测对象文本框中,分别计算相邻文本框之间的距离,对得到的距离值进行聚类处理,并根据聚类处理结果从所述检测对象文本框中筛选出待对齐文本框,包括:在所述基准对象文本框中,计算相邻文本框之间的第一距离,并对所述第一距离进行聚类处理,得到第一聚类中心及各所述基准对象文本框所属第一聚类中心的类别,所述第一聚类中心对应不同的行数;在所述检测对象文本框中,计算相邻文本框之间的第二距离,并对所述第二距离进行聚类处理,得到第二聚类中心及各所述检测对象文本框所属第二聚类中心的类别,所述第二聚类中心对应漏检与未漏检;根据各所述基准对象文本框所属第一聚类中心的类别和/或各所述检测对象文本框所属第二聚类中心的类别,从所述检测对象文本框中筛选出待对齐文本框。3.根据权利要求2所述的对齐方法,其特征在于,所述在所述基准对象文本框中,计算相邻文本框之间的第一距离,并对所述第一距离进行聚类处理,得到第一聚类中心,包括:在所述基准对象文本框中,计算相邻文本框之间的第一距离,并对所述第一距离进行聚类处理,得到多个候选第一聚类中心,分别与预设的行数对应;依次计算每两个候选第一聚类中心之间的第一中心距离,并将第一中心距离小于第一距离阈值所对应的两个候选第一聚类中心进行合并,得到所述第一聚类中心。4.根据权利要求2所述的对齐方法,其特征在于,所述在所述检测对象文本框中,计算相邻文本框之间的第二距离,并对所述第二距离进行聚类处理,得到第二聚类中心,包括:在所述检测对象文本框中,计算相邻文本框之间的第二距离,并对所述第二距离进行聚类处理,得到两个候选第二聚类中心;计算两个候选第二聚类中心之间的第二中心距离,并在第二中心距离小于第二距离阈值时将所述两个候选第二聚类中心进行合并,得到所述第二聚类中心。5.根据权利要求2所述的对齐方法,其特征在于,所述根据各所述基准对象文本框所属第一聚类中心的类别和/或各所述检测对象文本框所属第二聚类中...

【专利技术属性】
技术研发人员:刘昊岳马文伟刘设伟
申请(专利权)人:泰康在线财产保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1