用于校验表格数据的方法、装置、设备和计算机存储介质制造方法及图纸

技术编号:21832496 阅读:24 留言:0更新日期:2019-08-10 17:56
根据本公开内容的示例性实施例,提供了一种用于校验表格数据的方法、装置、设备和计算机存储介质。具体地,提供了一种用于校验表格数据的方法,包括:获取表格图像,表格图像中的表格包括多个字段和与多个字段中的每个字段相对应的数值;基于表格图像,识别多个字段中的每个字段和对应的数值;获取与多个字段中的至少一些字段有关的预定关系,预定关系指示与至少一些字段相对应的数值之间的关联关系;以及校验与至少一些字段相对应的数值是否满足预定关系。根据本公开内容的示例性实施例,还提供了用于校验表格数据相应的装置、设备和计算机存储介质。

Methods, devices, equipment and computer storage media for checking tabular data

【技术实现步骤摘要】
用于校验表格数据的方法、装置、设备和计算机存储介质
本公开的实施例主要涉及图像识别领域,并且更具体地,涉及一种用于校验表格数据的方法、装置、设备和计算机存储介质。
技术介绍
表格是一种有效管理和组织数据的格式,长期以来,纸质表格已经被广泛应用于各个领域。为了辅助办公自动化,需要将已有的纸质表格扫描或拍照,形成电子形式的表格图像。然后进行表格识别,以进行后续处理。在图像识别领域中,正确识别图像中的表格及其内容有着重要意义。例如,对于金融机构而言,正确识别诸如资产负债表、现金流量表、利润表之类的企业财务报表有助于全面地揭示企业的经营状况,进而有助于在信贷审批和其他决策中提高工作效率。目前在图像识别领域中,主要依赖于OCR(OpticalCharacterRecognition,光学字符识别)技术来识别图像中的表格。通过图像预处理、图像分割、字符识别、识别结果处理等一系列过程可以获得识别结果。然而,由于部分图像或者图像的一部分存在像素较低、图片模糊等情况,导致表格中的部分数据识别有误;或者图像中的原始数据本身存在错误。这些问题都是需要在后续处理中格外关注的,如果在后续处理中完全依靠人工来校验表格数据的识别结果,那么工作量巨大,并且校验的准确性和完整性也不能得到保证。这影响了OCR技术在表格自动识别中的应用效果。对于一些类型的表格,特别是包含多个数值的表格,表格中的至少一些项目之间存在关联关系。因而,期望提供一种能够利用表格中各个项目间的关联关系来校验表格数据的方法。
技术实现思路
根据本公开内容的示例实施例,提供了一种用于校验表格数据的方案。在本公开内容的第一方面中,提供了一种用于校验表格数据的方法。具体地,该方法包括:获取表格图像,表格图像中的表格包括多个字段和与多个字段中的每个字段相对应的数值;基于表格图像,识别多个字段中的每个字段和对应的数值;获取与多个字段中的至少一些字段有关的预定关系,预定关系指示与至少一些字段相对应的数值之间的关联关系;以及校验与至少一些字段相对应的数值是否满足预定关系。在本公开内容的第二方面中,提供了一种用于校验表格数据的装置。具体地,该装置包括:图像获取模块,图像获取模块被配置为获取表格图像,表格图像中的表格包括多个字段和与多个字段中的每个字段相对应的数值;表格识别模块,表格识别模块被配置为基于表格图像识别多个字段中的每个字段和对应的数值;关系获取模块,关系获取模块被配置为获取与多个字段中的至少一些字段有关的预定关系,预定关系指示与至少一些字段相对应的数值之间的关联关系;以及数据校验模块,数据校验模块被配置为校验与至少一些字段相对应的数值是否满足预定关系。在本公开内容的第三方面中,提供了一种设备,包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开内容的第一方面的方法。在本公开内容的第四方面中,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开内容的第一方面的方法。应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本公开内容的实施例的关键或重要特征,亦非用于限制本公开内容的范围。本公开内容的其它特征将通过以下的描述变得容易理解。附图说明结合附图并参考以下详细说明,本公开内容的各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:图1示意性地示出了表格图像中可能包含的一个示例表格;图2示出了根据本公开内容的示例性实施例的用于校验表格数据的示例方法的流程图;图3示出了根据本公开内容的示例性实施例的其中不存在识别错误的一个示意性识别结果;图4示出了根据本公开内容的示例性实施例的其中存在识别错误的一个示意性识别结果;图5示意性示出了根据本公开内容的示例性实施例的用于校验表格数据的装置的框图;以及图6示出了能够实施本公开内容的多个实施例的计算设备的框图。具体实施例下面将参照附图更详细地描述本公开内容的实施例。虽然附图中显示了本公开内容的某些实施例,然而应当理解的是,本公开内容可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开内容。应当理解的是,本公开内容的附图及实施例仅用于示例性作用,并非用于限制本公开内容的保护范围。在本公开内容的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。在目前的图像识别领域中,借助于OCR技术对图像中的表格进行识别。由于图像像素低等原因,同时受限于图像识别的技术瓶颈,识别结果不可避免地存在一些识别错误。对于数据准确性非常重要的情况(诸如,对于企业财务报表),需要将出现错误的概率尽可能降低到最小。如果靠人工对识别结果进行校验,则工作量巨大,且准确度不高。为了至少部分地解决现有技术方案中的问题,本公开内容的实施例提出了一种用于校验表格数据的方案,来减少后续过程中人工复核的工作量。本公开内容的实施例利用数据表格中与各个项目相对应的数值之间的关联关系来校验相关项目及其对应的数值,将校验的结果以可视化的形式提供给后续复核人员。例如,在企业财务报表中,各个会计科目之间存在勾稽关系。如“资产”科目下的金额数字等于“负债”科目下的金额数字加“所有者权益合计”科目下的金额数字。因而,可以基于“资产”、“负债”和“所有者权益合计”科目下的数字的关系,来确定提取的表格内容是否存在错误。以此方式,可以大大降低人工复核和调整的工作量,提高表格识别在相关领域的应用效果。在下文中,将参考图1至图6描述本公开内容的实施例的一些示例实现。图1示意性地示出了表格图像中可能包含的一个示例表格100。如图1所示,“XX表”可以表示示例表格100的表头,即,示例表格100的名称,例如,某公司2017年度资产负债表等。表格主体部分可以具有多个字段以及与这些字段中的每个字段相对应的数值。图1所示的示例表格100具有10个字段,即,字段1至字段10;每个字段具有与之对应的数值,即,数值1至数值10。在图1中,每个数值与在其之前的单元格中的字段相对应,并且指示该字段所具有的或与该字段相关联的属性值等。例如,示例表格100可以是与温度相关的表格,字段1至字段9可以分别表示某办公楼一层至九层的室温。在这样的表格中,字段1可以为“一层”,而数值1可以为“26”(单位:摄氏度,可以不包括在数值1所在的单元格中);字段2可以为“二层”,而数值2可以为“28”;字段10可以是一层至九层的平均室温,并且数值10可以表示为(数值1+数值2+……+数值9)/9。又如,在示例表格100是资产负债表的情况下,字段1至字段10可以分别表示不同的会计科目,数值1至数值10可以表示相应的金额数字。例如,字段1可以为“货币资金”,而数值1可以为填表企业所拥有的货币资金的金额,如为100(万元)。类似于上文描述的温度表格,各个字段之间可以存在预定关系。本领域技术人员应当理解,虽本文档来自技高网
...

【技术保护点】
1.一种用于校验表格数据的方法,包括:获取表格图像,所述表格图像中的表格包括多个字段和与所述多个字段中的每个字段相对应的数值;基于所述表格图像,识别所述多个字段中的每个字段和对应的数值;获取与所述多个字段中的至少一些字段有关的预定关系,所述预定关系指示与所述至少一些字段相对应的数值之间的关联关系;以及校验与所述至少一些字段相对应的数值是否满足所述预定关系。

【技术特征摘要】
1.一种用于校验表格数据的方法,包括:获取表格图像,所述表格图像中的表格包括多个字段和与所述多个字段中的每个字段相对应的数值;基于所述表格图像,识别所述多个字段中的每个字段和对应的数值;获取与所述多个字段中的至少一些字段有关的预定关系,所述预定关系指示与所述至少一些字段相对应的数值之间的关联关系;以及校验与所述至少一些字段相对应的数值是否满足所述预定关系。2.根据权利要求1所述的方法,还包括:响应于与所述至少一些字段相对应的数值不满足所述预定关系,标识所述至少一些字段中的每个字段。3.根据权利要求2所述的方法,还包括:生成包含所识别的所述表格的文档;以及在所述文档中高亮显示所标识的所述至少一些字段中的每个字段。4.根据权利要求2所述的方法,还包括:输出所识别的所述表格;以及输出通知,所述通知指示所标识的所述字段不满足所述预定关系。5.根据权利要求1所述的方法,其中获取与所述多个字段中的所述至少一些字段有关的所述预定关系包括:基于所述表格的表格类型,获取与所述表格类型相对应的关系库;以及基于所述关系库确定所述预定关系。6.根据权利要求1所述的方法,其中所述预定关系包括与所述至少一些字段相关联的一个或多个输入项和输出项,所述预定关系指示所述一个或多个输入项和所述输出项之间的数学运算关系。7.根据权利要求6所述的方法,其中校验与所述至少一些字段相对应的数值是否满足所述预定关系包括:基于与所述一个或多个输入项相关联的数值和所述预定关系,确定与所述输出项相关联的数值;响应于确定的所述数值和从所述表格图像中识别的与所述输出项相关联的数值相匹配,确定所述预定关系被满足;以及响应于确定的所述数值和从所述表格图像中识别的与所述输出项相关联的数值不相匹配,确定所述预定关系没有被满足。8.一种用于校验表格数据的装置,包括:图像获取模块,被配置为获取表格图像,所述表格图像中的表格包括多个字段和与所述多个字段中的每个字段相对应的数值;表格识别模块,被配置为:基于所述表格图像,识别所述多个字段中的每个字段和对应的数值;...

【专利技术属性】
技术研发人员:陈文彬陈诗名
申请(专利权)人:兴业数字金融服务上海股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1