一种数据表识别方法、装置及终端设备制造方法及图纸

技术编号:20364310 阅读:17 留言:0更新日期:2019-02-16 17:10
本发明专利技术提供了一种数据表识别方法、装置及终端设备,适用于数据处理技术领域,该方法包括:对数据表图像进行字符识别确定出数据表图像中数据表的表格名称,并选取出表格名称匹配的表格模板;对数据表图像按照字段值单元格分割为至少一个数据表区域图像;对数据表区域图像进行字符识别,判断字符识别结果是否满足对应的字符串格式要求;若满足,基于字符识别结果对字段值单元格对应的候选字符串库进行字符串匹配,并将匹配出的字符串数据填写至表格模板的字段值单元格中,得到数据表图像对应的数据表识别结果。本发明专利技术实施例能保证对数据表识别录入时表格数据识别准确率。

【技术实现步骤摘要】
一种数据表识别方法、装置及终端设备
本专利技术属于数据处理
,尤其涉及数据表识别方法及终端设备。
技术介绍
现有技术在进行纸质数据表资料电脑录入的时候,都是由人工手动对数据表中的各部分内容进行录入,需要耗费大量的时间,效率十分低下。光学字符识别(OpticalCharacterRecognition,OCR)技术出现后,人们开始使用OCR技术进行纸质数据表资料的识别录入,即利用OCR技术识别数据表各部分内容及其中的字符并在电脑中进行存储,然而实际情况中,由于OCR技术本身对数据表的分析识别效果并非很好,从而使得现有技术对数据表识别录入时表格数据识别准确率较低。
技术实现思路
有鉴于此,本专利技术实施例提供了一种数据表识别方法、装置及终端设备,以解决现有技术中对数据表识别录入时表格数据识别准确率较低的问题。本专利技术实施例的第一方面提供了一种数据表识别方法,包括:对数据表图像进行字符识别,确定出所述数据表图像中数据表的表格名称,并从预设的表格模板库中选取出所述表格名称匹配的表格模板,所述表格模板中包含所述表格名称、已填写的字段名单元格以及空白的字段值单元格;对所述数据表图像按照字段值单元格分割为至少一个数据表区域图像;针对所述数据表图像的任一数据表区域图像,对所述数据表区域图像进行字符识别,并判断得到的字符识别结果是否满足所述字段值单元格对应的字符串格式要求;若所述字符识别结果满足所述字符串格式要求,将所述字符识别结果与所述字段值单元格对应的候选字符串库进行字符串匹配,并将从所述字符串库中匹配出的字符串数据填写至所述表格模板的所述字段值单元格中,得到所述数据表区域图像的识别结果;根据所述至少一个数据表区域图像的识别结果得到所述数据表图像对应的数据表识别结果。本专利技术实施例的第二方面提供了一种数据表识别装置,包括:模板匹配模块,用于对数据表图像进行字符识别,确定出所述数据表图像中数据表的表格名称,并从预设的表格模板库中选取出所述表格名称匹配的表格模板,所述表格模板中包含所述表格名称、已填写的字段名单元格以及空白的字段值单元格;区域图像分割模块,用于对所述数据表图像按照字段值单元格分割为至少一个数据表区域图像;区域图像识别模块,用于针对所述数据表图像的任一数据表区域图像,对所述数据表区域图像进行字符识别,并判断得到的字符识别结果是否满足所述字段值单元格对应的字符串格式要求;第一数据填充模块,用于若所述字符识别结果满足所述字符串格式要求,将所述字符识别结果与所述字段值单元格对应的候选字符串库进行字符串匹配,并将从所述字符串库中匹配出的字符串数据填写至所述表格模板的所述字段值单元格中,得到所述数据表区域图像的识别结果;结果生成模块,用于根据所述至少一个数据表区域图像的识别结果得到所述数据表图像对应的数据表识别结果。本专利技术实施例的第三方面提供了一种数据表识别终端设备,所述数据表识别终端设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下步骤。对数据表图像进行字符识别,确定出所述数据表图像中数据表的表格名称,并从预设的表格模板库中选取出所述表格名称匹配的表格模板,所述表格模板中包含所述表格名称、已填写的字段名单元格以及空白的字段值单元格;对所述数据表图像按照字段值单元格分割为至少一个数据表区域图像;针对所述数据表图像的任一数据表区域图像,对所述数据表区域图像进行字符识别,并判断得到的字符识别结果是否满足所述字段值单元格对应的字符串格式要求;若所述字符识别结果满足所述字符串格式要求,将所述字符识别结果与所述字段值单元格对应的候选字符串库进行字符串匹配,并将从所述字符串库中匹配出的字符串数据填写至所述表格模板的所述字段值单元格中,得到所述数据表区域图像的识别结果;根据所述至少一个数据表区域图像的识别结果得到所述数据表图像对应的数据表识别结果。本专利技术实施例的第四方面提供了一种计算机可读存储介质,包括:存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的数据表识别方法的步骤。本专利技术实施例与现有技术相比存在的有益效果是:考虑到现有技术中OCR技术对数据表识别支持并不友好,本专利技术实施例中首先对所需识别的数据表均设置了对应的表格模板,模板中已经设置好了表格名称、字段名单元格以及字段值单元格等表格框架,同时还预先填写好了字段名单元格中的字段名称,从而使得本专利技术实施例中只需要填写好字段值单元格的数据,即可完成对数据表的识别。具体地,由于要识别的数据表种类可能不止一种,因此,在本专利技术实施例中,首先会对数据表图像进行简单的字符识别,确定出其中数据表的名称,以筛选出对应的表格模板。其中,由于实际情况中所需识别的数据表的表格名称都属于有限且已知的且表格名称位置一般较为固定,如在表格上方或者表格第一行,因此,对表格名称的识别相对较为简单且准确率非常高,能够非常准确地确定出所需识别的数据表图像对应的表格模板。在确定出对应的表格模板之后,对数据表图像进行分割确定出其中所包含的每个单元格的区域图像,同时对字段值单元格进行字符识别,以得出初步的字段值单元格的初步识别结果。再在得到字段值单元格初步识别结果后,考虑到实际应用中,很多单元格的内容都是具有一定格式要求且所填写的数据内容都是固定有限种的字符串,如“户籍种类”对应的字段值单元格只能填写中文字符串“城镇”或者“农村”,“出生日期”只能填写固定格式的8位数字字符串,因此,在已知字段值单元格初步识别结果的基础上,利用预设的字段值单元格对应的字符串格式要求来进行识别结果筛选,首先可以保证识别结果的可靠性,再利用字段值单元格对应的候选字符串库进行匹配,如上述说明由于候选字符串的数量有限且已知,因此直接对候选字符串库进行匹配来确定最终识别结果,可以极大地保证得到的字段值单元格的数据的准确性,从而保证了对数据表识别录入时表格数据识别准确率。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例一提供的数据表识别方法的实现流程示意图;图2是本专利技术实施例二提供的数据表识别方法的实现流程示意图;图3是本专利技术实施例三提供的数据表识别方法的实现流程示意图;图4是本专利技术实施例四提供的数据表识别方法的实现流程示意图;图5是本专利技术实施例五提供的数据表识别方法的实现流程示意图;图6是本专利技术实施例六提供的数据表识别装置的结构示意图;图7是本专利技术实施例七提供的数据表识别终端设备的示意图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本专利技术实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本专利技术。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本专利技术的描述。为了说明本专利技术所述的技术方案,下面通过具体实施例来进行说明。为了方便理解本申请技术方案,此处先对本专利技术实施例进行简要说明:一个标准的数据表至少包含表格名称本文档来自技高网...

【技术保护点】
1.一种数据表识别方法,其特征在于,包括:对数据表图像进行字符识别,确定出所述数据表图像中数据表的表格名称,并从预设的表格模板库中选取出所述表格名称匹配的表格模板,所述表格模板中包含所述表格名称、已填写的字段名单元格以及空白的字段值单元格;对所述数据表图像按照字段值单元格分割为至少一个数据表区域图像;针对所述数据表图像的任一数据表区域图像,对所述数据表区域图像进行字符识别,并判断得到的字符识别结果是否满足所述字段值单元格对应的字符串格式要求;若所述字符识别结果满足所述字符串格式要求,将所述字符识别结果与所述字段值单元格对应的候选字符串库进行字符串匹配,并将从所述字符串库中匹配出的字符串数据填写至所述表格模板的所述字段值单元格中,得到所述数据表区域图像的识别结果;根据所述至少一个数据表区域图像的识别结果得到所述数据表图像对应的数据表识别结果。

【技术特征摘要】
1.一种数据表识别方法,其特征在于,包括:对数据表图像进行字符识别,确定出所述数据表图像中数据表的表格名称,并从预设的表格模板库中选取出所述表格名称匹配的表格模板,所述表格模板中包含所述表格名称、已填写的字段名单元格以及空白的字段值单元格;对所述数据表图像按照字段值单元格分割为至少一个数据表区域图像;针对所述数据表图像的任一数据表区域图像,对所述数据表区域图像进行字符识别,并判断得到的字符识别结果是否满足所述字段值单元格对应的字符串格式要求;若所述字符识别结果满足所述字符串格式要求,将所述字符识别结果与所述字段值单元格对应的候选字符串库进行字符串匹配,并将从所述字符串库中匹配出的字符串数据填写至所述表格模板的所述字段值单元格中,得到所述数据表区域图像的识别结果;根据所述至少一个数据表区域图像的识别结果得到所述数据表图像对应的数据表识别结果。2.如权利要求1所述的数据表识别方法,其特征在于,在所述针对所述数据表图像的任一数据表区域图像,对所述数据表区域图像进行字符识别之前,还包括:对所述数据表区域图像进行字符识别,并将字符识别得到的所述数据表区域图像对应的区域字符串,与所述表格模板中所述字段名单元格包含的字段名称字符串进行匹配,确定出所述表格模板中所述字段名单元格对应的所述数据表区域图像;基于所述表格模板中所述字段名单元格与所述字段值单元格的位置关系,以及所述表格模板中所述字段名单元格对应的所述数据表区域图像,确定出所述表格模板中所述字段值单元格对应的所述数据表区域图像。3.如权利要求1所述的数据表识别方法,其特征在于,若所述字符识别结果满足所述字符串格式要求,还包括:若所述字段值单元格不具有对应的所述候选字符串库,且所述字符识别结果的字符数大于1,对所述字符识别结果进行文本纠错处理;将所述文本纠错处理后的所述字符识别结果填写至所述表格模板的所述字段值单元格中,得到所述数据表图像对应的数据表识别结果。4.如权利要求1至3任意一项所述的数据表识别方法,其特征在于,还包括:若所述字符识别结果不满足所述字符串格式要求,更新所述字段值单元格对应的所述数据表区域图像的字符识别结果不满足所述字符串格式要求的总次数;若所述总次数小于或等于预设的错误阈值,返回执行所述对所述字段值单元格对应的所述数据表区域图像进行字符识别,并判断得到的字符识别结果是否满足所述字段值单元格预设对应的字符串格式要求的操作;若所述总次数大于所述错误阈值,将最近一次所述字段值单元格对应的所述数据表区域图像的字符识别结果,填写至所述表格模板的所述字段值单元格中,得到所述数据表图像对应的数据表识别结果。5.如权利要求3所述的数据表识别方法,其特征在于,所述对所述字符识别结果进行文本纠错处理,包括:利用预设的文本纠错算法对所述字符识别结果进行处理,确定出所述字符识别结果中的待纠错字符,以及所述待纠错字符对应的替换概率最大的N个候选替换字符,其中,N为自然数;对所述数据表区域图像进行字符图像分割,并确定出与所述待纠错字符对应的字符图像;对所述字符图像的字符识别结果进行字形结构分析,确定出所述字符图像对应的字形结构信息;利用所述N个候选替换字符中字形结构信息与所述字符图像的字形结构信息匹配度最大,且替换...

【专利技术属性】
技术研发人员:李亚宁
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1