表格的结构化数据识别方法、装置及系统制造方法及图纸

技术编号:38040942 阅读:9 留言:0更新日期:2023-06-30 11:07
本申请公开了一种表格的数据识别方法、装置及系统。所述方法包括:将待处理文档输入至预设的神经网络模型中进行识别,确定所述待处理文档中的表格位置和表格类型;根据确定的所述表格类型确定对应的单元格识别方法,并利用所述对应的单元格识别方法在所述表格位置进行识别得到目标单元格;对所有的所述目标单元格进行光学字符识别得到目标字符;将所述目标字符和对应的所述目标单元格关联,作为识别结果。基于本申请可提高数据是别的准确度。基于本申请可提高数据是别的准确度。基于本申请可提高数据是别的准确度。

【技术实现步骤摘要】
表格的结构化数据识别方法、装置及系统


[0001]本申请涉及表单数据识别
,尤其涉及一种表格的结构化数据识别方法、装置及系统。

技术介绍

[0002]在很多业务场景下,都需要对表格中的数据进行识别和提取。如在国际贸易中,进出口货物通常交付给专业的第三方公司进行货物的仓储交接和二次转运。在这一过程中,第三方公司就需要从货单、运单、订单等单据的表格中获取各种必要的信息如发货人、收货人、货物名称等。
[0003]目前的表格数据识别主要通过线条检测的方法识别表格中的各个单元格,进而对单元格中的内容进行识别的方法进行。但这一方法在表格中的线条的清晰度较低、线条非闭合等情况下的识别准确度较低。
[0004]为此,急需提供一种新的可以提高表格数据识别准确度的方法。

技术实现思路

[0005]为了解决现有技术的不足,本申请的主要目的在于提供一种表格的数据识别方法、装置及系统,以提高表格的数据识别的准确度。
[0006]为了实现上述目的,本申请的技术方案如下:
[0007]一种表格的数据识别方法,所述方法包括:
[0008]将待处理文档输入至预设的神经网络模型中进行识别,确定所述待处理文档中的表格位置和表格类型;
[0009]根据确定的所述表格类型确定对应的单元格识别方法,并利用所述对应的单元格识别方法在所述表格位置进行识别得到目标单元格;
[0010]对所有的所述目标单元格进行光学字符识别得到目标字符;
[0011]将所述目标字符和对应的所述目标单元格关联,作为识别结果。
[0012]优选的,所述待处理文档通过如下步骤获得:
[0013]获取待处理单据;
[0014]在所述待处理单据为图像格式时,对所述待处理单据进行二值化处理;
[0015]对所述二值化处理后的图像进行对齐处理获取所述待处理文档。
[0016]优选的,所述对所述二值化处理后的图像进行对齐处理包括:
[0017]对所述二值化处理后的图像进行轮廓分析确定顶点坐标;
[0018]根据所述顶点坐标计算单应性矩阵;
[0019]根据所述单应性矩阵进行所述二值化处理后的图像的透视变换得到所述待处理文档。
[0020]优选的,所述神经网络模型以Cascade R

CNN模型为基础,且融合了区域候选网络。
[0021]优选的,所述将待处理文档输入至预设的神经网络模型中进行识别,确定所述待处理文档中的表格位置和表格类型包括:
[0022]将所述待处理文档输入至所述区域候选网络和所述Cascade R

CNN模型的骨干网络;
[0023]利用所述区域候选网络提取所述待处理文档的候选框;
[0024]将所述候选框输入至所述Cascade R

CNN模型的候选区域;
[0025]利用Cascade R

CNN模型的候选区域、与骨干网络连接的池化层以及与所述池化层连接的全连接层得到所述待处理文档的所述表格位置和表格类型。
[0026]优选的,在所述表格类型为有线条类型时,所述利用所述对应的单元格识别方法在所述表格位置进行识别得到目标单元格包括:
[0027]利用霍夫变换进行线条检测确认所述表格位置中的横竖线条;
[0028]通过所述横竖线条的交点确认每个所述目标单元格的位置。
[0029]优选的,在所述表格类型为无线条类型时,所述利用所述对应的单元格识别方法在所述表格位置进行识别得到目标单元格包括:
[0030]利用形态学图像处理方法对所述表格位置中的文字进行膨胀和腐蚀处理;
[0031]根据处理后的文字之间的间距确定每个所述目标单元格。
[0032]优选的,在利用所述对应的单元格识别方法在所述表格位置进行识别得到目标单元格之前,所述方法还包括对所述待处理文档按照所述表格位置进行裁剪;
[0033]所述利用所述对应的单元格识别方法在所述表格位置进行识别得到目标单元格包括利用所述对应的单元格识别方法在裁剪后的文档部分进行识别得到目标单元格。
[0034]优选的,所述方法还包括:
[0035]根据所述识别结果确定识别准确率;
[0036]在所述识别准确率低于预设值时,对所述神经网络模型进行更新训练并利用更新训练后的神经网络模型进行下一次的数据识别。
[0037]优选的,所述方法还包括:
[0038]将所述待处理文档作为样本集,更新保存在图像数据库中;
[0039]所述对所述神经网络模型进行更新训练包括:
[0040]利用更新后的所述图像数据库对所述神经网络模型进行增量学习训练和参数调整。
[0041]另一方面公开一种表格的数据识别装置,所述装置包括:
[0042]表格位置和类型识别单元,用于将待处理文档输入至预设的神经网络模型中进行识别,确定所述待处理文档中的表格位置和表格类型;
[0043]目标单元格识别单元,用于根据确定的所述表格类型确定对应的单元格识别方法,并利用所述对应的单元格识别方法在所述表格位置进行识别得到目标单元格;
[0044]目标字符识别单元,用于对所有的所述目标单元格进行光学字符识别得到目标字符;
[0045]识别结果单元,用于将所述目标字符和对应的所述目标单元格关联,作为识别结果。
[0046]再一方面提供一种计算机系统,包括:
[0047]一个或多个处理器;以及
[0048]与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如上任一项所述的方法。
[0049]本申请有益效果:
[0050]本申请通过对待处理文档利用神经网络模型识别得到表格位置和表格类型,相比现有技术,提高了位置和类型识别的准确度。进一步的对不同类型的表格进行不同的处理,也进一步提高了单元格识别的准确度。
[0051]进一步的,本申请中才用了融合了区域候选网络RPN的Cascade R

CNN模型,相比原Cascade R

CNN模型,识别结果更加准确和快速。
附图说明
[0052]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0053]图1是本申请方法流程图;
[0054]图2是本申请神经网络模型结构图;
[0055]图3A

3D为本申请表单识别示意图;
[0056]图4是本申请单元格识别方法示意图;
[0057]图5是本申请装置结构图;
[0058]图6是本申请计算机系统结构示意图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表格的数据识别方法,其特征在于,所述方法包括:将待处理文档输入至预设的神经网络模型中进行识别,确定所述待处理文档中的表格位置和表格类型;根据确定的所述表格类型确定对应的单元格识别方法,并利用所述对应的单元格识别方法在所述表格位置进行识别得到目标单元格;对所有的所述目标单元格进行光学字符识别得到目标字符;将所述目标字符和对应的所述目标单元格关联,作为识别结果。2.如权利要求1所述的数据识别方法,其特征在于,所述待处理文档通过如下步骤获得:获取待处理单据;在所述待处理单据为图像格式时,对所述待处理单据进行二值化处理;对所述二值化处理后的图像进行轮廓分析确定顶点坐标;根据所述顶点坐标计算单应性矩阵;根据所述单应性矩阵进行所述二值化处理后的图像的透视变换得到所述待处理文档。3.如权利要求1所述的数据识别方法,其特征在于,所述神经网络模型以Cascade R

CNN模型为基础,且融合了区域候选网络。4.如权利要求3所述的数据识别方法,其特征在于,所述将待处理文档输入至预设的神经网络模型中进行识别,确定所述待处理文档中的表格位置和表格类型包括:将所述待处理文档输入至所述区域候选网络和所述Cascade R

CNN模型的骨干网络;利用所述区域候选网络提取所述待处理文档的候选框;将所述候选框输入至所述Cascade R

CNN模型的候选区域;利用所述Cascade R

CNN模型的候选区域、与所述骨干网络连接的池化层层以及与所述池化层连接的全连接层得到所述待处理文档的所述表格位置和表格类型。5.如权利要求1所述的数据识别方法,其特征在于,在所述表格类型为有线条类型时,所述利用所述对应的单元格识别方法在所述表格位置进行识别得到...

【专利技术属性】
技术研发人员:张一艾韬毛景羡陈灿伟马鹏开
申请(专利权)人:湖南九立供应链有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1