表格区域识别模型生成方法、装置及表格定位方法、装置制造方法及图纸

技术编号:24036483 阅读:20 留言:0更新日期:2020-05-07 02:03
一种表格区域识别模型生成方法、装置及表格定位方法、装置,包括:获取多张包含至少一个表格的文档页面,并将文档页面转换为图像,作为样本图像;获取样本图像中每个第一单位区域与每个表格标题之间的距离,并且获取每张样本图像中每个第一单位区域是否是任意一个表格区域的标识;将样本图像、获得的距离以及获得的标识作为训练样本集,迭代训练预先构建的深度学习网络模型,生成用于识别是否是表格区域的表格区域识别模型。由于采用了大量训练样本训练深度学习网络模型,因此生成的表格区域识别模型是一个稳定的模型,从而提高了表格识别的成功率,保证了后续表格定位过程的顺利进行。

Generation method, device, table positioning method and device of table area identification model

【技术实现步骤摘要】
表格区域识别模型生成方法、装置及表格定位方法、装置
本文涉及图像处理技术,尤指一种表格区域识别模型生成方法、装置及表格定位方法、装置。
技术介绍
信息分析往往需要从文档,例如便携式文档格式(PortableDocumentFormat,PDF)中进行文本、表格和图片等信息的抽取,而实现信息的抽取首先要实现识别、定位,由于PDF中数据的存储采用的是非结构化数据存储方式,因此其中信息的识别较为复杂,尤其是表格的识别。相关技术中,表格的识别往往是基于表格与其非表格字体不相同的特点或者表格的字符流按列对齐的特点进行的。然而,这种方法是基于特殊情况才能进行,当表格不具备上述特点时仍然无法进行识别,因此表格识别成功率十分低下,从而进一步影响表格的定位。
技术实现思路
本申请提供了一种表格区域识别模型生成方法、装置及表格定位方法、装置,能够提供一个稳定的表格区域识别模型,从而提高表格识别的成功率,保证后续表格定位过程的顺利进行。本申请提供了一种表格区域识别模型生成方法,包括:获取多张包含至少一个表格的文档页面,并将文档页面转换为图像,作为样本图像;获取所述样本图像中每个第一单位区域与每个表格标题之间的距离,并且获取每张样本图像中每个第一单位区域是否是任意一个表格区域的标识;将所述样本图像、所述样本图像中每个第一单位区域与每个表格标题之间的距离以及每张样本图像中每个第一单位区域是否是任意一个表格区域的标识作为训练样本集,迭代训练预先构建的深度学习网络模型,生成用于识别是否是表格区域的表格区域识别模型。所述获取样本图像中每个第一单位区域与每个表格标题之间的距离,包括:对每个所述样本图像中的每个第一单位区域与每个表格标题都进行距离获取操作:分别获取所述第一单位区域的中心与所述表格标题的上边界的纵向距离、与所述表格标题的左边界的横向距离、与所述表格标题的下边界的纵向距离以及与所述表格标题的右边界的横向距离,并将获得的四个距离作为该第一单位区域与该表格标题之间的距离。当所述样本图像中的表格数量少于S个,其中,S为不小于任一样本图像中表格个数的预设表格个数,所述对样本图像中的每个第一单位区域与每个表格标题都进行距离获取操作之后,还包括:用0填充不足S个表格的样本图像中每个第一单位区域与缺失的S-T个表格标题的距离;其中,T为所述不足S个表格的样本图像中表格的个数。当所述第一单位区域与任意一个表格的重叠面积大于所述第一单位区域的预设比例,所述第一单位区域是否属于任意一个表格区域的标识为所述第一单位区域属于任意一个表格区域的标识;当所述第一单位区域与任意一个表格的重叠面积不大于所述第一单位区域的预设比例,所述第一单位区域是否属于任意一个表格区域的标识为所述第一单位区域不属于任意一个表格区域的标识。所述第一单位区域包括边长为M个像素的正方形,且每两个同属一行或同属一列的相邻的第一单位区域在该行或该列的方向上相差N个像素;其中,N小于M。本申请还提供了一种表格定位方法,包括:获取包含至少一个待定位表格的待处理文档页面,并将所述待处理文档页面转为成图像,作为待处理图像;获取所述待处理图像中每个第二单位区域与每个表格标题之间的距离;其中,所述第二单位区域与第一单位区域的面积相同,且每两个同属一行或同属一列的相邻的第二单位区域在该行或该列方向上相差一个像素;将所述待处理图像以及所述待处理图像中每个第二单位区域与每个表格标题之间的距离输入至如上述任一项所述的表格区域识别模型生成方法生成的表格区域识别模型,得到所述待处理图像中每个第二单位区域是否是表格区域的识别结果;将获得的每个第二单位区域是否是表格区域的识别结果作为该第二单位区域中心的像素是否是表格区域的识别结果;根据所述识别结果进行表格定位。所述获取所述待处理图像中每个第二单位区域与每个表格标题之间的距离,包括:对所述待处理图像中的每个第二单位区域与每个表格标题都进行距离获取操作:分别获取所述第二单位区域的中心与所述表格标题的上边界的纵向距离、与所述表格标题的左边界的横向距离、与所述表格标题的下边界的纵向距离以及与所述表格标题的右边界的横向距离,并将获得的四个距离作为该第二单位区域与该表格标题之间的距离。当所述待处理图像中的表格数量少于S个,其中,S为所述表格区域识别模型生成过程中不小于任一样本图像中表格个数的预设表格个数,所述对待处理图像中的每个第二单位区域与每个表格标题都进行距离获取操作之后,还包括:用0填充所述待处理图像中每个第二单位区域与缺失的S-K个表格的标题的距离;其中,K为所述待处理图像中表格的个数。所述根据识别结果进行表格定位,包括:在所述表格区域的识别结果是表格区域的对是表格区域的像素进行连通区域分析,得到至少一个表格区域,并获取每个表格区域在待处理图像中的坐标;根据所述待处理文档页面的规格信息、所述待处理图像的规格信息以及获得的每个表格区域在待处理图像中的坐标获取每个表格区域在所述待处理文档页面中的坐标;根据获得的表格区域在所述待处理文档页面中的坐标进行表格定位。本申请还提供了一种表格区域识别模型生成装置,包括:第一获取模块,用于获取多张包含至少一个表格的文档页面,并将文档页面转换为图像,作为样本图像;所述第一获取模块,还用于获取所述样本图像中每个第一单位区域与每个表格标题之间的距离,并且获取每张样本图像中每个第一单位区域是否是任意一个表格区域的标识;第一处理模块,用于将所述样本图像、所述样本图像中每个第一单位区域与每个表格标题之间的距离以及每张样本图像中每个第一单位区域是否是任意一个表格区域的标识作为训练样本集,迭代训练预先构建的深度学习网络模型,生成用于识别是否是表格区域的表格区域识别模型。本申请还提供了一种表格定位装置,包括:第二获取模块,用于获取包含至少一个待定位表格的待处理文档页面,并将所述待处理文档页面转为成图像,作为待处理图像;所述第二获取模块,还用于获取所述待处理图像中每个第二单位区域与每个表格标题之间的距离;其中,所述第二单位区域与第一单位区域的面积相同,且每两个同属一行或同属一列的相邻的第二单位区域在该行或该列方向上相差一个像素;第二处理模块,用于将所述待处理图像以及所述待处理图像中每个第二单位区域与每个表格标题之间的距离输入至如上述所述的表格区域识别模型生成装置生成的表格区域识别模型,得到所述待处理图像中每个第二单位区域是否是表格区域的识别结果;所述处理模块,还用于将获得的每个第二单位区域是否是表格区域的识别结果作为该第二单位区域中心的像素是否是表格区域的识别结果;所述第二处理模块,还用于根据所述识别结果进行表格定位。与相关技术相比,本申请包括:获取多张包含至少一个表格的文档页面,并将文档页面转换为图像,作为样本图像;获取样本图像中每个第一单位区域与每个表格标题本文档来自技高网...

【技术保护点】
1.一种表格区域识别模型生成方法,其特征在于,包括:/n获取多张包含至少一个表格的文档页面,并将文档页面转换为图像,作为样本图像;/n获取所述样本图像中每个第一单位区域与每个表格标题之间的距离,并且获取每张样本图像中每个第一单位区域是否是任意一个表格区域的标识;/n将所述样本图像、所述样本图像中每个第一单位区域与每个表格标题之间的距离以及每张样本图像中每个第一单位区域是否是任意一个表格区域的标识作为训练样本集,迭代训练预先构建的深度学习网络模型,生成用于识别是否是表格区域的表格区域识别模型。/n

【技术特征摘要】
1.一种表格区域识别模型生成方法,其特征在于,包括:
获取多张包含至少一个表格的文档页面,并将文档页面转换为图像,作为样本图像;
获取所述样本图像中每个第一单位区域与每个表格标题之间的距离,并且获取每张样本图像中每个第一单位区域是否是任意一个表格区域的标识;
将所述样本图像、所述样本图像中每个第一单位区域与每个表格标题之间的距离以及每张样本图像中每个第一单位区域是否是任意一个表格区域的标识作为训练样本集,迭代训练预先构建的深度学习网络模型,生成用于识别是否是表格区域的表格区域识别模型。


2.根据权利要求1所述的方法,其特征在于,所述获取样本图像中每个第一单位区域与每个表格标题之间的距离,包括:
对每个所述样本图像中的每个第一单位区域与每个表格标题都进行距离获取操作:
分别获取所述第一单位区域的中心与所述表格标题的上边界的纵向距离、与所述表格标题的左边界的横向距离、与所述表格标题的下边界的纵向距离以及与所述表格标题的右边界的横向距离,并将获得的四个距离作为该第一单位区域与该表格标题之间的距离。


3.根据权利要求2所述的方法,其特征在于,当所述样本图像中的表格数量少于S个,其中,S为不小于任一样本图像中表格个数的预设表格个数,所述对样本图像中的每个第一单位区域与每个表格标题都进行距离获取操作之后,还包括:
用0填充不足S个表格的样本图像中每个第一单位区域与缺失的S-T个表格标题的距离;其中,T为所述不足S个表格的样本图像中表格的个数。


4.根据权利要求1所述的方法,其特征在于,当所述第一单位区域与任意一个表格的重叠面积大于所述第一单位区域的预设比例,所述第一单位区域是否属于任意一个表格区域的标识为所述第一单位区域属于任意一个表格区域的标识;当所述第一单位区域与任意一个表格的重叠面积不大于所述第一单位区域的预设比例,所述第一单位区域是否属于任意一个表格区域的标识为所述第一单位区域不属于任意一个表格区域的标识。


5.根据权利要求1-4任一项所述的方法,其特征在于,所述第一单位区域包括:边长为M个像素的正方形,且每两个同属一行或同属一列的相邻的第一单位区域在该行或该列的方向上相差N个像素;其中,N小于M。


6.一种表格定位方法,其特征在于,包括:
获取包含至少一个待定位表格的待处理文档页面,并将所述待处理文档页面转为成图像,作为待处理图像;
获取所述待处理图像中每个第二单位区域与每个表格标题之间的距离;其中,所述第二单位区域与第一单位区域的面积相同,且每两个同属一行或同属一列的相邻的第二单位区域在该行或该列方向上相差一个像素;
将所述待处理图像以及所述待处理图像中每个第二单位区域与每个表格标题之间的距离输入至如权利要求1-5任一项所述的表格区域识别模型生成方法生成的表格区域识别模型,得到所述待处理图像中每个第二单位区域是否是表格区域的识别结果;
将获得的每个第二单位区域是否是表格区域的识别结果作为该第二单位区域中心的像素是否是表格区域的识别结果;
根据所述识别结果进行表格定位。

【专利技术属性】
技术研发人员:李倩兰袁灿于政
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1