表格边框预测模型生成方法、装置及表格定位方法、装置制造方法及图纸

技术编号:24208117 阅读:21 留言:0更新日期:2020-05-20 15:34
一种表格边框预测模型生成方法、装置及表格定位方法、装置,包括:获取多张包含表格的样本文档页面,并将样本文档页面转换为样本图像;将每张样本文档页面和每张样本图像分别划分为S*S个第一网格和S*S个第二网格;获取S*S个第一网格所包含文本的语义信息,作为S*S个第一网格的语义信息;获取S*S个第二网格的预测边框信息;将获得的上述信息作为训练样本集,迭代训练图像识别模型,生成用于预测表格边框信息的表格边框预测模型。由于图像识别模型在训练过程中采用了大量训练样本并且融合了语义信息,因此能够较好地预测表格边框信息,从而提高了表格边框确定的成功率,保证了后续表格定位过程的顺利进行。

Generation method, device, table positioning method and device of table border prediction model

【技术实现步骤摘要】
表格边框预测模型生成方法、装置及表格定位方法、装置
本文涉及图像处理技术,尤指一种表格边框预测模型生成方法、装置及表格定位方法、装置。
技术介绍
信息分析往往需要从文档,例如便携式文档格式(PortableDocumentFormat,PDF)中进行文本、表格和图片等信息的抽取,而实现信息的抽取首先要确定表格的边框,进而基于所确定的表格边框进行表格的定位,由于PDF中数据的存储采用的是非结构化数据存储方式,因此表格边框的确定较为较为复杂。相关技术中,表格边框的确定往往是基于表格与其非表格字体不相同的特点或者表格的字符流按列对齐的特点进行的。然而,这种方法是基于特殊情况才能进行,当表格不具备上述特点时表格边框仍然无法确定,因此表格边框的确定成功率十分低下,从而进一步影响表格的定位。
技术实现思路
本申请提供了一种表格边框预测模型生成方法、装置及表格定位方法、装置,能够提供一个稳定的表格边框预测模型,从而提高表格边框确定的成功率,保证后续表格定位过程的顺利进行。本申请提供了一种表格边框预测模型生成方法,包括:获取多张包含表格的样本文档页面,并将所述样本文档页面转换为图像作为样本图像;将每张样本文档页面划分为S*S个第一网格,并将每张样本图像划分为S*S个第二网格;获取每张样本文档页面的S*S个第一网格所包含文本的语义信息,作为所述S*S个第一网格的语义信息;获取每张样本图像的S*S个第二网格的预测边框信息;其中,每个所述第二网格的预测边框信息包括:表格存在于所述第二网格的概率、所述第二网格的B个预测边框的位置信息以及所述第二网格的B个预测边框的置信度;将所有样本文档页面的S*S个第一网格的语义信息,以及所有样本图像的S*S个第二网格和S*S个预测边框信息作为训练样本集,迭代训练图像识别模型,生成用于预测表格边框信息的表格边框预测模型。所述获取每张样本文档页面的S*S个第一网格所包含文本的语义信息,作为S*S个第一网格的语义信息,包括:对每张样本文档页面的每个第一网格执行以下操作:获取所述第一网格所包含文本的每种文本属性的数量、每种文本字体的字数、每种文本字号的字数、由多个文本组成的连续文本块的数量以及每种文本词性的分词所包含的字数;将获得的信息作为所述第一网格的语义信息。所述文本属性种类包括:中文、英文、数字、空格、序号和其他属性。组成所述连续文本块的多个文本满足以下条件:任意两个位于左右位置的文本中左文本的右边界与右文本的左边界的距离小于第一阈值,且上边界的距离差小于第二阈值,且下边界的距离差小于第三阈值。当获得的第一网格所包含文本的语义信息满足以下至少一个条件:获得的文本属性的种类数不足P个,获得的文本字体的种类数不足Q个,获得的文本字号的种类数不足R个,获得的文本词性的种类数不足S个;其中,所述P、Q、R、S分别预定义的文本属性、文本字体、文本字号和文本词性存在的种类数;所述获取第一网格所包含文本的每种文本属性的数量、每种文本字体的字数、每种文本字号的字数、由多个文本组成的连续文本块的数量以及每种文本词性的分词所包含的字数之后,且所述将获得的信息作为第一网格的语义信息之前,还包括:用0补足所缺少的种类对应的位置。所述预测边框的位置信息包括:所述预测边框的中心点相对于所属第二网格左上角坐标的偏移值,以及所述预测边框的宽与高。所述预测边框的置信度包括:所述预测边框含有表格的概率*所述预测边框与表格的实际边框的交并比IoU。图像识别模型包括:两个输入层,其中一个输入层后连接多个卷积池化及全连接层,一个输入层后连接多个全连接层,两个输入层经过各自的结构后连接一个融合层进行融合,所述融合层后再连接全连接层与输出层。所述将所有样本文档页面的S*S个第一网格的语义信息,以及所有样本图像的S*S个第二网格和S*S个预测边框信息作为训练样本集,迭代训练对象识别和定位模型,生成用于预测表格边框信息的表格边框预测模型,包括:将所述所有样本文档页面的S*S个第一网格的语义信息输入至所述图像识别模型的一个输入层;将所述所有样本文档页面的S*S个第二网格输入至所述图像识别模型的另一个输入层;将所述所有样本图像的S*S个预测边框信息输入至所述图像识别模型的输出层;根据预先设定的损失函数,利用反向传播算法对所述图像识别模型进行迭代训练、调整所述模型的参数,直到损失函数的损失值收敛,得到所述预测边框模型。本申请还提供了一种表格定位方法,包括:获取包含待定位表格的待处理文档页面,并将所述待处理文档页面转换为图像作为待处理图像;将所述待处理文档页面划分为S*S个第一网格,并将所述待处理图像划分为S*S个第二网格;获取S*S个第一网格所包含文本的语义信息,作为所述S*S个第一网格的语义信息;将所述S*S个第一网格语义信息和所述S*S个第二网格输入至如权利要求上述任一项所述的表格边框预测模型生成方法生成的表格边框预测模型,得到S*S个第二网格的预测边框信息;其中,每个所述第二网格的预测边框信息包括:表格存在于所述第二网格的概率、所述第二网格的B个预测边框的位置信息以及所述第二网格的B个预测边框的置信度;根据获得的S*S个第二网格的预测边框信息进行表格定位。所述获取S*S个第一网格所包含文本的语义信息,作为S*S个第一网格的语义信息,包括:对每个第一网格执行以下操作:获取所述第一网格所包含文本的每种文本属性的数量、每种文本字体的字数、每种文本字号的字数、由多个文本组成的连续文本块的数量以及每种文本词性的分词所包含的字数;将获得的信息作为所述第一网格的语义信息。所述文本属性种类包括:中文、英文、数字、空格、序号和其他属性。组成所述连续文本块的多个文本满足以下条件:任意两个位于左右位置的文本中左文本的右边界与右文本的左边界的距离小于第一阈值,且上边界的距离差小于第二阈值,且下边界的距离差小于第三阈值。当获得的第一网格所包含文本的语义信息满足以下至少一个条件:获得的文本属性的种类数不足P个,获得的文本字体的种类数不足Q个,获得的文本字号的种类数不足R个,获得的文本词性的种类数不足S个;其中,所述P、Q、R、S分别预定义的文本属性、文本字体、文本字号和文本词性存在的种类数;所述获取第一网格所包含文本的每种文本属性的数量、每种文本字体的字数、每种文本字号的字数、由多个文本组成的连续文本块的数量以及每种文本词性的分词所包含的字数之后,且所述将获得的信息作为第一网格的语义信息之前,还包括:用0补足所缺少的种类对应的位置。所述根据获得的S*S个第二网格的预测边框信息进行表格定位,包括:根据获得的S*S个第二网格的预测边框信息计算S*S*B个预测边框的得分;根据获得的S*S*B个预测边框的得分获取预测边框输出列表;根据所述预测本文档来自技高网...

【技术保护点】
1.一种表格边框预测模型生成方法,其特征在于,包括:/n获取多张包含表格的样本文档页面,并将所述样本文档页面转换为图像作为样本图像;/n将每张样本文档页面划分为S*S个第一网格,并将每张样本图像划分为S*S个第二网格;/n获取每张样本文档页面的S*S个第一网格所包含文本的语义信息,作为所述S*S个第一网格的语义信息;/n获取每张样本图像的S*S个第二网格的预测边框信息;其中,每个所述第二网格的预测边框信息包括:表格存在于所述第二网格的概率、所述第二网格的B个预测边框的位置信息以及所述第二网格的B个预测边框的置信度;/n将所有样本文档页面的S*S个第一网格的语义信息,以及所有样本图像的S*S个第二网格和S*S个预测边框信息作为训练样本集,迭代训练图像识别模型,生成用于预测表格边框信息的表格边框预测模型。/n

【技术特征摘要】
1.一种表格边框预测模型生成方法,其特征在于,包括:
获取多张包含表格的样本文档页面,并将所述样本文档页面转换为图像作为样本图像;
将每张样本文档页面划分为S*S个第一网格,并将每张样本图像划分为S*S个第二网格;
获取每张样本文档页面的S*S个第一网格所包含文本的语义信息,作为所述S*S个第一网格的语义信息;
获取每张样本图像的S*S个第二网格的预测边框信息;其中,每个所述第二网格的预测边框信息包括:表格存在于所述第二网格的概率、所述第二网格的B个预测边框的位置信息以及所述第二网格的B个预测边框的置信度;
将所有样本文档页面的S*S个第一网格的语义信息,以及所有样本图像的S*S个第二网格和S*S个预测边框信息作为训练样本集,迭代训练图像识别模型,生成用于预测表格边框信息的表格边框预测模型。


2.根据权利要求1所述的方法,其特征在于,所述获取每张样本文档页面的S*S个第一网格所包含文本的语义信息,作为S*S个第一网格的语义信息,包括:
对每张样本文档页面的每个第一网格执行以下操作:
获取所述第一网格所包含文本的每种文本属性的数量、每种文本字体的字数、每种文本字号的字数、由多个文本组成的连续文本块的数量以及每种文本词性的分词所包含的字数;
将获得的信息作为所述第一网格的语义信息。


3.根据权利要求2所述的方法,其特征在于,所述文本属性种类包括:中文、英文、数字、空格、序号和其他属性。


4.根据权利要求2所述的方法,其特征在于,组成所述连续文本块的多个文本满足以下条件:任意两个位于左右位置的文本中左文本的右边界与右文本的左边界的距离小于第一阈值,且上边界的距离差小于第二阈值,且下边界的距离差小于第三阈值。


5.根据权利要求2所述的方法,其特征在于,当获得的第一网格所包含文本的语义信息满足以下至少一个条件:获得的文本属性的种类数不足P个,获得的文本字体的种类数不足Q个,获得的文本字号的种类数不足R个,获得的文本词性的种类数不足S个;其中,所述P、Q、R、S分别预定义的文本属性、文本字体、文本字号和文本词性存在的种类数;
所述获取第一网格所包含文本的每种文本属性的数量、每种文本字体的字数、每种文本字号的字数、由多个文本组成的连续文本块的数量以及每种文本词性的分词所包含的字数之后,且所述将获得的信息作为第一网格的语义信息之前,还包括:
用0补足所缺少的种类对应的位置。


6.根据权利要求1所述的方法,其特征在于,所述预测边框的位置信息包括:
所述预测边框的中心点相对于所属第二网格左上角坐标的偏移值,以及所述预测边框的宽与高。


7.根据权利要求1所述的方法,其特征在于,所述预测边框的置信度包括:所述预测边框含有表格的概率*所述预测边框与表格的实际边框的交并比IoU。


8.根据权利要求1所述的方法,其特征在于,所述图像识别模型包括:两个输入层,其中一个输入层后连接多个卷积池化及全连接层,一个输入层后连接多个全连接层,两个输入层经过各自的结构后连接一个融合层进行融合,所述融合层后再连接全连接层与输出层。


9.根据权利要求8所述的方法,其特征在于,所述将所有样本文档页面的S*S个第一网格的语义信息,以及所有样本图像的S*S个第二网格和S*S个预测边框信息作为训练样本集,迭代训练图像识别模型,生成用于预测表格边框信息的表格边框预测模型,包括:
将所述所有样本文档页面的S*S个第一网格的语义信息输入至所述图像识别模型的一个输入层;
将所述所有样本文档页面的S*S个第二网格输入至所述图像识别模型另一个输入层;
将所述所有样本图像的S*S个预测边框信息输入至所述图像识别模型的输出层;
根据预先设定的损失函数,利用反向传播算法对所述图像识别模型进行迭代训练、调整所述图像识别模型的参数,直到损失函数的损失值收敛,得到所述预测边框模型。


10.一种表格定位方法,其特征在于,包括:
获取包含待定位表格的待处理文档页面,并将所述待处理文档页面转换为图像作为待处理图像;
将所述待处理文档页面划分为S*S个第一网格,并将所述待处理图像划分为S*S个第二网格;
获取S*S个第一网格所包含文本的语义信息,作为所述S*S个第一网格的语义信息;
将所述S*S个第一网格语义信息和所述S*S个第二网格输入至如权利要求1-9任一项所述的表格边框预测模型生成方法生成的表格边框预测模型,得到S*S个第二网格的预测边框信息;其中,每个所述第二网格的预测边框信息包括:表格存在于所述第二网格的概率、所述第二网格的B个预测边框的位置信息以及所述第二网格的B个预测边框的置信度;
根据获得的S*S个第二网格的预测边框信息进行表格定位。


11.根据权利要求10所述的方法,其特征在于,所述获取S*S个第一网格所包含文本的语义信息,作为S*S个第一网格的语义信息,包括:
对每个第一网格执行以下操作:
获取所述第一网格所包含文本的每种文本属性的数量、每种文本字体的字数、每种文本字号的字数、由多个文本组成的连续文本块的数量以及每种文本词性的分词...

【专利技术属性】
技术研发人员:李倩兰袁灿于政
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1