表格结构识别的方法、装置、存储介质及电子设备制造方法及图纸

技术编号:29791436 阅读:13 留言:0更新日期:2021-08-24 18:10
本公开涉及一种表格结构识别的方法、装置、存储介质及电子设备,可以将待识别表格对应的表格图像作为目标检测模型的输入,得到待识别表格中每个表格元素的位置特征和元素类别,元素类别包括文字行;通过文字识别模型对文字行进行文字识别,得到每个文字行的文本语义特征;通过图像特征提取模型对表格图像进行特征提取,得到图像特征图,并对图像特征图进行采样,得到每个表格元素分别对应的目标图像特征;根据位置特征、文本语义特征以及目标图像特征,通过预设关系提取模型得到用于表征待识别表格中每两个表格元素之间的拓扑关系的目标关系特征,根据目标关系特征通过预设分类模型确定用于表征待识别表格的表格结构的图邻接矩阵。

【技术实现步骤摘要】
表格结构识别的方法、装置、存储介质及电子设备
本公开涉及表格结构的识别领域,具体地,涉及一种表格结构识别的方法、装置、存储介质及电子设备。
技术介绍
表格结构识别作为OCR(OpticalCharacterRecognition,光学字符识别)技术中一个重要的子领域,在许多文字识别的应用中有着不可或缺的地位。相关技术中可以使用图表示表格结构,运用表格图像特征和文字位置特征,基于图神经网络得到表征表格结构的图,但该方法在使用文本特征识别表格结构时,仅仅是基于文字位置以及文本字符串长度作为特征,该特征的引入并未对表格结构识别带来实质上的信息增益,使得表格结构识别的准确性不足,另外,该方法在对图像特征采样的过程中,是直接对图像特征图中ROI区域的中心位置进行采样,该采样后的图像特征并不能表示整体表格的图像特征信息,这也会影响表格结构识别的准确性。
技术实现思路
本公开的目的是提供一种表格结构识别的方法、装置、存储介质及电子设备。第一方面,提供一种表格结构识别方法,所述方法包括:将待识别表格对应的表格图像作为预先训练得到的目标检测模型的输入,得到所述待识别表格中每个表格元素的位置特征和元素类别,所述元素类别包括文字行;通过预先训练得到的文字识别模型对所述文字行进行文字识别,得到每个所述文字行的文本语义特征;通过预先训练得到的图像特征提取模型对所述表格图像进行特征提取,得到图像特征图,并根据所述位置特征对所述图像特征图进行采样,得到每个所述表格元素分别对应的目标图像特征;根据所述位置特征、所述文本语义特征以及所述目标图像特征,通过预设关系提取模型得到目标关系特征,所述目标关系特征用于表征所述待识别表格中每两个所述表格元素之间的拓扑关系;根据所述目标关系特征通过预设分类模型确定图邻接矩阵,所述图邻接矩阵用于表征所述待识别表格的表格结构。可选地,所述元素类别还包括空白单元格和/或插图。可选地,所述目标检测模型包括PSENet模型;所述将待识别表格对应的表格图像作为预先训练得到的目标检测模型的输入,得到所述待识别表格中每个表格元素的位置特征和元素类别包括:将所述表格图像输入所述PSENet模型,得到所述待识别表格中每个所述表格元素对应的所述元素类别和最小外接矩形的顶点位置,并将所述最小外接矩形的顶点位置作为该表格元素的位置特征。可选地,所述文字识别模型包括文字内容识别模型以及与所述文字内容识别模型的输出层连接的文本语义识别模型;所述通过预先训练得到的文字识别模型对所述文字行进行文字识别,得到每个所述文字行的文本语义特征包括:通过所述文字内容识别模型对元素类别为所述文字行的表格元素进行文本识别,得到每个所述文字行的文本内容;针对每个所述文字行,按照预设分词算法对该文字行的文本内容进行分词处理得到多个子级词条以及每个子级词条分别对应的语言类别;将多个所述子级词条以及每个所述子级词条对应的所述语言类别输入所述文本语义识别模型,得到每个所述文字行的所述文本语义特征。可选地,所述文本语义识别模型包括多语言预训练模型XLM-Roberta。可选地,在所述将多个所述子级词条以及每个所述子级词条对应的所述语言类别输入所述文本语义识别模型之前,所述方法还包括:获取所述语言类别对应的目标文本语义识别模型;所述将多个所述子级词条以及每个所述子级词条对应的所述语言类别输入所述文本语义识别模型包括:将多个所述子级词条以及每个所述子级词条对应的所述语言类别输入所述目标文本语义识别模型,得到每个所述文字行的所述文本语义特征。可选地,所述根据所述位置特征对所述图像特征图进行采样,得到每个所述表格元素分别对应的目标图像特征包括:根据所述位置特征确定每个所述表格元素在所述图像特征图中的特征区域;通过ROIPooling方法对每个所述特征区域进行特征尺寸对齐,得到每个所述表格元素分别对应的所述目标图像特征。可选地,所述预设关系提取模型包括动态图卷积网络DGCNN模型,所述根据所述位置特征、所述文本语义特征以及所述目标图像特征,通过预设关系提取模型得到目标关系特征包括:针对多个所述表格元素中的每个表格元素,将该表格元素对应的所述位置特征、所述文本语义特征以及所述目标图像特征进行特征融合,得到该表格元素对应的多模态特征;将每个所述表格元素对应的所述多模态特征输入所述DGCNN模型,得到所述待识别表格对应的所述目标关系特征。可选地,所述DGCNN模型包括多个依次连接的边卷积层,所述将每个所述表格元素对应的所述多模态特征输入所述DGCNN模型,得到所述待识别表格对应的所述目标关系特征包括:针对每个所述边卷积层,通过K-近邻KNN算法确定每个表格元素分别对应的元素集合,所述元素集合包括当前表格元素以及与所述当前表格元素对应的K个邻近表格元素,所述当前表格元素为任一所述表格元素;对所述元素集合中每个表格元素分别对应的所述多模态特征进行边卷积运算,得到所述当前表格元素对应的新的表格元素特征;将当前变卷积层计算得到的每个表格元素分别对应的新的表格元素特征作为下一个边卷积层的输入,并将最后一个边卷积层输出的每个表格元素分别对应的新的表格元素特征作为所述目标关系特征。可选地,所述预设分类模型包括多个,不同的预设分类模型输出不同的图邻接矩阵,在所述根据所述目标关系特征通过预设分类模型确定图邻接矩阵之前,所述方法还包括:针对所述待识别表格中的每个表格元素,从所述待识别表格的全部表格元素中确定该表格元素对应的目标表格元素,并针对每个所述目标表格元素,将该表格元素与该目标表格元素组成顶点对;针对每个顶点对,将该顶点对中的两个表格元素分别对应的所述目标关系特征进行特征合并,得到该顶点对对应的目标特征;所述根据所述目标关系特征通过预设分类模型确定图邻接矩阵包括:针对多个所述预设分类模型中的每个预设分类模型,将每个所述顶点对对应的所述目标特征输入该预设分类模型,得到该预设分类模型对应的所述图邻接矩阵。可选地,所述从所述待识别表格的全部表格元素中确定该表格元素对应的目标表格元素包括:从所述全部表格元素中确定与该表格元素存在连接关系的第一表格元素;从其它表格元素中随机选取N个第二表格元素,所述其它表格元素为所述全部表格元素中除所述第一表格元素和该表格元素以外的表格元素,所述N为所述第一表格元素的数量;将所述第一表格元素和所述第二表格元素作为所述目标表格元素。可选地,所述根据所述目标关系特征通过预设分类模型确定图邻接矩阵后,所述方法还包括:根据所述图邻接矩阵构建待输出的目标表格。可选地,所述图邻接矩阵包括单元格关系图邻接矩阵、行关系图邻接矩阵以及列关系图邻接矩阵,所述根据所述图邻接矩阵构建待输出的目标表格包括:对所述单元格关系图邻接矩阵进行最大团分解,得到多个第一最大团,不同的第一最大团对应不同的单元格;将每个所述第一最大团中的待定顶点合并为单个目标顶点,并根据合并结果更新所述行关系图邻接矩阵以及所述列关系图邻接矩阵,其中,所述待定顶点与所述表格元素一一对应;根据更新后的行关系图邻接矩阵和更新后的列关系本文档来自技高网...

【技术保护点】
1.一种表格结构识别方法,其特征在于,所述方法包括:/n将待识别表格对应的表格图像作为预先训练得到的目标检测模型的输入,得到所述待识别表格中每个表格元素的位置特征和元素类别,所述元素类别包括文字行;/n通过预先训练得到的文字识别模型对所述文字行进行文字识别,得到每个所述文字行的文本语义特征;/n通过预先训练得到的图像特征提取模型对所述表格图像进行特征提取,得到图像特征图,并根据所述位置特征对所述图像特征图进行采样,得到每个所述表格元素分别对应的目标图像特征;/n根据所述位置特征、所述文本语义特征以及所述目标图像特征,通过预设关系提取模型得到目标关系特征,所述目标关系特征用于表征所述待识别表格中每两个所述表格元素之间的拓扑关系;/n根据所述目标关系特征通过预设分类模型确定图邻接矩阵,所述图邻接矩阵用于表征所述待识别表格的表格结构。/n

【技术特征摘要】
1.一种表格结构识别方法,其特征在于,所述方法包括:
将待识别表格对应的表格图像作为预先训练得到的目标检测模型的输入,得到所述待识别表格中每个表格元素的位置特征和元素类别,所述元素类别包括文字行;
通过预先训练得到的文字识别模型对所述文字行进行文字识别,得到每个所述文字行的文本语义特征;
通过预先训练得到的图像特征提取模型对所述表格图像进行特征提取,得到图像特征图,并根据所述位置特征对所述图像特征图进行采样,得到每个所述表格元素分别对应的目标图像特征;
根据所述位置特征、所述文本语义特征以及所述目标图像特征,通过预设关系提取模型得到目标关系特征,所述目标关系特征用于表征所述待识别表格中每两个所述表格元素之间的拓扑关系;
根据所述目标关系特征通过预设分类模型确定图邻接矩阵,所述图邻接矩阵用于表征所述待识别表格的表格结构。


2.根据权利要求1所述的方法,其特征在于,所述元素类别还包括空白单元格和/或插图。


3.根据权利要求1所述的方法,其特征在于,所述目标检测模型包括PSENet模型;所述将待识别表格对应的表格图像作为预先训练得到的目标检测模型的输入,得到所述待识别表格中每个表格元素的位置特征和元素类别包括:
将所述表格图像输入所述PSENet模型,得到所述待识别表格中每个所述表格元素对应的所述元素类别和最小外接矩形的顶点位置,并将所述最小外接矩形的顶点位置作为该表格元素的位置特征。


4.根据权利要求1所述的方法,其特征在于,所述文字识别模型包括文字内容识别模型以及与所述文字内容识别模型的输出层连接的文本语义识别模型;所述通过预先训练得到的文字识别模型对所述文字行进行文字识别,得到每个所述文字行的文本语义特征包括:
通过所述文字内容识别模型对元素类别为所述文字行的表格元素进行文本识别,得到每个所述文字行的文本内容;
针对每个所述文字行,按照预设分词算法对该文字行的文本内容进行分词处理得到多个子级词条以及每个子级词条分别对应的语言类别;
将多个所述子级词条以及每个所述子级词条对应的所述语言类别输入所述文本语义识别模型,得到每个所述文字行的所述文本语义特征。


5.根据权利要求4所述的方法,其特征在于,所述文本语义识别模型包括多语言预训练模型XLM-Roberta。


6.根据权利要求4所述的方法,其特征在于,在所述将多个所述子级词条以及每个所述子级词条对应的所述语言类别输入所述文本语义识别模型之前,所述方法还包括:
获取所述语言类别对应的目标文本语义识别模型;
所述将多个所述子级词条以及每个所述子级词条对应的所述语言类别输入所述文本语义识别模型包括:
将多个所述子级词条以及每个所述子级词条对应的所述语言类别输入所述目标文本语义识别模型,得到每个所述文字行的所述文本语义特征。


7.根据权利要求1所述的方法,其特征在于,所述根据所述位置特征对所述图像特征图进行采样,得到每个所述表格元素分别对应的目标图像特征包括:
根据所述位置特征确定每个所述表格元素在所述图像特征图中的特征区域;
通过ROIPooling方法对每个所述特征区域进行特征尺寸对齐,得到每个所述表格元素分别对应的所述目标图像特征。


8.根据权利要求1所述的方法,其特征在于,所述预设关系提取模型包括动态图卷积神经网络DGCNN模型,所述根据所述位置特征、所述文本语义特征以及所述目标图像特征,通过预设关系提取模型得到目标关系特征包括:
针对多个所述表格元素中的每个表格元素,将该表格元素对应的所述位置特征、所述文本语义特征以及所述目标图像特征进行特征融合,得到该表格元素对应的多模态特征;
将每个所述表格元素对应的所述多模态特征输入所述DGCNN模型,得到所述待识别表格对应的所述目标关系特征。


9.根据权利要求8所述的方法,其特征在于,所述DGCNN模型包括多个依次连接的边卷积层,所述将每个所述表格元素对应的所述多模态特征输入所述DGCNN模型,得到所述待识别表格对应的所述目标关系特征包括:
针对每个所述边卷积层,通过K-近邻KNN算法确定每个表格元素分别对应的元素集合,所述元素集合包括当前表格元素以及与所述当前表格元素对应的K个邻近表格元素,所述当前表格元素为任一所述表格元素;
对所述元素集合中每个表格元素分别对应的所述多模态特征进行边卷积运算,得到所述当前表格元素对应的新的表格元素特征;
将当前变卷积层计算得到的每个表格元素分别对应的新的表格元素特征作为下一个边卷积层的输入,并将最后一个边卷积层输出的每个表格元素分别对应的新...

【专利技术属性】
技术研发人员:张明
申请(专利权)人:新东方教育科技集团有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1