【技术实现步骤摘要】
表格识别方法、装置、电子设备及可读存储介质
[0001]本专利技术涉及计算机视觉
,特别是涉及一种表格识别方法、装置、电子设备及可读存储介质。
技术介绍
[0002]人工智能(AI,Artificial Intelligence)是指以工程化(即设计并制造)的系统感知环境的能力,以及获取、处理、应用和表示知识的能力。表格识别是人工智能的图像分析与识别领域的一个重要分支,其目标是获取和访问数据及其它有效信息。
[0003]具体而言,表格识别技术是指将带有表格的图像,经过一定的图像处理策略,将图像中的表格重建为电子表格,例如,Excel格式的表格。
[0004]但是,表格的样式复杂多样,不同的表格具有不同的行列结构,不同的文字类型,不同的背景填充等,且带有表格的图像在采集时所处的光照环境,以及图像中表格的纹理等都有较大的差异,以上问题导致表格识别一直是识别难题。
[0005]因此,如何提升表格识别的准确性,是亟待解决的问题。
技术实现思路
[0006]本专利技术实施例的目的在于提供一种表格识别方法、装置、电子设备及可读存储介质,以提升表格识别的准确性。具体技术方案如下:
[0007]第一方面,本专利技术实施例提供了一种表格识别方法,所述方法包括:
[0008]从目标图像中,分割表格区域,得到表格图像;
[0009]利用预先训练完成的表格识别模型,识别所述表格图像中的表格结构以及单元格的位置信息;其中,所述表格识别模型包括用于提取所述表格图像的图像特征的
【技术保护点】
【技术特征摘要】
1.一种表格识别方法,其特征在于,所述方法包括:从目标图像中,分割表格区域,得到表格图像;利用预先训练完成的表格识别模型,识别所述表格图像中的表格结构以及单元格的位置信息;其中,所述表格识别模型包括用于提取所述表格图像的图像特征的编码层,以及用于生成所述表格结构的解码层;所述解码层的输入为:所述编码层的输入内容及所述编码层的输出内容;识别所述表格图像的文本区域以及所述文本区域中的文本内容;基于所述单元格的位置信息、所述表格结构、所述文本区域以及所述文本区域中的文本内容,生成电子表格文件。2.根据权利要求1所述的方法,其特征在于,所述解码层包括第一网络层,以及位于所述第一网络层之后且并列的第二网络层和第三网络层;所述第一网络层包括一个自注意力机制transformer层;所述第二网络层用于对所述表格图像中的单元格的位置进行识别,且包括两个十字形窗口自注意力机制cswin transformer层;所述第三网络层用于对所述表格图像中的表格结构进行预测,且包括一个自注意力机制transformer层。3.根据权利要求1所述的方法,其特征在于,所述表格结构为利用超文本语言进行表征的结构。4.根据权利要求1
‑
3任一项所述的方法,其特征在于,所述从所述目标图像中,分割表格区域,得到表格图像,包括:利用预先训练完成的图像特征提取网络提取所述目标图像的图像特征;基于所述目标图像的图像特征,识别所述目标图像中的表格的候选位置,得到针对所述表格的候选位置的识别结果;利用非极大值抑制算法,去除所述识别结果中重叠的结果,得到所述表格的目标位置;从所述目标图像中,提取所述表格的目标位置处的图像区域,得到表格图像。5.根据权利要求1
‑
4任一项所述的方法,其特征在于,所述识别所述表格图像的文本区域以及所述文本区域中的文本内容,包括:利用预先训练完成的文本区域识别网络,以及预先提取的文字区域特征图,识别所述表格图像中的文本区域;其中,所述文本区域识别网络为可微二值化网络DBNet;所述文字区域特征图为经过卷积块注意力模块处理后的特征图;对所述文本区域进行文本识别,得到所述文本区域中的文本内容。6.根据权利要求5所述的方法,其特征在于,所述对所述文本区域进行文本识别,得到所述文本区域中的文本内容,包括:利用预先训练完成的文本识别网络识别所述文本区域的文本内容;其中,所述文本识别网络为利用指定综合损失训练得到的网络;其中,所述指定综合损失为基于神经网络的时序类分类损失和聚合交叉熵损失进行融合后所得到的综合损失。7.根据权利要求1
‑
6任一项所述的方法,其特征在于,所述基于所述单元格的位置信息、所述表格结构、所述文本区域以及所述文本区域中的文本内容,生成电子表格文件,包括:基于所述单元格的位置信息、所述表格结构,以及所述文本区域,确定每一所述文本区域中的文本内容所对应的表格结构中的位置;
将每一所述文本区域中的文本内容填入对应的结构序列的位置中,生成利用超文本语言进行表征的表格。8.根据权利要求1所述的方法,其特征在于,所述方法还包括:当接收到针对所述目标图像的视觉问答指令时,获取所述视觉问答指令中的目标问题;确定所述目标问题对应的答案内容。9.根据权利要求8所述的方法,其特征在于,所述确定所述目标问题对应的答案内容,包括:将所述目标图像的图像特征、所述单元格的位置信息、所述文本区域、所述文本区域中的文本内容,以及所述目标问题输入预先训练完成的视觉问答模型,生成所述目标问题对应的答案内容;其中,所述视觉问答模型为利用样本表格图像、所述样本表格图像中的每一文本区域、所述样本表格图像的文本内容、所述样本表格图像的图像特征,输入的问题以及对应的答案内容的真值,训练得到的BERT预训练模型。10.一种表格识别装置,其特征在于,所述装置包括:分割模块,用于从目标图像中,分割表格区域,得到表格图像;第一识别模块,用于利用预先训练完成的表格识别模型,识别所述表格图像中的表格结构以及单元格的位置信息;其中,所述表格识别模型包括用于提取所述表格图像的图...
【专利技术属性】
技术研发人员:张鹏远,李长亮,
申请(专利权)人:北京金山数字娱乐科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。