基于人工智能的表格图像重构方法、装置、设备及介质制造方法及图纸

技术编号:31711680 阅读:13 留言:0更新日期:2022-01-01 11:15
本发明专利技术涉及人工智能技术领域,提供了一种基于人工智能的表格图像重构方法、装置、设备及存储介质。所述方法包括:识别待重构的表格图像中各文本框的坐标信息及文本信息并构建无向连通图;提取无向连通图中各节点的位置坐标特征、文本特征、图像特征及位置编码特征,并执行融合操作得到各节点的目标融合特征;将包含有边特征及节点目标融合特征的无向连通图,输入节点关系分类模型,得到无向连通图中各节点之间边的分类结果;基于分类结果将各文本框填充至模板文件的对应位置,得到重构的目标表格文件。本发明专利技术可以将非结构化的表格图像转换为结构化的表格文件。本发明专利技术还涉及区块链技术领域,上述目标表格文件可以存储于一区块链的节点中。节点中。节点中。

【技术实现步骤摘要】
基于人工智能的表格图像重构方法、装置、设备及介质


[0001]本专利技术涉及人工智能
,尤其涉及一种基于人工智能的表格图像重构方法、装置、设备及存储介质。

技术介绍

[0002]表格是一种有效的数据组织与展现方法被广泛应用,随着文档尤其是通过扫描、拍照等方式生成的文档快速增长,实现自动重构表格文档图像的方法非常重要。重构表格图像是指将不可编辑的表格图像,自动转换为保持原始表格结构的excel形式。由于表格文档版式复杂、背景纹理丰富、信息排版多样、光照程度及拍摄机器质量等因素,目前大多研究仅限于对表格图像的文字识别,因此,亟需通过技术方案实现对表格图像的重构。

技术实现思路

[0003]鉴于以上内容,本专利技术提供一种基于人工智能的表格图像重构方法、装置、设备及存储介质,其目的在于实现将非结构化表格图像自动转换为结构化的表格文件。
[0004]为实现上述目的,本专利技术提供一种基于人工智能的表格图像重构方法,该方法包括:
[0005]将待重构的表格图像输入预先构建的图像识别模型,得到所述表格图像中各文本框的坐标信息及文本信息,以各文本框作为节点,各文本框之间的距离作为边构建无向连通图;
[0006]分别提取所述无向连通图中各节点的位置坐标特征、文本特征、图像特征及位置编码特征,对各节点的位置坐标特征、文本特征、图像特征及位置编码特征执行融合操作,得到各节点对应的目标融合特征;
[0007]将各节点之间的距离特征作为所述无向连通图的边特征,将包含有边特征及节点目标融合特征的无向连通图,输入预先训练好的节点关系分类模型,得到所述无向连通图中各节点之间边的分类结果;
[0008]基于各节点之间边的分类结果确各节点之间的位置关系,基于各节点的位置关系将各节点对应的文本框填充至预设模板文件的对应位置,得到重构的目标表格文件。
[0009]优选的,所述图像识别模型包括位置检测模型及文本识别模型,所述将待重构的表格图像输入预先构建的图像识别模型,得到所述表格图像中各文本框的坐标信息及文本信息,包括:
[0010]将所述表格图像输入所述位置检测模型,得到所述表格图像中各个文本框的坐标信息,基于各个文本框的坐标信息对表格图像的文本框进行切分,将切分后的文本框分别输入所述文本识别模型,得到各文本框的文本信息。
[0011]优选的,所述提取所述无向连通图中各节点的图像特征,包括:
[0012]利用FPN算法构建特征塔,将节点对应的图像依次输入至所述特征塔的不同层级,利用所述特征塔中的映射通道将所述特征塔中各层级的图像逐层向下映射至所述特征塔
底层的图像中,对映射后特征塔底层的多张映射图像进行拼接,得到该节点对应的图像特征。
[0013]优选的,所述对各节点的位置坐标特征、文本特征、图像特征及位置编码特征执行融合操作,包括:
[0014]对各节点对应的位置坐标特征、文本特征、图像特征及位置编码特征分别通过预设模型的全连接层进行特征转换,生成四个不同尺寸的初始特征;
[0015]将四个不同尺寸的初始特征的尺寸调整至相同的尺寸,将调整后的四个初始特征进行点乘运算生成初始融合特征;
[0016]以全连接层对所述初始融合特征进行特征转换生成注意力特征,将所述注意力特征与所述初始融合特征进行点乘融合生成所述目标融合特征。
[0017]优选的,所述对各节点的位置坐标特征、文本特征、图像特征及位置编码特征执行融合操作,包括:
[0018]分别对各节点的位置坐标特征、文本特征、图像特征及位置编码特征设定对应的权重,根据所述权重对各节点的位置坐标特征、文本特征、图像特征及位置编码特征执行加权融合,得到所述目标融合特征。
[0019]优选的,所述节点关系分类模型的训练过程包括:
[0020]获取预设数量包含有边特征和节点融合特征的样本无向连通图,为各样本无向连通图中各节点之间的边分配预设标签,将包含有边特征和节点融合特征的样本无向连通图作为自变量、各节点之间的边的预设标签作为因变量生成样本集;
[0021]将所述样本集中每个样本输入图卷积神经网络模型,得到所述样本集中每个样本的预测分类结果;
[0022]基于所述样本集中每个样本的预设标签确定所述样本集中每个样本的真实分类结果;
[0023]通过最小化所述预测分类结果与所述真实分类结果之间的损失值确定所述节点关系分类模型的结构参数,得到训练好的节点关系分类模型。
[0024]优选的,所述基于各节点之间边的分类结果确各节点之间的位置关系,包括:
[0025]利用深度优先搜索算法确定同行关系及同列关系的第一类型节点,并确定跨行关系及跨列关系的第二类型节点,基于所述第一类型节点及第二类型节点的坐标信息,确定各节点之间的位置关系。
[0026]为实现上述目的,本专利技术还提供一种基于人工智能的表格图像重构装置,该基于人工智能的表格图像重构装置包括:
[0027]构建模块:用于将待重构的表格图像输入预先构建的图像识别模型,得到所述表格图像中各文本框的坐标信息及文本信息,以各文本框作为节点,各文本框之间的距离作为边构建无向连通图;
[0028]融合模块:用于分别提取所述无向连通图中各节点的位置坐标特征、文本特征、图像特征及位置编码特征,对各节点的位置坐标特征、文本特征、图像特征及位置编码特征执行融合操作,得到各节点对应的目标融合特征;
[0029]识别模块:用于将各节点之间的距离特征作为所述无向连通图的边特征,将包含有边特征及节点目标融合特征的无向连通图,输入预先训练好的节点关系分类模型,得到
所述无向连通图中各节点之间边的分类结果;
[0030]重构模块:用于基于各节点之间边的分类结果确各节点之间的位置关系,基于各节点的位置关系将各节点对应的文本框填充至预设模板文件的对应位置,得到重构的目标表格文件。
[0031]为实现上述目的,本专利技术还提供一种电子设备,所述电子设备包括:
[0032]至少一个处理器;以及,
[0033]与所述至少一个处理器通信连接的存储器;其中,
[0034]所述存储器存储有可被所述至少一个处理器执行的程序,所述程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的基于人工智能的表格图像重构方法的任意步骤。
[0035]为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质存储有基于人工智能的表格图像重构程序,所述基于人工智能的表格图像重构程序被处理器执行时,实现如上所述基于人工智能的表格图像重构方法的任意步骤。
[0036]本专利技术提出的基于人工智能的表格图像重构方法、装置、设备及存储介质,融合了表格图像的多模态信息(位置坐标特征、文本特征、图像特征及位置编码特征),实现了端到端的表格图像的重构,能有效地对多种版式、多种形式(翻拍屏幕、手机拍纸制表格、截图、扫描)的表格文档图像,重构为结构化文档,重构后结构化的表格能极本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的表格图像重构方法,应用于电子设备,其特征在于,所述方法包括:将待重构的表格图像输入预先构建的图像识别模型,得到所述表格图像中各文本框的坐标信息及文本信息,以各文本框作为节点,各文本框之间的距离作为边构建无向连通图;分别提取所述无向连通图中各节点的位置坐标特征、文本特征、图像特征及位置编码特征,对各节点的位置坐标特征、文本特征、图像特征及位置编码特征执行融合操作,得到各节点对应的目标融合特征;将各节点之间的距离特征作为所述无向连通图的边特征,将包含有边特征及节点目标融合特征的无向连通图,输入预先训练好的节点关系分类模型,得到所述无向连通图中各节点之间边的分类结果;基于各节点之间边的分类结果确各节点之间的位置关系,基于各节点的位置关系将各节点对应的文本框填充至预设模板文件的对应位置,得到重构的目标表格文件。2.如权利要求1所述的基于人工智能的表格图像重构方法,其特征在于,所述图像识别模型包括位置检测模型及文本识别模型,所述将待重构的表格图像输入预先构建的图像识别模型,得到所述表格图像中各文本框的坐标信息及文本信息,包括:将所述表格图像输入所述位置检测模型,得到所述表格图像中各个文本框的坐标信息,基于各个文本框的坐标信息对表格图像的文本框进行切分,将切分后的文本框分别输入所述文本识别模型,得到各文本框的文本信息。3.如权利要求1所述的基于人工智能的表格图像重构方法,其特征在于,所述提取所述无向连通图中各节点的图像特征,包括:利用FPN算法构建特征塔,将节点对应的图像依次输入至所述特征塔的不同层级,利用所述特征塔中的映射通道将所述特征塔中各层级的图像逐层向下映射至所述特征塔底层的图像中,对映射后特征塔底层的多张映射图像进行拼接,得到该节点对应的图像特征。4.如权利要求1所述的基于人工智能的表格图像重构方法,其特征在于,所述对各节点的位置坐标特征、文本特征、图像特征及位置编码特征执行融合操作,包括:对各节点对应的位置坐标特征、文本特征、图像特征及位置编码特征分别通过预设模型的全连接层进行特征转换,生成四个不同尺寸的初始特征;将四个不同尺寸的初始特征的尺寸调整至相同的尺寸,将调整后的四个初始特征进行点乘运算生成初始融合特征;以全连接层对所述初始融合特征进行特征转换生成注意力特征,将所述注意力特征与所述初始融合特征进行点乘融合生成所述目标融合特征。5.如权利要求1所述的基于人工智能的表格图像重构方法,其特征在于,所述对各节点的位置坐标特征、文本特征、图像特征及位置编码特征执行融合操作,包括:分别对各节点的位置坐标特征、文本特征、图像特征及位置编码特征设定对应的权重,根据所述权重对各节点的位置坐标特征、文本特征、图像特...

【专利技术属性】
技术研发人员:陈少琼汤鑫付园园
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1