表格识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:38343577 阅读:9 留言:0更新日期:2023-08-02 09:23
本发明专利技术提供一种表格识别方法、装置、电子设备及存储介质,涉及数据处理技术领域,该方法包括:对待识别表格的表格图像进行特征识别,得到所述待识别表格的图像特征,以及所述待识别表格中各文本块的文本内容和位置信息;根据所述图像特征、所述文本内容和所述位置信息,确定各文本块之间的关联特征;根据各文本块的关联特征以及所述位置信息,对所述待识别表格的框架进行识别;根据所述待识别表格的框架对各文本块的文本内容进行回填,得到所述待识别表格的识别结果。本发明专利技术实现在线上自动化执行整个识别过程,减少了人工参与,有效提高了表格识别的效率和精准性。了表格识别的效率和精准性。了表格识别的效率和精准性。

【技术实现步骤摘要】
表格识别方法、装置、电子设备及存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种表格识别方法、装置、电子设备及存储介质。

技术介绍

[0002]随着大数据的发展与进步,越来越来的业务涉及到表格数据;表格识别为发票、经营执照等业务的验真,以及对公业务开展提供多元化的数据支持,因此如何对表格进行高效精准地识别是目前业界亟待解决的问题之一。
[0003]目前行业对复杂表格的识别方式仍采取纯人工摘录的方式。在银行对公业务等业务中需要对经营执照和发票等一些类复杂表格进行大量的数据识别的场景下,由于人力限制无法对表格进行大批量和高效处理,不仅会消耗大量人力与时间,且正确率无法保证,另外还需同时辅以人力投入对摘录结果进行校验,核对工作,为后续表格数据的使用增加了误差与不确定性。

技术实现思路

[0004]本专利技术提供一种表格识别方法、装置、电子设备及存储介质,用以解决现有技术中人工进行表格识别,导致效率低下、精度低且需消耗大量的人力资源的缺陷,实现对表格的高效精准识别。
[0005]本专利技术提供一种表格识别方法,包括:
[0006]对待识别表格的表格图像进行特征识别,得到所述待识别表格的图像特征,以及所述待识别表格中各文本块的文本内容和位置信息;
[0007]根据所述图像特征、所述文本内容和所述位置信息,确定各文本块之间的关联特征;
[0008]根据各文本块的关联特征以及所述位置信息,对所述待识别表格的框架进行识别;
[0009]根据所述待识别表格的框架对各文本块的文本内容进行回填,得到所述待识别表格的识别结果。
[0010]根据本专利技术提供的一种表格识别方法,所述根据所述图像特征、所述文本内容和所述位置信息,确定各文本块之间的关联特征,包括:
[0011]根据所述图像特征、所述文本内容和所述位置信息,获取各文本块的文本块特征;
[0012]根据各文本块以及各文本块的文本块特征,构建图神经网络;
[0013]根据图神经网络的拓扑结构,确定各文本块之间的关联特征。
[0014]根据本专利技术提供的一种表格识别方法,所述根据所述图像特征、所述文本内容和所述位置信息,获取各文本块的文本块特征,包括:
[0015]根据所述图像特征和各文本块的位置信息,构建各文本块的文本框特征;
[0016]对各文本块的文本内容进行序列化,得到各文本块的文本内容序列;
[0017]根据各文本块的文本框特征和各文本块的文本内容序列,获取各文本块的文本块特征。
[0018]根据本专利技术提供的一种表格识别方法,所述根据各文本块以及各文本块的文本块特征,构建图神经网络,包括:
[0019]将各文本块作为顶点,将各文本块的文本块特征作为顶点特征,构建初始图神经网络;
[0020]对所述初始图神经网络中的顶点进行成对抽样,得到顶点对;
[0021]将顶点对中所有顶点对应的文本块特征输入至分类模型中,识别所述顶点对中所有顶点对应的文本块是否位于所述待识别表格的同一列、同一行或同一单元格;
[0022]根据识别结果,构建顶点对中各顶点之间的邻接矩阵;
[0023]基于最大团算法和所述邻接矩阵,对所述初始图神经网络进行更新,得到所述图神经网络。
[0024]根据本专利技术提供的一种表格识别方法,所述对待识别表格的表格图像进行特征识别,得到所述待识别表格的图像特征,以及所述待识别表格中各文本块的文本内容和位置信息,包括:
[0025]将所述表格图像输入至卷积神经网络中,提取所述图像特征;
[0026]将所述表格图像输入至光学字符识别网络中,提取各文本块的文本内容和位置信息。
[0027]根据本专利技术提供的一种表格识别方法,所述将所述表格图像输入至卷积神经网络中,提取所述图像特征,包括:
[0028]将所述表格图像输入至检测模型中,获取所述待识别表格所在的表格区域;
[0029]根据所述表格区域,对所述表格图像进行裁剪,得到所述待识别表格的局部图像;
[0030]将所述局部图像输入至所述卷积神经网络中,提取所述图像特征。
[0031]根据本专利技术提供的一种表格识别方法,所述对待识别表格的表格图像进行特征识别,得到所述待识别表格的图像特征,以及所述待识别表格中各文本块的文本内容和位置信息,包括:
[0032]在所述表格图像为拍摄图像的情况下,对所述表格图像进行预处理;所述预处理包括方向校准、清晰度增强、空间变换;
[0033]对所述预处理后的表格图像进行识别,得到所述图像特征,以及各文本块的文本内容和位置信息。
[0034]本专利技术还提供一种表格识别装置,包括:
[0035]第一识别模块,用于对待识别表格的表格图像进行特征识别,得到所述待识别表格的图像特征,以及所述待识别表格中各文本块的文本内容和位置信息;
[0036]确定模块,用于根据所述图像特征、所述文本内容和所述位置信息,确定各文本块之间的关联特征;
[0037]第二识别模块,用于根据各文本块的关联特征以及所述位置信息,对所述待识别表格的框架进行识别;
[0038]第三识别模块,用于根据所述待识别表格的框架对各文本块的文本内容进行回填,得到所述待识别表格的识别结果。
[0039]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述表格识别方法。
[0040]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述表格识别方法。
[0041]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述表格识别方法。
[0042]本专利技术提供的表格识别方法、装置、电子设备及存储介质,通过对待识别表格的表格图像进行特征识别,关联特征挖掘,得到各文本块的关联特征以及位置信息,并基于各文本块的关联特征以及位置信息进行框架识别以及文本内容回填,以获取待识别表格的识别结果,整个识别过程均在线上自动化执行,减少了人工参与,有效提高了表格识别的效率和精准性。
附图说明
[0043]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0044]图1是本专利技术提供的表格识别方法的流程示意图之一;
[0045]图2是本专利技术提供的表格识别方法的流程示意图之二;
[0046]图3是本专利技术提供的表格识别装置的结构示意图;
[0047]图4是本专利技术提供的电子设备的结构示意图。
具体实施方式
[0048]为使本专利技术的目的、技术方案和优点更加清楚,下面本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表格识别方法,其特征在于,包括:对待识别表格的表格图像进行特征识别,得到所述待识别表格的图像特征,以及所述待识别表格中各文本块的文本内容和位置信息;根据所述图像特征、所述文本内容和所述位置信息,确定各文本块之间的关联特征;根据各文本块的关联特征以及所述位置信息,对所述待识别表格的框架进行识别;根据所述待识别表格的框架对各文本块的文本内容进行回填,得到所述待识别表格的识别结果。2.根据权利要求1所述的表格识别方法,其特征在于,所述根据所述图像特征、所述文本内容和所述位置信息,确定各文本块之间的关联特征,包括:根据所述图像特征、所述文本内容和所述位置信息,获取各文本块的文本块特征;根据各文本块以及各文本块的文本块特征,构建图神经网络;根据图神经网络的拓扑结构,确定各文本块之间的关联特征。3.根据权利要求2所述的表格识别方法,其特征在于,所述根据所述图像特征、所述文本内容和所述位置信息,获取各文本块的文本块特征,包括:根据所述图像特征和各文本块的位置信息,构建各文本块的文本框特征;对各文本块的文本内容进行序列化,得到各文本块的文本内容序列;根据各文本块的文本框特征和各文本块的文本内容序列,获取各文本块的文本块特征。4.根据权利要求2所述的表格识别方法,其特征在于,所述根据各文本块以及各文本块的文本块特征,构建图神经网络,包括:将各文本块作为顶点,将各文本块的文本块特征作为顶点特征,构建初始图神经网络;对所述初始图神经网络中的顶点进行成对抽样,得到顶点对;将顶点对中所有顶点对应的文本块特征输入至分类模型中,识别所述顶点对中所有顶点对应的文本块是否位于所述待识别表格的同一列、同一行或同一单元格;根据识别结果,构建顶点对中各顶点之间的邻接矩阵;基于最大团算法和所述邻接矩阵,对所述初始图神经网络进行更新,得到所述图神经网络。5.根据权利要求1

4任一所述的表格识别方法,其特征在于,所述对待识别表格的表格图像进行特征识别,得到所述待识别表格的图像特...

【专利技术属性】
技术研发人员:罗凯文
申请(专利权)人:中银金融科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1