表格识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号:37483999 阅读:23 留言:0更新日期:2023-05-07 09:23
本发明专利技术公开一种表格识别方法、装置、电子设备和存储介质,该方法包括:对目标表格图片做特征提取,得到目标表格的图片特征;利用表结构识别模型根据图片特征识别表格结构,得到表结构识别序列;利用表单元格识别模型根据图片特征和表结构识别序列识别单元格,得到单元格识别序列;对目标表格图片进行光学字符识别,得到识别信息;根据表结构识别序列、单元格识别序列和识别信息生成目标表格。本发明专利技术可以利用模型将图片转序列,从而识别出表格的结构和单元格,图片转序列识别可以抵抗背景干扰,提升表格识别精度,实现无表格线的表格识别,将模型识别结果和光学字符识别结果整合,实现了单元格位置识别的验证和单元格内容识别的互补。互补。互补。

【技术实现步骤摘要】
表格识别方法、装置、电子设备和存储介质


[0001]本专利技术实施例涉及图像识别技术,尤其涉及一种表格识别方法、装置、电子设备和存储介质。

技术介绍

[0002]传统的表格识别技术,可分为自顶向下和自底向上两种类别。自顶向上,常见的,使用openCV(是一个跨平台计算机视觉和机器学习软件库)检测并提取表格;自底向上则有多种,例如用pdfplumber(是一个可以处理pdf格式信息的库,可以对表格进行提取并进行可视化调试)的方法或者camelot(是一个pdf表格数据抽取工具)表格抽取的方法等。在实现本专利技术的过程中,专利技术人发现,传统方法在表格识别的任务中,存在以下缺点:第一,背景干扰等会在表格识别的任务中产生一定影响,降低表格识别的精度;第二,在缺少表格线的情况下,传统的方法则不太适用,识别不出表格。

技术实现思路

[0003]本专利技术实施例提供一种表格识别方法、装置、电子设备和存储介质,能够实现无表格线的表格识别,提升表格识别精度。
[0004]第一方面,本专利技术实施例提供一种表格识别方法,包括:
[0005]对目标表格图片做特征提取,得到目标表格的图片特征;
[0006]利用表结构识别模型根据所述目标表格的图片特征识别所述目标表格的表格结构,得到表结构识别序列;
[0007]利用表单元格识别模型根据所述目标表格的图片特征和所述表结构识别序列识别所述目标表格中的单元格,得到单元格识别序列;
[0008]对所述目标表格图片进行光学字符识别,得到识别信息
[0009]根据所述表结构识别序列、所述单元格识别序列和所述识别信息生成所述目标表格。
[0010]第二方面,本专利技术实施例提供一种表格识别装置,包括:
[0011]特征提取模块,用于对目标表格图片做特征提取,得到目标表格的图片特征;
[0012]表结构识别模块,用于利用表结构识别模型根据所述目标表格的图片特征识别所述目标表格的表格结构,得到表结构识别序列;
[0013]表单元格识别模块,用于利用表单元格识别模型根据所述目标表格的图片特征和所述表结构识别序列识别所述目标表格中的单元格,得到单元格识别序列;
[0014]OCR识别模块,用于对所述目标表格图片进行光学字符识别,得到识别信息;
[0015]表格生成模块,用于根据所述表结构识别序列、所述单元格识别序列和所述识别信息生成所述目标表格。
[0016]第三方面,本专利技术实施例提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如本专利技术
实施例任一所述的表格识别方法。
[0017]第四方面,本专利技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术实施例任一所述的表格识别方法。
[0018]本专利技术实施例中,可以对目标表格图片做特征提取,得到目标表格的图片特征;利用表结构识别模型根据目标表格的图片特征识别目标表格的表格结构,得到表结构识别序列;利用表单元格识别模型根据目标表格的图片特征和表结构识别序列识别目标表格中的单元格,得到单元格识别序列;对目标表格图片进行光学字符识别,得到识别信息;根据表结构识别序列、单元格识别序列和识别信息生成目标表格。即本专利技术可以利用模型基于表格图片的图片特征,识别出用序列表示的表格的结构和单元格,即利用模型将图片转序列从而识别表格,图片转序列识别可以抵抗背景干扰,提升表格识别的精度,且即使没有表格线,也可以通过模型利用图片特征和表结构预测出表中的单元格,将模型识别结果和光学字符识别结果整合,两种方式结合,实现了单元格位置识别的验证和单元格内容识别的互补,最终实现了表格识别并保证了识别精度。
附图说明
[0019]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0020]图1是本专利技术实施例提供的表格识别方法的一个流程示意图;
[0021]图2a是本专利技术实施例提供的有表格线的表格图片的一个示例图;
[0022]图2b是本专利技术实施例提供的无表格线的表格图片的一个示例图;
[0023]图3是本专利技术实施例提供的表结构识别模型的训练方法的一个流程示意图;
[0024]图4是本专利技术实施例提供的表单元格识别模型的训练方法的一个流程示意图;
[0025]图5是本专利技术实施例提供的表格识别方法的另一流程示意图;
[0026]图6是本专利技术实施例提供的表格识别方法的一个示例图;
[0027]图7是本专利技术实施例提供的表格识别装置的一个结构示意图;
[0028]图8是本专利技术实施例提供的电子设备的一个结构示意图。
具体实施方式
[0029]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0030]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆
盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0031]图1为本专利技术实施例提供的表格识别方法的一个流程示意图,该方法可以由本专利技术实施例提供的表格识别装置来执行,该装置可采用软件和/或硬件的方式实现。在一个具体的实施例中,该装置可以集成在电子设备中,电子设备比如可以是计算机、服务器等。以下实施例将以该装置集成在电子设备中为例进行说明。参考图1,该方法具体可以包括如下步骤:
[0032]步骤101,对目标表格图片做特征提取,得到目标表格的图片特征。
[0033]具体地,目标表格图片可以是包含表格的图片,即目标表格图片是表格图片,目标表格图片中包含的表格可以是有表格线的表格,也可以是无表格线或缺少表格线的表格,目标表格图片中包含的表格即为待识别出的目标表格。示例地,图2a所示图片即为包含有表格线表格的表格图片,图2b所示图片即为包含无表格线表格的表格图片。
[0034]在得到目标表格图片之后,可以对目标表格图片进行预处理,以便于后续模型使用;其中,在预处理时,可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表格识别方法,其特征在于,包括:对目标表格图片做特征提取,得到目标表格的图片特征;利用表结构识别模型根据所述目标表格的图片特征识别所述目标表格的表格结构,得到表结构识别序列;利用表单元格识别模型根据所述目标表格的图片特征和所述表结构识别序列识别所述目标表格中的单元格,得到单元格识别序列;对所述目标表格图片进行光学字符识别,得到识别信息;根据所述表结构识别序列、所述单元格识别序列和所述识别信息生成所述目标表格。2.根据权利要求1所述的方法,其特征在于,所述表结构识别模型通过如下方式训练得到:对样本图片做特征提取,得到样本表格的图片特征;获取所述样本表格的表结构标签序列和合并单元格标签序列,所述表结构标签序列是用于标记所述样本表格的真实结构的序列,所述合并单元格标签序列是用于标记所述样本表格中存在的真实合并单元格的序列;基于所述样本表格的图片特征、所述表结构标签序列和所述合并单元格标签序列进行模型训练,得到所述表结构识别模型。3.根据权利要求2所述的方法,其特征在于,所述获取所述样本表格的表结构标签序列,包括:为所述样本表格创建超文本标记语言HTML结构标签序列;根据标签词表将所述HTML结构标签序列转换成所述表结构标签序列,所述标签词表中包括所述HTML结构标签序列中的各个字符符号分别对应的预设数字标识。4.根据权利要求3所述的方法,其特征在于,所述HTML结构标签序列中的各个字符符号包括合并单元格的字符符号和非合并单元格的字符符号,所述获取所述样本表格的合并单元格标签序列,包括:将所述表结构标签序列中所述合并单元格的字符符号对应的预设数字标识修改为第一数字标识,并将所述表结构标签序列中所述非合并单元格的字符符号对应的预设数字标识修改为第二数字标识,得到所述合并单元格标签序列,所述第一数字标识和所述第二数字标识不相同。5.根据权利要求2至4任一项所述的方法,其特征在于,所述表结构识别模型包括表结构编码模块和表结构解码模块,所述基于所述样本表格的图片特征、所述表结构标签序列和所述合并单元格标签序列进行模型训练,得到所述表结构识别模型,包括:将所述样本表格的图片特征输入所述表结构编码模块进行编码和向量化,得到第一预测隐向量;将所述第一预测隐向量和所述表结构标签序列输入所述表结构解码模块进行解码和预测,得到表结构预测序列和合并单元格预测序列;根据所述表结构预测序列和所述表结构标签序列确定表结构训练损失,并根据所述合并单元格预测序列和所述合并单元格标签序列确定合并单元格训练损失;基于所述表结构训练损失和所述合并单元格训练损失调整所述表结构编码模块和所述表结构解码模块的参数,从而得到所述表结构识别模型。
6.根据权利要求5所述的方法,其特征在于,所述利用表结构识别模型根据所述目标表格的图片特征识别所述目标表格的表格结构,得到表结构识别序列,包括:将所述目标表格的图片特征输入所述表结构编码模块进行编码和向量化,得到第一识别隐向量;将所述第一识别隐向量输入所述表结构解码模块进行解码和识别,得到所述表结构识别序列。7.根据权利要求2所述的方法,其特征在于,所述表单元格识别模型通过如下方式训练得到:获取所述样本表格的单元格具体位置标签序列和单元格全局位置标签序列,所述单元格具体位置标签序列是用于标记单元格在所述样本表格中的真实具体位置的序列,所述单元格全局位置标签序列是用于在所述表结构标签序列中突出标记单元格所在真实位置的序列;根据所述样本表格的图片特征、所述表结构标签序列、所述单元格具体位置标签序列和所述单元格全局位置标签序列进行模型训练,得到所述表单元格识别模型。8.根据权利要求7所述的方法,其特征在于,所述获取所述样本表格的单元格具体位置标签序列,包括:根据所...

【专利技术属性】
技术研发人员:刘君唐铭蔚付靖玲裴积全
申请(专利权)人:京东科技控股股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1