【技术实现步骤摘要】
表格识别方法、装置、电子设备和存储介质
[0001]本专利技术实施例涉及图像识别技术,尤其涉及一种表格识别方法、装置、电子设备和存储介质。
技术介绍
[0002]传统的表格识别技术,可分为自顶向下和自底向上两种类别。自顶向上,常见的,使用openCV(是一个跨平台计算机视觉和机器学习软件库)检测并提取表格;自底向上则有多种,例如用pdfplumber(是一个可以处理pdf格式信息的库,可以对表格进行提取并进行可视化调试)的方法或者camelot(是一个pdf表格数据抽取工具)表格抽取的方法等。在实现本专利技术的过程中,专利技术人发现,传统方法在表格识别的任务中,存在以下缺点:第一,背景干扰等会在表格识别的任务中产生一定影响,降低表格识别的精度;第二,在缺少表格线的情况下,传统的方法则不太适用,识别不出表格。
技术实现思路
[0003]本专利技术实施例提供一种表格识别方法、装置、电子设备和存储介质,能够实现无表格线的表格识别,提升表格识别精度。
[0004]第一方面,本专利技术实施例提供一种表格识别方法,包括:
[0005]对目标表格图片做特征提取,得到目标表格的图片特征;
[0006]利用表结构识别模型根据所述目标表格的图片特征识别所述目标表格的表格结构,得到表结构识别序列;
[0007]利用表单元格识别模型根据所述目标表格的图片特征和所述表结构识别序列识别所述目标表格中的单元格,得到单元格识别序列;
[0008]对所述目标表格图片进行光学字符识别,得到识别信息 ...
【技术保护点】
【技术特征摘要】
1.一种表格识别方法,其特征在于,包括:对目标表格图片做特征提取,得到目标表格的图片特征;利用表结构识别模型根据所述目标表格的图片特征识别所述目标表格的表格结构,得到表结构识别序列;利用表单元格识别模型根据所述目标表格的图片特征和所述表结构识别序列识别所述目标表格中的单元格,得到单元格识别序列;对所述目标表格图片进行光学字符识别,得到识别信息;根据所述表结构识别序列、所述单元格识别序列和所述识别信息生成所述目标表格。2.根据权利要求1所述的方法,其特征在于,所述表结构识别模型通过如下方式训练得到:对样本图片做特征提取,得到样本表格的图片特征;获取所述样本表格的表结构标签序列和合并单元格标签序列,所述表结构标签序列是用于标记所述样本表格的真实结构的序列,所述合并单元格标签序列是用于标记所述样本表格中存在的真实合并单元格的序列;基于所述样本表格的图片特征、所述表结构标签序列和所述合并单元格标签序列进行模型训练,得到所述表结构识别模型。3.根据权利要求2所述的方法,其特征在于,所述获取所述样本表格的表结构标签序列,包括:为所述样本表格创建超文本标记语言HTML结构标签序列;根据标签词表将所述HTML结构标签序列转换成所述表结构标签序列,所述标签词表中包括所述HTML结构标签序列中的各个字符符号分别对应的预设数字标识。4.根据权利要求3所述的方法,其特征在于,所述HTML结构标签序列中的各个字符符号包括合并单元格的字符符号和非合并单元格的字符符号,所述获取所述样本表格的合并单元格标签序列,包括:将所述表结构标签序列中所述合并单元格的字符符号对应的预设数字标识修改为第一数字标识,并将所述表结构标签序列中所述非合并单元格的字符符号对应的预设数字标识修改为第二数字标识,得到所述合并单元格标签序列,所述第一数字标识和所述第二数字标识不相同。5.根据权利要求2至4任一项所述的方法,其特征在于,所述表结构识别模型包括表结构编码模块和表结构解码模块,所述基于所述样本表格的图片特征、所述表结构标签序列和所述合并单元格标签序列进行模型训练,得到所述表结构识别模型,包括:将所述样本表格的图片特征输入所述表结构编码模块进行编码和向量化,得到第一预测隐向量;将所述第一预测隐向量和所述表结构标签序列输入所述表结构解码模块进行解码和预测,得到表结构预测序列和合并单元格预测序列;根据所述表结构预测序列和所述表结构标签序列确定表结构训练损失,并根据所述合并单元格预测序列和所述合并单元格标签序列确定合并单元格训练损失;基于所述表结构训练损失和所述合并单元格训练损失调整所述表结构编码模块和所述表结构解码模块的参数,从而得到所述表结构识别模型。
6.根据权利要求5所述的方法,其特征在于,所述利用表结构识别模型根据所述目标表格的图片特征识别所述目标表格的表格结构,得到表结构识别序列,包括:将所述目标表格的图片特征输入所述表结构编码模块进行编码和向量化,得到第一识别隐向量;将所述第一识别隐向量输入所述表结构解码模块进行解码和识别,得到所述表结构识别序列。7.根据权利要求2所述的方法,其特征在于,所述表单元格识别模型通过如下方式训练得到:获取所述样本表格的单元格具体位置标签序列和单元格全局位置标签序列,所述单元格具体位置标签序列是用于标记单元格在所述样本表格中的真实具体位置的序列,所述单元格全局位置标签序列是用于在所述表结构标签序列中突出标记单元格所在真实位置的序列;根据所述样本表格的图片特征、所述表结构标签序列、所述单元格具体位置标签序列和所述单元格全局位置标签序列进行模型训练,得到所述表单元格识别模型。8.根据权利要求7所述的方法,其特征在于,所述获取所述样本表格的单元格具体位置标签序列,包括:根据所...
【专利技术属性】
技术研发人员:刘君,唐铭蔚,付靖玲,裴积全,
申请(专利权)人:京东科技控股股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。