一种表格生成方法、装置、电子设备和存储介质制造方法及图纸

技术编号:36575279 阅读:16 留言:0更新日期:2023-02-04 17:33
本申请提供了一种表格生成方法、装置、电子设备和存储介质,所述方法包括:获取表格图像,并检测所述表格图像中的每个单元格和每个字符串;根据所述每个单元格,采用初始超文本标记语言描述所述表格图像的表格结构,并识别所述字符串;根据所述单元格和所述字符串的位置匹配,将识别到的字符串插入到匹配的单元格对应的初始超文本标记语言中,得到更新后的目标超文本标记语言;根据所述目标超文本标记语言生成目标表格。本申请提高生成表格的效率。本申请提高生成表格的效率。本申请提高生成表格的效率。

【技术实现步骤摘要】
一种表格生成方法、装置、电子设备和存储介质


[0001]本申请涉及识别
,尤其涉及一种表格生成方法、装置、电子设备和存储介质。

技术介绍

[0002]在处理日常的办公文件中,表格是无处不在的。表格往往含有非常重要的信息,表格大小、种类与样式复杂多样,例如表格中存在不同的背景填充,不同的行列合并方法,不同的内容文本类型等,并且现有文档既包括现代的、电子的文档,也有历史的、扫描的手写文档,文档样式、所处光照环境以及纹理等都有比较大的差异,表格识别一直是文档识别领域的研究难点。
[0003]随着人工智能的快速发展,如何用深度学习研发OCR(Optical Character Recognition,光学字符识别)算法也是学术界和工业界热门的话题,OCR主要包含文本检测、文本识别,表格识别等任务。
[0004]文本检测当前主流的算法有:EAST、DBNet、PSENet等,采用语义分割的技术可以检测自然场景中各种规则与不规则的文本。文本识别当前主流的算法有:CRNN、SRN、SEED以及基于Transformer的识别算法。表格识别当前主流的算法有:基于图神经网络GNN算法[9]、基于Transformer预测表格结构的算法。
[0005]基于GNN和基于Transformer的识别算法对部署到AI芯片很不友好,因为当前很多AI芯片不支持GNN和Transformer部署,导致速度慢,表格生成效率低。

技术实现思路

[0006]本申请实施例的目的在于提供一种表格生成方法、装置、电子设备和存储介质,以解决表格生成效率低的问题。具体技术方案如下:第一方面,提供了一种表格生成方法,所述方法包括:获取表格图像,并检测所述表格图像中的每个单元格和每个字符串;根据所述每个单元格,采用初始超文本标记语言描述所述表格图像的表格结构,并识别所述字符串;根据所述单元格和所述字符串的位置匹配,将识别到的字符串插入到匹配的单元格对应的初始超文本标记语言中,得到更新后的目标超文本标记语言;根据所述目标超文本标记语言生成目标表格。
[0007]可选地,根据所述每个单元格,采用初始超文本标记语言描述所述表格图像的表格结构包括:通过遍历每个单元格,确定每个所述单元格所占的行数和列数;根据所述行数和列数,采用所述初始超文本标记语言描述所述表格图像的表格结构。
[0008]可选地,所述通过遍历每个单元格,确定每个所述单元格所占的行数和列数包括:
获取每个单元格的结构体,其中,所述结构体中包含所述单元格在每个方向的临接单元格集合,所述方向包括上方、下方、左方和右方;根据所述临接单元格集合往预设方向侧扩展的全部单元格构成待选单元格集合,其中,所述预设方向为所述临接单元格集合相对于所述单元格的方向;通过递归遍历所述单元格在每个方向的待选单元格集合,将左方、右方的待选单元格集合中包含的竖直方向上的最大单元格数量,作为所述单元格在表格中所占的行数,并将上方、下方的待选单元格集合中包含的水平方向上的最大单元格数量,作为所述单元格在表格中所占的列数。
[0009]可选地,获取每个单元格的结构体包括:按照从上到下、从左到右的顺序遍历每个单元格,得到每个单元格的单元格结构体,其中,所述单元格结构体包括所述单元格的标识、临接左方单元格集合、临接右方单元格集合、临接上方单元格集合、临接下方单元格集合和单元格坐标。
[0010]可选地,根据所述单元格和所述字符串的位置匹配,将识别到的字符串插入到匹配的单元格对应的初始超文本标记语言中之前,所述方法还包括:对检测到的字符串进行字符识别,得到字符串识别结果;遍历所有字符串,得到每个字符串的字符串结构体,其中,所述字符串结构体包括字符串标识、字符串坐标和字符串识别结果;根据多个字符串结构体构成字符串结构集合。
[0011]可选地,根据所述单元格和所述字符串的位置匹配,将识别到的字符串插入到匹配的单元格对应的初始超文本标记语言中包括:针对每个单元格,在所述字符串结构集合中查找与所述单元格的位置匹配的目标字符串坐标;确定所述目标字符串坐标所处的目标字符串结构体;将所述目标字符串结构体中的目标字符串识别结果,插入到匹配的单元格对应的初始超文本标记语言中。
[0012]可选地,所述针对每个单元格,在所述字符串结构集合中查找与所述单元格的位置匹配的目标字符串坐标包括:根据所述单元格坐标确定单元格检测框;根据所述字符串坐标确定字符串检测框;在所述字符串结构集合中查找和所述单元格检测框最接近、且与所述单元格检测框交并比最大的目标字符串检测框;确定所述目标字符串检测框对应的目标字符串坐标。
[0013]可选地,检测所述表格图像中的每个单元格包括:获取样本表格图像和标注结果,其中,所述样本表格图像中的单元线格框线缺失,所述标注结果为所述样本表格图像中的单元格框线;通过所述样本表格图像和所述标注结果对初始检测模型进行训练,得到检测结果;在所述检测结果和所述标注结果不同的情况下,调整所述初始检测模型的模型参数,直检测结果和所述标注结果相同,得到第一检测模型;
通过所述第一检测模型检测所述表格图像中的每个单元格。
[0014]可选地,获取表格图像包括:获取初始图像;通过第二检测模型检测所述初始图像中的表格坐标;根据所述表格坐标从所述初始图像中截取出所述表格图像。
[0015]第二方面,提供了一种表格生成装置,所述装置包括:获取模块,用于获取表格图像;检测模块,用于检测所述表格图像中的每个单元格和每个字符串;描述模块,用于根据所述每个单元格,采用初始超文本标记语言描述所述表格图像的表格结构,并识别所述字符串;插入模块,用于根据所述单元格和所述字符串的位置匹配,将识别到的字符串插入到匹配的单元格对应的初始超文本标记语言中,得到更新后的目标超文本标记语言;生成模块,用于根据所述目标超文本标记语言生成目标表格。
[0016]第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现任一所述的表格生成方法步骤。
[0017]第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现任一所述的表格生成方法步骤。
[0018]本申请实施例有益效果:本申请实施例提供了一种表格生成方法,服务器检测表格图像中的单元格和字符串,先采用初始超文本标记语言描述表格图像的表格结构,然后根据单元格和字符串的位置匹配,字符串插入初始超文本标记语言得到目标超文本标记语言,最后根据目标超文本标记语言生成目标表格。本申请基于单元格检测构建表格,相比于基于GNN和Transformer算法对AI芯片更友好,检测算法更加容易部署,并且模型简单,在AI芯片上推理速度更快,提高生成表格的效率。
[0019]当然,实施本申请的任一产品或方法并不一定需要同时达到以上的所有优点。
...

【技术保护点】

【技术特征摘要】
1.一种表格生成方法,其特征在于,所述方法包括:获取表格图像,并检测所述表格图像中的每个单元格和每个字符串;根据所述每个单元格,采用初始超文本标记语言描述所述表格图像的表格结构,并识别所述字符串;根据所述单元格和所述字符串的位置匹配,将识别到的字符串插入到匹配的单元格对应的初始超文本标记语言中,得到更新后的目标超文本标记语言;根据所述目标超文本标记语言生成目标表格。2.根据权利要求1所述的方法,其特征在于,根据所述每个单元格,采用初始超文本标记语言描述所述表格图像的表格结构包括:通过遍历每个单元格,确定每个所述单元格所占的行数和列数;根据所述行数和列数,采用所述初始超文本标记语言描述所述表格图像的表格结构。3.根据权利要求2所述的方法,其特征在于,所述通过遍历每个单元格,确定每个所述单元格所占的行数和列数包括:获取每个单元格的结构体,其中,所述结构体中包含所述单元格在每个方向的临接单元格集合,所述方向包括上方、下方、左方和右方;根据所述临接单元格集合往预设方向侧扩展的全部单元格构成待选单元格集合,其中,所述预设方向为所述临接单元格集合相对于所述单元格的方向;通过递归遍历所述单元格在每个方向的待选单元格集合,将左方、右方的待选单元格集合中包含的竖直方向上的最大单元格数量,作为所述单元格在表格中所占的行数,并将上方、下方的待选单元格集合中包含的水平方向上的最大单元格数量,作为所述单元格在表格中所占的列数。4.根据权利要求3所述的方法,其特征在于,获取每个单元格的结构体之前,所述方法还包括:按照从上到下、从左到右的顺序遍历每个单元格,得到每个单元格的单元格结构体,其中,所述单元格结构体包括所述单元格的标识、临接左方单元格集合、临接右方单元格集合、临接上方单元格集合、临接下方单元格集合和单元格坐标。5.根据权利要求1所述的方法,其特征在于,根据所述单元格和所述字符串的位置匹配,将识别到的字符串插入到匹配的单元格对应的初始超文本标记语言中之前,所述方法还包括:对检测到的字符串进行字符识别,得到字符串识别结果;遍历所有字符串,得到每个字符串的字符串结构体,其中,所述字符串结构体包括字符串标识、字符串坐标和字符串识别结果;根据多个字符串结构体构成字符串结构集合。6.根据权利要求5所述的方法,其特征在于,根据所述单元格和所述字符串的位置匹配,将识别到的字符串插入到匹配的单元格对应的初始超文本标记语言中包括:针对每个单元格,在所述...

【专利技术属性】
技术研发人员:魏彪熊超牛昕宇
申请(专利权)人:深圳鲲云信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1