【技术实现步骤摘要】
表格生成方法、装置、电子设备以及存储介质
[0001]本公开涉及计算机
,尤其涉及光学字符识别
,具体涉及一种表格生成方法、装置、电子设备以及存储介质。
技术介绍
[0002]光学字符识别技术是指对文本资料进行扫描后对图像文件进行分析处理,获取文字及版面信息的过程。
[0003]随着光学字符识别技术的发展,可以利用训练好的表格结构化模型,对表格图像中的文本数据进行识别和提取。在训练表格结构化模型的过程中,需要大量的样本表格图像和样本表格图像的标注数据。
技术实现思路
[0004]本公开提供了一种用于表格生成方法、装置、电子设备以及存储介质。
[0005]根据本公开的一方面,提供了一种表格生成方法,包括:
[0006]获取文本内容信息和目标页面的布局信息,目标页面的布局信息包括页面参数信息、单元格布局信息和文字布局信息。根据页面参数信息、单元格布局信息和文字布局信息,得到单元格坐标信息。根据文字布局信息和单元格坐标信息,得到文字坐标信息。根据单元格坐标信息、文字坐标信息和文本内容信息,生成目标表格和与目标表格对应的标注数据。
[0007]根据本公开的另一方面,提供了一种表格生成装置,包括:第一获取模块、第一获得模块、第二获得模块和生成模块。其中,第一获取模块,用于获取文本内容信息和目标页面的布局信息,目标页面的布局信息包括页面参数信息、单元格布局信息和文字布局信息。第一获得模块,用于根据页面参数信息、单元格布局信息和文字布局信息,得到单元格坐标信息。第二获得模 ...
【技术保护点】
【技术特征摘要】
1.一种表格生成方法,包括:获取文本内容信息和目标页面的布局信息,所述目标页面的布局信息包括页面参数信息、单元格布局信息和文字布局信息;根据所述页面参数信息、所述单元格布局信息和所述文字布局信息,得到单元格坐标信息;根据所述文字布局信息和所述单元格坐标信息,得到文字坐标信息;以及根据所述单元格坐标信息、所述文字坐标信息和所述文本内容信息,生成目标表格和与所述目标表格对应的标注数据。2.根据权利要求1所述的方法,其中,所述单元格布局信息包括单元格的尺寸比例信息和单元格之间的相对位置关系信息;所述页面参数信息和所述单元格布局信息,得到单元格坐标信息,包括:根据所述页面参数信息和所述单元格的尺寸比例信息,得到最小单元格尺寸信息;根据所述最小单元格尺寸信息和所述相对位置关系信息,得到单元格尺寸信息;以及根据所述单元格尺寸信息、所述页面参数信息和所述文字布局信息,得到所述单元格坐标信息。3.根据权利要求2所述的方法,其中,所述文字布局信息包括文字在单元格内的换行标识信息,所述根据所述单元格尺寸信息、所述页面参数信息和所述文字布局信息,得到所述单元格坐标信息,包括:识别所述换行标识信息,得到文字在所述单元格内的排布行数信息;根据所述单元格尺寸信息和所述页面参数信息,得到单元格在所述目标页面上的排布位置信息;以及根据所述排布位置信息和所述排布行数信息,得到所述单元格坐标信息。4.根据权利要求3所述的方法,其中,所述根据所述排布位置信息和所述排布行数信息,得到所述单元格坐标信息,包括:根据所述排布位置信息,得到位于同一行的多个目标单元格;根据所述排布行数信息,得到所述多个目标单元格的高度信息;以及根据所述排布位置信息和所述高度信息,得到所述单元格坐标信息。5.根据权利要求4所述的方法,其中,所述根据所述排布行数信息,得到所述多个目标单元格的高度信息,包括:将所述多个目标单元格的排布行数信息进行排序,得到排序结果;以及根据所述排序结果,得到所述高度信息。6.根据权利要求1所述的方法,其中,所述文字布局信息包括文字在单元格内的排布方式信息、文字尺寸信息和文字在单元格内的换行标识信息,所述根据所述文字布局信息和所述单元格坐标信息,得到文字坐标信息,包括:根据所述排布方式信息,确定目标策略;根据所述换行标识信息,得到文字在所述单元格内的排布行数信息;以及基于所述目标策略,根据所述单元格坐标信息、所述文字尺寸信息、所述排布方式信息和所述排布行数信息,得到所述文字坐标信息。7.根据权利要求6所述的方法,其中,所述文字尺寸信息包括文字高度信息和文字宽度
信息,所述基于所述目标策略,根据所述单元格坐标信息、所述文字尺寸信息、所述排布方式信息和所述排布行数信息,得到所述文字坐标信息,包括:根据所述单元格坐标信息、所述文字宽度信息和所述排布方式信息,得到文字横坐标信息;基于所述目标策略,根据所述单元格坐标信息、所述文字高度信息和所述排布行数信息,得到文字纵坐标信息;以及根据所述文字横坐标信息和所述文字纵坐标信息,得到所述文字坐标信息。8.根据权利要求7所述的方法,其中,所述根据所述单元格坐标信息、所述文字宽度信息和所述排布方式信息,得到文字横坐标信息,包括:根据所述排布方式信息,确定文字在水平方向上的偏移参数信息;以及根据所述偏移参数信息、所述文字宽度信息和所述单元格坐标信息,得到所述文字横坐标信息。9.根据权利要求8所述的方法,其中,所述单元格坐标信息包括左顶点坐标信息和右顶点坐标信息,所述根据所述偏移参数信息、所述文字宽度信息和所述单元格坐标信息,得到所述文字横坐标信息,包括:根据所述左顶点坐标信息和所述右顶点坐标信息,得到单元格宽度信息;在确定所述排布方式信息为居中对齐的情况下,根据所述左顶点坐标信息、所述单元格宽度信息和所述文字宽度信息,得到所述文字横坐标信息;在确定所述排布方式信息为左侧对齐的情况下,根据所述左顶点坐标信息和所述偏移参数信息,得到所述文字横坐标信息;以及在确定所述排布方式信息为右侧对齐的情况下,根据所述右顶点坐标信息、所述文字宽度信息和所述偏移参...
【专利技术属性】
技术研发人员:韩光耀,许海洋,岳洪达,王艺,苏磊,陈禹燊,段博坤,章良杰,李治平,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。