表格生成方法、装置、电子设备及存储介质制造方法及图纸

技术编号:34531226 阅读:20 留言:0更新日期:2022-08-13 21:24
本公开提供了一种表格生成方法,可以应用于计算机技术领域。该表格生成方法包括:根据待识别图像,确定目标表格图像;对目标表格图像进行文字识别,得到至少一个文本和与每个文本对应的至少一个文本坐标;根据至少一个文本和至少一个文本坐标,确定至少一个候选单元格的候选坐标;以及根据候选坐标、至少一个文本和至少一个文本坐标,生成与目标表格图像对应的目标表格。本公开还提供了一种表格生成装置、设备、存储介质和程序产品。存储介质和程序产品。存储介质和程序产品。

【技术实现步骤摘要】
表格生成方法、装置、电子设备及存储介质


[0001]本公开涉及计算机
,具体涉及表格图像识别领域,更具体地涉及一种表格生成方法、装置、电子设备、存储介质和程序产品。

技术介绍

[0002]目前,针对包含表格的待识别图像进行识别时,需要人工对该待识别图像中表格的位置进行标注,确定待识别表格图像。针对待识别表格图像,目前的表格图像识别方法首先确定该待识别表格图像中的文本和存在的每一条表格线。根据该每一条表格线,确定表格框架,并确定与表格框架中的每个单元格与对应的文本,以生成与待识别表格图像对应的表格。在待识别表格图像不存在的表格线,或存在的表格线不能组成封闭的单元格的情况下,目前的表格图像识别方法无法确定表格框架,导致无法生成与待识别表格图像对应的表格。

技术实现思路

[0003]鉴于上述问题,本公开提供了提高表格识别效率的表格生成方法、装置、电子设备、存储介质和程序产品。
[0004]根据本公开的一个方面,提供了一种表格生成方法,包括:根据待识别图像,确定目标表格图像;对目标表格图像进行文字识别,得到至少一个文本和与每个文本对应的至少一个文本坐标;根据至少一个文本和至少一个文本坐标,确定至少一个候选单元格的候选坐标;以及根据候选坐标、至少一个文本和至少一个文本坐标,生成与目标表格图像对应的目标表格。
[0005]根据本公开的实施例,根据待识别图像,确定目标表格图像包括:利用识别模型对待识别图像进行处理,得到至少一个位置坐标;根据至少一个位置坐标,在待识别图像中获取第一表格图像;对第一表格图像进行处理,确定偏转角度;以及根据偏转角度,偏转第一表格图像,得到目标表格图像。
[0006]根据本公开的实施例,文本坐标包括第一文本坐标和第二文本坐标,根据至少一个文本和至少一个文本坐标,确定至少一个候选单元格的候选坐标包括:根据至少一个第一文本坐标和行阈值,确定多个行边界坐标;根据第一文本坐标、第二文本坐标、列阈值、多个行边界坐标和至少一个文本,确定多个列边界坐标;以及根据多个行边界坐标和多个列边界坐标,确定至少一个候选单元格的候选坐标。
[0007]根据本公开的实施例,根据至少一个第一文本坐标和行阈值,确定多个行边界坐标包括:根据至少一个第一文本坐标的纵坐标数值、第二文本坐标的纵坐标数值和行阈值,确定至少一个第一行边界坐标和至少一个第二行边界坐标;以及根据至少一个第一行边界坐标和至少一个第二行边界坐标,确定多个行边界坐标。
[0008]根据本公开的实施例,根据第一文本坐标、第二文本坐标、列阈值、多个行边界坐标和至少一个文本,确定多个列边界坐标包括:根据多个行边界坐标和至少一个文本,确定
目标表格框架的列数;以及根据目标表格框架的列数、第一文本坐标的横坐标数值、第二文本坐标的横坐标数值的和列阈值,确定多个列边界坐标。
[0009]根据本公开的实施例,根据候选坐标、至少一个文本和至少一个文本坐标,生成与目标表格图像对应的目标表格包括:根据候选坐标和至少一个文本坐标,确定每个目标单元格的目标坐标,和在至少一个文本中确定与目标坐标对应的目标文本;以及根据目标坐标和目标文本,生成与目标表格图像对应的目标表格。
[0010]根据本公开的实施例,根据候选坐标和至少一个文本坐标,确定每个目标单元格的目标坐标,和在至少一个文本中确定与目标坐标对应的目标文本包括:根据至少一个候选坐标和至少一个文本坐标,确定至少一个候选单元格的第一面积数值和至少一个文本的第二面积数值;针对每个文本,根据第二面积数值和至少一个第一面积数值,确定文本分别与每个候选单元格的匹配度,得到至少一个匹配度;在确定在至少一个匹配度中存在一个匹配度大于预设第一阈值的情况下,确定候选单元格的候选坐标为目标单元格的目标坐标,和将文本作为与目标坐标对应的目标文本;以及在确定在至少一个匹配度中不存在匹配度大于预设第一阈值,且存在两个匹配度小于预设第二阈值的情况下,根据与两个匹配度对应的两个候选单元格的候选坐标,确定目标单元格的目标坐标,和将文本作为与目标坐标对应的目标文本。
[0011]本公开的另一方面提供了一种表格生成装置,包括:第一确定模块,用于根据待识别图像,确定目标表格图像;得到模块,用于对目标表格图像进行文字识别,得到至少一个文本和与每个文本对应的至少一个文本坐标;第二确定模块,用于根据至少一个文本和至少一个文本坐标,确定至少一个候选单元格的候选坐标;以及生成模块,用于根据候选坐标、至少一个文本和至少一个文本坐标,生成与目标表格图像对应的目标表格。
[0012]本公开的另一方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行上述表格生成方法。
[0013]本公开的另一方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述表格生成方法。
[0014]本公开的另一方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述表格生成方法。
[0015]根据本公开的表格生成方法,利用训练后的识别模型对待识别图像进行处理,自动得到待识别表格图像,提升了获取待识别表格图像的效率和准确率。此外,本公开的表格生成方法识别待识别表格图像中的文本,并确定该文本的坐标,根据该文本和该坐标,生成与待识别表格图像对应的目标表格,实现了针对待识别表格图像不存在的表格线,或存在的表格线不能组成封闭的单元格的情况下,生成与待识别表格图像对应的目标表格。
附图说明
[0016]通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
[0017]图1示意性示出了根据本公开实施例的表格生成方法、装置、电子设备、存储介质和程序产品的应用场景图;
[0018]图2示意性示出了根据本公开实施例的表格生成方法的流程图;
[0019]图3A~图3B示意性示出了根据本公开另一实施例的行边界坐标确定方法的原理图;
[0020]图3C~图3D示意性示出了根据本公开另一实施例的列边界坐标确定方法的原理图;
[0021]图3E~图3F示意性示出了根据本公开另一实施例的表格生成方法的原理图;
[0022]图4示意性示出了根据本公开实施例的表格生成装置的结构框图;以及
[0023]图5示意性示出了根据本公开实施例的适于实现表格生成方法的电子设备的方框图。
具体实施方式
[0024]以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
[0025]在此使用的术语仅仅是为了描本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表格生成方法,包括:根据待识别图像,确定目标表格图像;对所述目标表格图像进行文字识别,得到至少一个文本和与每个文本对应的至少一个文本坐标;根据所述至少一个文本和所述至少一个文本坐标,确定至少一个候选单元格的候选坐标;以及根据所述候选坐标、所述至少一个文本和所述至少一个文本坐标,生成与所述目标表格图像对应的目标表格。2.根据权利要求1所述的方法,其中,所述根据待识别图像,确定目标表格图像包括:利用识别模型对待识别图像进行处理,得到至少一个位置坐标;根据所述至少一个位置坐标,在所述待识别图像中获取第一表格图像;对所述第一表格图像进行处理,确定偏转角度;以及根据所述偏转角度,偏转所述第一表格图像,得到目标表格图像。3.根据权利要求1所述的方法,其中,所述文本坐标包括第一文本坐标和第二文本坐标,所述根据所述至少一个文本和所述至少一个文本坐标,确定至少一个候选单元格的候选坐标包括:根据至少一个第一文本坐标和行阈值,确定多个行边界坐标;根据所述第一文本坐标、所述第二文本坐标、列阈值、所述多个行边界坐标和所述至少一个文本,确定多个列边界坐标;以及根据所述多个行边界坐标和所述多个列边界坐标,确定至少一个候选单元格的候选坐标。4.根据权利要求3所述的方法,其中,所述根据至少一个第一文本坐标和行阈值,确定多个行边界坐标包括:根据所述至少一个第一文本坐标的纵坐标数值、第二文本坐标的纵坐标数值和行阈值,确定至少一个第一行边界坐标和至少一个第二行边界坐标;以及根据所述至少一个第一行边界坐标、所述至少一个第二行边界坐标,确定多个行边界坐标。5.根据权利要求3所述的方法,其中,所述根据所述第一文本坐标、第二文本坐标、列阈值、所述多个行边界坐标和所述至少一个文本,确定多个列边界坐标包括:根据所述多个行边界坐标和所述至少一个文本,确定目标表格框架的列数;以及根据所述目标表格框架的列数、所述第一文本坐标的横坐标数值、所述第二文本坐标的横坐标数值的和列阈值,确定多个列边界坐标。6.根据权利要求1所述的方法,其中,所述根据所述候选坐标、所述至少一个文本和所述至少一个文本坐标,生成与所述目标表格图像对应的目标表格包括:根据所述候选坐标和所...

【专利技术属性】
技术研发人员:吴松霖李睿之熊博颖郑邦东吴昀蓁李虎
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1