表格结构化方法技术

技术编号:39586658 阅读:6 留言:0更新日期:2023-12-03 19:38
本申请涉及一种表格结构化方法

【技术实现步骤摘要】
表格结构化方法、装置、设备、存储介质和程序产品


[0001]本申请涉及人工智能
,特别是涉及一种表格结构化方法

装置

设备

存储介质和程序产品


技术介绍

[0002]表格作为一种有效的数据组织与展现方法被广泛应用

其中,对于结构化表格,计算机可以直接识别表格结构,从而对表格中的数据进行统计和分析

但是,对于图像或
PDF
等形式的待处理表格的表格结构信息只存在于视觉感知上,而不能够被计算机有效识别

[0003]以银行机构的业务为例,若银行的业务处理系统收到图像格式或
PDF
格式的表格,则需要对该类表格进行结构化,从而通过结构化表格对该类表格进行统计分析

[0004]然而,相关技术中对表格进行结构化的方式存在效率低的问题


技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种表格结构化方法

装置

设备

存储介质和程序产品,能够提高对表格进行结构化的效率

[0006]第一方面,本申请提供了一种表格结构化方法,该方法包括:
[0007]响应于表格结构化处理请求,根据表格结构化处理请求中携带的表格标识,获取待处理表格;
[0008]将待处理表格输入至预设的表格信息提取模型中,得到表格信息提取模型输出的待处理表格的多个表格信息;
[0009]对待处理表格的多个表格信息进行结构化整合处理,确定待处理表格的结构化表格

[0010]在其中一个实施例中,表格信息提取模型包括识别模型和分类模型;将待处理表格输入至预设的表格信息提取模型中,得到表格信息提取模型输出的待处理表格的多个表格信息,包括:
[0011]将待处理表格输入至识别模型中,得到待处理表格的表格结构框架以及各单元格的文本内容和文本位置;
[0012]将表格结构框架以及各单元格的文本位置输入至分类模型中,得到待处理表格的行列表头分类结果

表头位置和表体位置;
[0013]将表格结构框架

各单元格的文本内容和文本位置

行列表头分类结果

表头位置以及表体位置,确定为待处理表格的多个表格信息

[0014]在其中一个实施例中,识别模型包括结构识别模型和文本识别模型,将待处理表格输入至识别模型中,得到待处理表格的表格结构框架以及各单元格的文本内容和文本位置,包括:
[0015]将待处理表格输入至结构识别模型中,通过结构识别模型对待处理表格进行分析,得到待处理表格的表格结构框架;
[0016]将待处理表格和表格结构框架输入至文本识别模型中,通过文本识别模型对待处理表格和表格结构框架进行分析,得到待处理表格的各单元格的文本内容和文本位置

[0017]在其中一个实施例中,结构识别模型的构建过程包括:
[0018]获取多种不同结构的样本表格;
[0019]对各样本表格进行结构分析,确定各样本表格的样本结构框架;
[0020]根据各样本表格和对应的样本结构框架对初始结构识别模型进行训练,得到结构识别模型

[0021]在其中一个实施例中,分类模型包括行列表头分类模型;将表格结构框架以及各单元格的文本位置输入至分类模型中,得到待处理表格的表头位置和表体位置,包括:
[0022]将表格结构框架以及各单元格的文本位置输入至行列表头分类模型,得到待处理表格的行列表头分类结果;行列表头分类结果用于指示待处理表格的表头格式;
[0023]根据行列表头分类结果

表格结构框架和各单元格的文本位置,确定待处理表格的表头位置和表体位置

[0024]在其中一个实施例中,分类模型还包括表头表体分类模型;根据行列表头分类结果

表格结构框架和各单元格的文本位置,确定待处理表格的表头位置和表体位置,包括:
[0025]若待处理表格为行表头表格,则将表格结构框架和各单元格的文本位置输入至表头表体分类模型中,得到待处理表格的表头位置和表体位置;
[0026]若待处理表格为列表头表格,则分别将表格结构框架和各单元格的文本位置进行转置,并将转置后的表格结构框架和各单元格的文本位置输入至表头表体分类模型中,得到待处理表格的表头位置和表体位置

[0027]在其中一个实施例中,对待处理表格的多个表格信息进行结构化整合处理,确定待处理表格的结构化表格,包括:
[0028]根据各单元格的文本位置,将各单元格的文本内容整合至表格结构框架,得到数据表格;
[0029]根据行列表头分类结果

表头位置和表体位置对数据表格进行结构化,得到结构化表格

[0030]在其中一个实施例中,根据行列表头分类结果

表头位置和表体位置对数据表格进行结构化,得到结构化表格,包括:
[0031]若待处理表格为行表头表格,则根据表头位置和表体位置对数据表格进行结构化,得到结构化表格;
[0032]若待处理表格为列表头表格,则将表头位置和表体位置进行逆转置,并根据逆转置后的表头位置和表体位置对数据表格进行结构化,确定结构化表格

[0033]第二方面,本申请还提供了一种表格结构化装置,该装置包括:
[0034]获取模块,用于响应于表格结构化处理请求,根据表格结构化处理请求中携带的表格标识,获取待处理表格;
[0035]提取模块,用于将待处理表格输入至预设的表格信息提取模型中,得到表格信息提取模型输出的待处理表格的多个表格信息;
[0036]整合模块,用于对待处理表格的多个表格信息进行结构化整合处理,确定待处理表格的结构化表格

[0037]第三方面,本申请实施例提供一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,该处理器执行计算机程序时实现上述第一方面中任一实施例提供的方法的步骤

[0038]第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面中任一实施例提供的方法的步骤

[0039]第五方面,本申请实施例还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述第一方面中任一实施例提供的方法的步骤

[0040]上述表格结构化方法

装置

设备

存储介质和程序产品,响应于表格结构化处理请求,根据表格结构化处理请求中携带的表格标识,获取待处理表格,并将待处理表格输入至预设的表格信息提取模型中,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种表格结构化方法,其特征在于,所述方法包括:响应于表格结构化处理请求,根据所述表格结构化处理请求中携带的表格标识,获取待处理表格;将所述待处理表格输入至预设的表格信息提取模型中,得到所述表格信息提取模型输出的所述待处理表格的多个表格信息;对所述待处理表格的多个表格信息进行结构化整合处理,确定所述待处理表格的结构化表格
。2.
根据权利要求1所述的方法,其特征在于,所述表格信息提取模型包括识别模型和分类模型;所述将所述待处理表格输入至预设的表格信息提取模型中,得到所述表格信息提取模型输出的所述待处理表格的多个表格信息,包括:将所述待处理表格输入至所述识别模型中,得到所述待处理表格的表格结构框架以及各单元格的文本内容和文本位置;将所述表格结构框架以及各所述单元格的文本位置输入至所述分类模型中,得到所述待处理表格的行列表头分类结果

表头位置和表体位置;将所述表格结构框架

各所述单元格的文本内容和文本位置

所述行列表头分类结果

所述表头位置以及所述表体位置,确定为所述待处理表格的多个表格信息
。3.
根据权利要求2所述的方法,其特征在于,所述识别模型包括结构识别模型和文本识别模型,所述将所述待处理表格输入至所述识别模型中,得到所述待处理表格的表格结构框架以及各单元格的文本内容和文本位置,包括:将所述待处理表格输入至所述结构识别模型中,通过所述结构识别模型对所述待处理表格进行分析,得到所述待处理表格的表格结构框架;将所述待处理表格和所述表格结构框架输入至所述文本识别模型中,通过所述文本识别模型对所述待处理表格和所述表格结构框架进行分析,得到所述待处理表格的各单元格的文本内容和文本位置
。4.
根据权利要求3所述的方法,其特征在于,所述结构识别模型的构建过程包括:获取多种不同结构的样本表格;对各所述样本表格进行结构分析,确定各所述样本表格的样本结构框架;根据各所述样本表格和对应的样本结构框架对初始结构识别模型进行训练,得到所述结构识别模型
。5.
根据权利要求2‑4任一项所述的方法,其特征在于,所述分类模型包括行列表头分类模型;所述将所述表格结构框架以及各所述单元格的文本位置输入至所述分类模型中,得到所述待处理表格的表头位置和表体位置,包括:将所述表格结构框架以及各所述单元格的文本位置输入至所述行列表头分类模型,得到所述待处理表格的行列表头分类结果;所述行列表头分类结果用于指示所述待处理表格的表头格式;根据所述行列表头分类结果

所述表格结构框架和各所述单元格的文本位置,确定所述待处理表格的表头位置和表体位置

【专利技术属性】
技术研发人员:陈亨达
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1