表格信息提取方法、装置及计算机设备制造方法及图纸

技术编号:38002006 阅读:15 留言:0更新日期:2023-06-30 10:15
本申请涉及一种表格信息提取方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。一个实施例中,通过获取表格中单元格的文本信息,可以根据文本信息确定单元格为键型单元格或值型单元格,再根据表格首行是否存在值型单元格,可以得到表格的类型,根据表格类型提取并输出表格信息。这样,获取单元格文本信息、确认单元格和表格类型都可以通过脚本或模型等方式自动完成,且表格类型为记录型表格和键值对型表格两种,根据这两种方式提取表格信息,可以用于所有结构的表格,无需单独对表格进行人工分析,表格信息提取效率高,适用范围广。围广。围广。

【技术实现步骤摘要】
表格信息提取方法、装置及计算机设备


[0001]本公开涉及数据处理领域,尤其涉及一种表格信息提取方法、装置及计算机设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]随着互联网信息量的暴增,对信息的处理效率变得越来越重要。在信息处理过程中,快速获取有效信息是提高处理效率的重要前提。相关技术中,可以通过各种爬虫工具等快速从互联网中抽取大量的文本信息,以供大数据模型进行分析。
[0003]现有的信息获取方式对纯文本信息有较高的处理效率,但当文本中包含表格时这种方式效果很不理想。表格不仅可以节省文本长度,还可以更直观地表示信息的含义,应用极为广泛。表格中的信息通常较为重要,但表格形式多种多样,如果想完整保留表格信息,则抽取每个表格信息都需要开发人员进行定制化开发,极为耗时,严重影响了信息处理效率。

技术实现思路

[0004]基于此,针对上述技术问题,提供一种表格信息提取方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。本公开的技术方案如下:
[0005]根据本公开实施例的一个方面,提供一种表格信息提取方法,包括:
[0006]获取表格中单元格的文本信息;
[0007]根据所述文本信息确认所述单元格为键型单元格、值型单元格中的一种;
[0008]根据所述表格的首行是否存在值型单元格,确认所述表格的类型为记录型表格、键值对型表格中的一种;
[0009]按照记录型表格或键值对型表格的提取方式,提取并输出所述表格的信息。
[0010]在其中一个实施例中,所述根据所述文本信息确认所述单元格为键型单元格、值型单元格中的一种,包括:
[0011]检测所述文本信息是否满足任一项值型文本标准,若满足,确认包含所述文本信息的单元格为值型单元格;
[0012]所述值型文本标准包括:文本中含有浮点数;文本中含有预设字段;文本长度在预设区间之内。
[0013]在其中一个实施例中,所述根据所述表格的首行是否存在值型单元格,确认所述表格的类型为记录型表格、键值对型表格中的一种,包括:
[0014]若所述表格的首行不存在值型单元格,确认所述表格的类型为记录型表格;
[0015]检查除首行之外的其他行,若其他行中的值型单元格比例低于预设的第一阈值,将所述表格的类型由记录型表格修改为键值对型表格。
[0016]在其中一个实施例中,所述根据所述表格的首行是否存在值型单元格,确认所述表格的类型为记录型表格、键值对型表格中的一种,包括:
[0017]若所述表格的首行存在值型单元格,确认所述表格的类型为键值对型表格;
[0018]检查除首行之外的其他行,若其他行中的值型单元格比例高于预设的第二阈值,将所述表格的类型由键值对型表格修改为记录型表格。
[0019]在其中一个实施例中,在获取表格中单元格的文本信息之前,还包括:
[0020]查找表格中的嵌套表格;
[0021]将所述嵌套表格替换为预设的留位符。
[0022]在其中一个实施例中,在根据所述文本信息确认所述单元格为键型单元格、值型单元格中的一种之后,还包括:
[0023]对所述表格进行拆分,直至拆分后每个表格的首列均不存在重复的键型单元格。
[0024]根据本公开实施例的另一方面,提供一种表格信息提取装置,包括:
[0025]信息获取模块,用于获取表格中单元格的文本信息;
[0026]单元格确认模块,用于根据所述文本信息确认所述单元格为键型单元格、值型单元格中的一种;
[0027]表格类型确认模块,用于根据所述表格的首行是否存在值型单元格,确认所述表格的类型为记录型表格、键值对型表格中的一种;
[0028]信息提取模块,用于按照记录型表格或键值对型表格的提取方式,提取并输出所述表格的信息。
[0029]根据本公开实施例的另一方面,还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
[0030]根据本公开实施例的另一方面,还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
[0031]根据本公开实施例的另一方面,还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
[0032]本公开实施例提供的技术方案中,通过获取表格中单元格的文本信息,可以根据文本信息确定单元格为键型单元格或值型单元格,再根据表格首行是否存在值型单元格,可以得到表格的类型,根据表格类型提取并输出表格信息。这样,获取单元格文本信息、确认单元格和表格类型都可以通过脚本或模型等方式自动完成,且表格类型为记录型表格和键值对型表格两种,根据这两种方式提取表格信息,可以用于所有结构的表格,无需单独对表格进行人工分析,表格信息提取效率高,适用范围广。
[0033]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
[0034]为了更清楚地说明本说明书实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0035]图1是一个实施例中一种表格信息提取方法的流程示意图;
[0036]图2是一个实施例中根据表格首行单元格确认表格类型的流程示意图;
[0037]图3是另一个实施例中根据表格首行单元格确认表格类型的流程示意图;
[0038]图4是一个实施例中一个待提取表格的示意图;
[0039]图5是另一个实施例中一种表格信息提取方法的流程示意图;
[0040]图6是另一个实施例中一种表格信息提取方法的流程示意图;
[0041]图7是一个实施例中对一个待提取表格进行拆分的结果示意图;
[0042]图8是一个实施例中一种物联网平台的物模型转换装置的结构示意图;
[0043]图9是一个实施例中一种计算机设备的内部结构示意图。
具体实施方式
[0044]为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
[0045]需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。术语“包括”、“包含”或者其任何其它变体意在涵本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种表格信息提取方法,其特征在于,包括:获取表格中单元格的文本信息;根据所述文本信息确认所述单元格为键型单元格、值型单元格中的一种;根据所述表格的首行是否存在值型单元格,确认所述表格的类型为记录型表格、键值对型表格中的一种;按照记录型表格或键值对型表格的提取方式,提取并输出所述表格的信息。2.根据权利要求1所述的方法,其特征在于,所述根据所述文本信息确认所述单元格为键型单元格、值型单元格中的一种,包括:检测所述文本信息是否满足任一项值型文本标准,若满足,确认包含所述文本信息的单元格为值型单元格;所述值型文本标准包括:文本中含有浮点数;文本中含有预设字段;文本长度在预设区间之内。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述表格的首行是否存在值型单元格,确认所述表格的类型为记录型表格、键值对型表格中的一种,包括:若所述表格的首行不存在值型单元格,确认所述表格的类型为记录型表格;检查除首行之外的其他行,若其他行中的值型单元格比例低于预设的第一阈值,将所述表格的类型由记录型表格修改为键值对型表格。4.根据权利要求1或2所述的方法,其特征在于,所述根据所述表格的首行是否存在值型单元格,确认所述表格的类型为记录型表格、键值对型表格中的一种,包括:若所述表格的首行存在值型单元格,确认所述表格的类型为键值对型表格;检查除首行之外的其他行,若其他行中的值型单元格比例高于预设的第...

【专利技术属性】
技术研发人员:柴玉倩
申请(专利权)人:企查查科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1