基于模板的表格信息抽取方法及系统技术方案

技术编号:30907988 阅读:15 留言:0更新日期:2021-11-22 23:54
本发明专利技术公开了一种基于模板的表格信息抽取方法及系统,所述方法包括:确定信息名key和对应的信息值value,得到表格信息抽取模板;基于所述表格信息抽取模板中的信息名key和信息值value,对表格进行信息抽取。本发明专利技术适用于大多数的表格,而不需提前判定待分析的表格形式。针对新的表格形式的信息抽取,只需增加新的模板规则即可,便于维护,抽取成本低。抽取成本低。抽取成本低。

【技术实现步骤摘要】
基于模板的表格信息抽取方法及系统


[0001]本专利技术涉及计算机
,尤其是涉及一种基于模板的表格信息抽取方法及系统。

技术介绍

[0002]随着信息技术的快速发展,各个行业中知识库的构建,被应用于智能问答、智能搜索、个性化推荐等各类系统中。从文本中抽取信息构建知识库,利用现有自然语言处理技术进行抽取,存在一定的错误概率,因此需要人为校验。考虑到不同行业存在大量的表格数据,且半结构化的表格相比非结构化文本具有更高的数据质量。如何正确、有效的解析表格数据,从中抽取信息用于知识库的扩充,是一个及有意义的问题。
[0003]目前针对表格信息的抽取一般针对不同格式的表格,会指定一套抽取的规则,即针对不同表头形式的表格,抽取规则是不同。这样抽取成本较高,维护比较困难。

技术实现思路

[0004]本专利技术的目的在于提供一种基于模板的表格信息抽取方法及系统,旨在解决现有技术中的上述问题。
[0005]本专利技术提供一种基于模板的表格信息抽取方法,包括:
[0006]确定信息名key和对应的信息值value,得到表格信息抽取模板;
[0007]基于所述表格信息抽取模板中的信息名key和信息值value,对表格进行信息抽取。
[0008]本专利技术提供一种基于模板的表格信息抽取系统,包括:
[0009]模板确定模块,用于确定信息名key和对应的信息值value,得到表格信息抽取模板;
[0010]抽取模块,用于基于所述表格信息抽取模板中的信息名key和信息值value,对表格进行信息抽取。
[0011]本专利技术实施例的技术方案,适用于大多数的表格,而不需提前判定待分析的表格形式。针对新的表格形式的信息抽取,只需增加新的模板规则即可,便于维护,抽取成本低。
[0012]上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。
附图说明
[0013]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0014]图1是本专利技术实施例的基于模板的表格信息抽取方法的流程图;
[0015]图2是本专利技术实施例的基于模板的表格信息抽取系统的示意图。
具体实施方式
[0016]下面将结合实施例对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0017]在本专利技术的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。
[0018]此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本专利技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。此外,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本专利技术中的具体含义。
[0019]方法实施例
[0020]根据本专利技术实施例,提供了一种基于模板的表格信息抽取方法,图1是本专利技术实施例的基于模板的表格信息抽取方法的流程图,如图1所示,根据本专利技术实施例的基于模板的表格信息抽取方法具体包括:
[0021]步骤101,确定信息名key和对应的信息值value,得到表格信息抽取模板;其中,信息名key的类型包括:表头名、已知表头名组合、以及未知表头名组合,其中,未知表头名的表达格式为:关键词^行变化数,列变化数。在步骤101中,确定对应的信息值value具体包括:
[0022]根据信息值value的表达式“关键词1^行变化数1,列变化数1&&关键词2^行变化数2,列变化数2&&
……”
确定对应的信息值value。
[0023]步骤102,基于表格信息抽取模板中的信息名key和信息值value,对表格进行信息抽取。步骤102具体包括:
[0024]在信息名key的类型为未知表头名组合时,根据未知表头名表达式中的关键词和表格中每个单元格的内容进行全匹配,将匹配上的单元格命名为初始单元格,且将初始单元格所占的行和列,定义为初始行、初始列;
[0025]对初始行、初始列进行操作,根据未知表头名表达式中的行变化数和列变化数,得到最终单元格的行和列,其中,行变化数或列变化数的表达式包括:情况一:只有一个数字m,表示初始行往下移动m行,得到最终单元格的行数,初始列往右移动m列,得到最终单元格的列数;情况二:采用m

n,其中n>m,或n=*,表示初始行往下分别移动m行、m+1行、m+2
抗震设防烈度7度 主体结构选型现浇钢筋混凝土框架剪力墙结构 [0035]表3
[0036]建筑名称B7号楼备注主要功能科研办公 地上建筑面积10273.01m
2 建筑占地面积1208.39m
2 建筑层数,高度8F/2D,29.95m 楼层最大建筑面积1414.39m
2 建筑防火计算高度29.95m 建筑防火类别二类高层建筑 耐火等级地上一级,地下一级 设计使用年限50年 地震基本烈度7度 主体结构选型现浇钢筋混凝土框架结构 地下室防水等级二级 屋面防水等级II级 [0037]表4
[0038][0039]表5
[0040][0041]表6
[0042][0043]本专利技术实施例提出了一种基于模板的表格信息抽取方法,适用于大多数的表格,而不需提前判定待分析的表格形式。针对新的表格形式的信息抽取,只需增加新的模板规则即可,便于维护。信息(key,value)用二元组的结构表示,其中key表示信息名,value代表具体的信息值,本专利技术实施例提出的方法还有以下两个特点:
[0044]第一:要抽取的信息k本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于模板的表格信息抽取方法,其特征在于,包括:确定信息名key和对应的信息值value,得到表格信息抽取模板;基于所述表格信息抽取模板中的信息名key和信息值value,对表格进行信息抽取。2.根据权利要求1所述的方法,其特征在于,所述信息名key的类型包括:表头名、已知表头名组合、以及未知表头名组合,其中,所述未知表头名的表达式为:关键词^行变化数,列变化数。3.根据权利要求2所述的方法,其特征在于,基于所述表格信息抽取模板中的信息名key对表格进行信息抽取具体包括:在所述信息名key的类型为未知表头名组合时,根据所述未知表头名表达式中的关键词和表格中每个单元格的内容进行全匹配,将匹配上的单元格命名为初始单元格,且将初始单元格所占的行和列,定义为初始行、初始列;对初始行、初始列进行操作,根据所述未知表头名表达式中的行变化数和列变化数,得到最终单元格的行和列,其中,行变化数或列变化数的表达式包括:情况一:只有一个数字m,表示初始行往下移动m行,得到最终单元格的行数,初始列往右移动m列,得到最终单元格的列数;情况二:采用m

n,其中n>m,或n=*,表示初始行往下分别移动m行、m+1行、m+2行、
……
、n行,初始列往右分别移动m列、m+1列、m+2列、
……
、n列,若n为*时,表示无上限,至到表格的最后一行或最后一列为止。4.根据权利要求1所述的方法,其特征在于,确定对应的信息值value具体包括:根据信息值value的表达式“关键词1^行变化数1,列变化数1&&关键词2^行变化数2,列变化数2&&
……”
确定对应的信息值value。5.根据权利要求4所述的方法,其特征在于,基于所述表格信息抽取模板中的信息值value对表格进行信息抽取具体包括:将信息值value的表达式依据“&&”拆分成一个或多个最小粒度规则,其中,最小粒度规则的表达式为:关键词^行变化数,列变化数;根据每个最小粒度规则对表格进行信息抽取;依据每个最小粒度规则获取单元格求交集,即共同的单元格即为最终的信息值value的值。6.根据权利要求5所述的方法,其特征在于,根据每个最小粒度规则对表格进行信息抽取具体包括:根据最小粒度规则的表达式中的关键词和表格中每个单元格的内容进行全匹配,将匹配上的单元格命名为初始单元格,且将初始单元格所占的行和列,定义为初始行、初始列;对初始行、初始列进行操作,根据行变化数、列变化数,得到最终单元格的行和列,其中,行变化数或列变化数的表达式包括:情况一:只有一个数字m,表示初始行往下移动m行,得到最终单元格的行数,初始列往右移动m列,得到最终单元格的列数;情况二:采用m

n,其中n>m,或n=*,表示初始行往下分别移动m行、m+1行、m+2行、
……
、n行,初始列往右分别移动m列、m+1列、m+2列、
……

【专利技术属性】
技术研发人员:柳晶晶么新新任骥乔智君马学兰
申请(专利权)人:北京智通云联科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1