【技术实现步骤摘要】
基于模板的表格信息抽取方法及系统
[0001]本专利技术涉及计算机
,尤其是涉及一种基于模板的表格信息抽取方法及系统。
技术介绍
[0002]随着信息技术的快速发展,各个行业中知识库的构建,被应用于智能问答、智能搜索、个性化推荐等各类系统中。从文本中抽取信息构建知识库,利用现有自然语言处理技术进行抽取,存在一定的错误概率,因此需要人为校验。考虑到不同行业存在大量的表格数据,且半结构化的表格相比非结构化文本具有更高的数据质量。如何正确、有效的解析表格数据,从中抽取信息用于知识库的扩充,是一个及有意义的问题。
[0003]目前针对表格信息的抽取一般针对不同格式的表格,会指定一套抽取的规则,即针对不同表头形式的表格,抽取规则是不同。这样抽取成本较高,维护比较困难。
技术实现思路
[0004]本专利技术的目的在于提供一种基于模板的表格信息抽取方法及系统,旨在解决现有技术中的上述问题。
[0005]本专利技术提供一种基于模板的表格信息抽取方法,包括:
[0006]确定信息名key和对应的信息值value,得到表格信息抽取模板;
[0007]基于所述表格信息抽取模板中的信息名key和信息值value,对表格进行信息抽取。
[0008]本专利技术提供一种基于模板的表格信息抽取系统,包括:
[0009]模板确定模块,用于确定信息名key和对应的信息值value,得到表格信息抽取模板;
[0010]抽取模块,用于基于所述表格信息抽取模板中的信息名key和信息 ...
【技术保护点】
【技术特征摘要】
1.一种基于模板的表格信息抽取方法,其特征在于,包括:确定信息名key和对应的信息值value,得到表格信息抽取模板;基于所述表格信息抽取模板中的信息名key和信息值value,对表格进行信息抽取。2.根据权利要求1所述的方法,其特征在于,所述信息名key的类型包括:表头名、已知表头名组合、以及未知表头名组合,其中,所述未知表头名的表达式为:关键词^行变化数,列变化数。3.根据权利要求2所述的方法,其特征在于,基于所述表格信息抽取模板中的信息名key对表格进行信息抽取具体包括:在所述信息名key的类型为未知表头名组合时,根据所述未知表头名表达式中的关键词和表格中每个单元格的内容进行全匹配,将匹配上的单元格命名为初始单元格,且将初始单元格所占的行和列,定义为初始行、初始列;对初始行、初始列进行操作,根据所述未知表头名表达式中的行变化数和列变化数,得到最终单元格的行和列,其中,行变化数或列变化数的表达式包括:情况一:只有一个数字m,表示初始行往下移动m行,得到最终单元格的行数,初始列往右移动m列,得到最终单元格的列数;情况二:采用m
‑
n,其中n>m,或n=*,表示初始行往下分别移动m行、m+1行、m+2行、
……
、n行,初始列往右分别移动m列、m+1列、m+2列、
……
、n列,若n为*时,表示无上限,至到表格的最后一行或最后一列为止。4.根据权利要求1所述的方法,其特征在于,确定对应的信息值value具体包括:根据信息值value的表达式“关键词1^行变化数1,列变化数1&&关键词2^行变化数2,列变化数2&&
……”
确定对应的信息值value。5.根据权利要求4所述的方法,其特征在于,基于所述表格信息抽取模板中的信息值value对表格进行信息抽取具体包括:将信息值value的表达式依据“&&”拆分成一个或多个最小粒度规则,其中,最小粒度规则的表达式为:关键词^行变化数,列变化数;根据每个最小粒度规则对表格进行信息抽取;依据每个最小粒度规则获取单元格求交集,即共同的单元格即为最终的信息值value的值。6.根据权利要求5所述的方法,其特征在于,根据每个最小粒度规则对表格进行信息抽取具体包括:根据最小粒度规则的表达式中的关键词和表格中每个单元格的内容进行全匹配,将匹配上的单元格命名为初始单元格,且将初始单元格所占的行和列,定义为初始行、初始列;对初始行、初始列进行操作,根据行变化数、列变化数,得到最终单元格的行和列,其中,行变化数或列变化数的表达式包括:情况一:只有一个数字m,表示初始行往下移动m行,得到最终单元格的行数,初始列往右移动m列,得到最终单元格的列数;情况二:采用m
‑
n,其中n>m,或n=*,表示初始行往下分别移动m行、m+1行、m+2行、
……
、n行,初始列往右分别移动m列、m+1列、m+2列、
……
【专利技术属性】
技术研发人员:柳晶晶,么新新,任骥,乔智君,马学兰,
申请(专利权)人:北京智通云联科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。