基于领域知识模版的表格结构化提取方法技术

技术编号:22330319 阅读:25 留言:0更新日期:2019-10-19 12:19
本发明专利技术公开了一种基于领域知识模版的表格结构化提取方法,该方法中通过编辑多个领域知识模板,分别用以处理不同类型的待处理表格,在所述领域知识模版中设置有目标表格,即期望抽取处理得到的表格形式;该方法中依次读取待处理表格信息,具体确定处理每个表格所用的领域知识模板;在领域知识模板中还记载有与目标表格相关联的词典,以使得能够快速识别出待处理表格不同表述形式的内容,使之与目标表格相对应;特别地,该领域知识模板是可以可视化编辑,操作者能够实时调整其中的目标表格结构和词典,逐步完善领域知识模板,逐步提高该方法的适应性和准确性。

【技术实现步骤摘要】
基于领域知识模版的表格结构化提取方法
本专利技术涉及表格结构化提取方法,具体涉及一种基于领域知识模版的表格结构化提取方法。
技术介绍
在现代金融领域数据分析中,表格类型数据处理是一个频繁且繁重的工作。表格数据可以来源自Web网页、PDF、Doc、Excel等文件,涵盖了公司财务数据、行业数据、宏观数据等多个大领域及其下更多小领域的非结构化信息。表格通常以二维表的形式在其承载媒介中体现,在得到原始结构表格以后,数据分析者通常需要将其转换为标准结构化数据,用以支持规范存储、查询、计算、各个维度数据对比等进一步工作。在这个过程中有3个主要问题导致数据分析者需要花费很大精力进行数据整理:1、表格二维结构不规范,经常会存在单元格跨行、跨列合并和多表合并等情况;2、表格结构的多样性,同一种数据在不同表格中有不同的表现形式,具体可以体现为在结构、顺序、字段等方面存在差异;3、表格中的数据不能完全满足结构化需求,其他存在于标题目录、上下文、单位说明等内容中的信息也需要进行抽取整合。这些问题给数据分析者带来了很大的困难,导致表格数据结构化成为一个迫切需要研究并给出高效解决方案的热点问题。目前业内的表格数据结构化方法并不常见,基本上都是针对特定领域甚至特定一类数据的定向抽取工具,不同类型数据抽取方案存在很大不同,通用性和可扩展能力较差。在抽取效率方面,特定数据的抽取方法一般运行速度较快,但是对每个数据形式定制抽取方案的时间和人力成本都比较高,不能满足多领域、多类型研究的大规模数据抽取需求;由于上述原因,本专利技术人对现有的表格数据结构化方法做了深入研究,设计出一种能够解决上述问题的基于领域知识模版的表格结构化提取方法。
技术实现思路
为了克服上述问题,本专利技术人进行了锐意研究,设计出一种基于领域知识模版的表格结构化提取方法,该方法中通过编辑多个领域知识模板,分别用以处理不同类型的待处理表格,在所述领域知识模版中设置有目标表格,即期望抽取处理得到的表格形式;该方法中依次读取待处理表格信息,具体确定处理每个表格所用的领域知识模板;在领域知识模板中还记载有与目标表格相关联的词典,以使得能够快速识别出待处理表格不同表述形式的内容,使之与目标表格相对应;特别地,该领域知识模板是可以可视化编辑,操作者能够实时调整其中的目标表格结构和词典,逐步完善领域知识模板,逐步提高该方法的适应性和准确性,从而完成本专利技术。具体来说,本专利技术的目的在于提供基于领域知识模版的表格结构化提取方法,该方法包括:步骤1,编辑领域知识模板,在所述领域知识模版中设置有目标表格;步骤2,识别文档中各个待处理表格的种类,并分别调取用于处理各个待处理表格的领域知识模板;步骤3,调整/转换待处理表格的结构,使之与目标表格的结构相匹配;步骤4,根据目标表格归一化待处理表格中的数据。其中,步骤1中,编辑多个领域知识模板,所述多个领域知识模板分别用于处理多种类型的数据表格;在各个领域知识模板中都分别记载有识别标志信息,用以在多种待处理表格中定位到该模版所针对/处理的特定待处理表格。其中,在所述步骤1的领域知识模板中,所述目标表格的结构可编辑,目标表格中包括表头、指标项和数据项;优选地,所述指标项和数据项都具有层次结构。其中,领域知识模板中还存储有可编辑的词典,该词典中记载有目标表格中各个表头的同义词和指标项的同义词。其中,所述领域知识模板中的识别标志信息包括关键字/关键词;步骤2中,识别文档中各个待处理表格的种类,包括:读取待处理表格的目录、标题、附注,从中找到代表该表格内容的关键字/关键词,通过待处理表格的关键字/关键词与领域知识模板中识别标志信息之间的匹配程度,选择用于处理待处理表格的领域知识模板。其中,在步骤2中,将由多个子表格合并而成的复合表格切分为多个子表格。其中,在步骤3中,调整/转换待处理表格的结构,包括子步骤1,对待处理表格中合并单元格、结构性单元格和内嵌表格做拉平、转换或展开处理,进而将待处理表格调整为标准的n*m结构;子步骤2,调整待处理表格中各个列的前后顺序,使得待处理表格中各个列的前后顺序与目标表格中各个列的前后顺序一致;子步骤3,调整待处理表格中各个行的上下顺序,使得待处理表格中各个行的上下顺序与目标表格中各个行的上下顺序一致。其中,子步骤2中,通过比较表头和指标项内容来判断待处理表格中的列和目标表格中的列是否一致。其中,子步骤3中,通过比较指标项及其同义词来判断待处理表格中的行和目标表格中的行是否一致。其中,在步骤4中,根据目标表格归一化待处理表格中的数据,包括,子步骤a,根据目标表格和词典将待处理表格中指标项名称改写为标准名称,子步骤b,将待处理表格中的数值改为标准格式,并调整为统一标准单位。根据本专利技术提供的基于领域知识模版的表格结构化提取方法,该方法针对已经提取出原始结果的二维表格,综合考虑表格所在文档的上下文信息,基于已经编辑好的领域知识模版作为抽取指导,自动化的识别并调整表格结构,最终抽取出规范结构的结构化数据;其中用到的领域知识模版具有统一的结构并具有多领域可扩展性,使得该方法的适应范围极广,可以应用至多个领域;本方法中的领域知识模版可以可视化编辑,便于领域专家进行编辑和整理,便于效果迭代和抽取效果评估。附图说明图1示出根据本专利技术一种优选实施方式的基于领域知识模版的表格结构化提取方法的流程图;图2示出根据本专利技术一种优选实施方式的基于领域知识模版的表格结构化提取方法中领域知识模板中目标表格的可视化界面;图3示出根据本专利技术一种优选实施方式的基于领域知识模版的表格结构化提取方法中待处理文档及其中的待处理表格;图4示出本专利技术实施例中经过步骤3处理后得到的待处理表格示意图;图5示出本专利技术实施例中经过结构化提取后得到的表格示意图。具体实施方式下面通过附图和实施例对本专利技术进一步详细说明。通过这些说明,本专利技术的特点和优点将变得更为清楚明确。在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。根据本专利技术提供的基于领域知识模版的表格结构化提取方法,如图1中所示,该方法包括如下步骤:步骤1,编辑领域知识模板,在所述领域知识模版中设置有目标表格;本专利技术中的领域知识模板是指记载有某个特定领域知识信息的可编辑表格模板,每个领域中都有多种类型的领域知识模板。步骤2,识别文档中各个待处理表格的种类,并分别调取用于处理各个待处理表格的领域知识模板;步骤3,调整/转换待处理表格的结构,使之与处理该待处理表格的领域知识模板中目标表格的结构相匹配;步骤4,根据目标表格归一化待处理表格中的数据。在一个优选的实施方式中,在所述步骤1中,编辑多个领域知识模板,所述多个领域知识模板分别用于处理多种类型的数据表格;在每个领域中都有多种类型的数据表格,每种类型的数据表格中记载的数据种类都是不同的;在各个领域知识模板中都分别记载有识别标志信息,用以在多种待处理表格中定位到该模版所针对/处理的特定待处理表格。通过领域知识模板中的识别标志信息,在依次读取每个待处理表格信息时寻找二者之间的匹配关系,从而为每一个待处理表格确定一个领域知识模板,并依据领域知本文档来自技高网
...

【技术保护点】
1.一种基于领域知识模版的表格结构化提取方法,其特征在于,该方法包括:步骤1,编辑领域知识模板,在所述领域知识模版中设置有目标表格;步骤2,识别文档中各个待处理表格的种类,并分别调取用于处理各个待处理表格的领域知识模板;步骤3,调整/转换待处理表格的结构,使之与目标表格的结构相匹配;步骤4,根据目标表格归一化待处理表格中的数据。

【技术特征摘要】
1.一种基于领域知识模版的表格结构化提取方法,其特征在于,该方法包括:步骤1,编辑领域知识模板,在所述领域知识模版中设置有目标表格;步骤2,识别文档中各个待处理表格的种类,并分别调取用于处理各个待处理表格的领域知识模板;步骤3,调整/转换待处理表格的结构,使之与目标表格的结构相匹配;步骤4,根据目标表格归一化待处理表格中的数据。2.根据权利要求1所述的基于领域知识模版的表格结构化提取方法,其特征在于,步骤1中,编辑多个领域知识模板,所述多个领域知识模板分别用于处理多种类型的数据表格;在各个领域知识模板中都分别记载有识别标志信息,用以在多种待处理表格中定位到该模版所针对/处理的特定待处理表格。3.根据权利要求1所述的基于领域知识模版的表格结构化提取方法,其特征在于,在所述步骤1的领域知识模板中,所述目标表格的结构可编辑,目标表格中包括表头、指标项和数据项;优选地,所述指标项和数据项都具有层次结构。4.根据权利要求1所述的基于领域知识模版的表格结构化提取方法,其特征在于,领域知识模板中还存储有可编辑的词典,该词典中记载有目标表格中各个表头的同义词和指标项的同义词。5.根据权利要求2所述的基于领域知识模版的表格结构化提取方法,其特征在于,所述领域知识模板中的识别标志信息包括关键字/关键词;步骤2中,识别文档中各个待处理表格的种类,包括:读取待处理表格的目录、标题、附注,从中找到代表该表格内容的关键字/关键词,通过待处理表格的关键字/关键词与领域...

【专利技术属性】
技术研发人员:王博远陈前力淡强强吴雪军
申请(专利权)人:鼎复数据科技北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1