一种表格数据的主题分析的方法和系统技术方案

技术编号:12984000 阅读:60 留言:0更新日期:2016-03-04 04:07
本公开涉及表格数据的主题分析。在说明性实施例中提供了用于表格数据的主题分析的方法、系统和计算机程序产品。接收包含表格数据的第一文档。选择用于第一主题域的函数签名库。确定来自所选库的阈值数量的函数签名是否适用于表格数据,其中当表格数据中的值与函数签名中指定的操作和表格结构相对应时,函数签名适用于表格数据。响应于来自所选库的阈值数量的函数签名适用于表格数据,处理器和存储器根据从用于相应主题域的多个处理中选出的用于第一主题域的处理来处理第一文档。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术一般涉及用于文档的处理的方法、系统和计算机程序产品。更特别地,本发 明涉及用于表格数据(tabulardata)的主题分析的方法、系统和计算机程序产品。
技术介绍
文档包含任何形式的信息。例如,被配置为语句和段落的文本信息以叙述的形式 传递信息。 -些类型的信息是在表格组织中被提供的。例如,文档可以包含用于提供财务信 息、组织信息的表格并且一般地可以包含用于提供通过一些关系彼此相关的任何数据条目 的表格。 自然语言处理(NLP)是便利于人与数据处理系统之间的信息交换的技术。例如, NLP的一个分支属于将给定的内容转换成人可用的语言或形式。例如,NLP可接受内容是计 算机特定语言或形式的文档,并产生相应内容采取人可读形式的文档。
技术实现思路
解释性实施例提供一种用于表格数据的主题分析的方法、系统和计算机程序产 品。实施例接收包含表格数据的第一文档。实施例选择用于第一主题域的函数签名库。实 施例确定来自所选库的阈值数量的函数签名是否适用于表格数据,其中当表格数据中的值 与函数签名中指定的操作和表格结构相对应时函数签名适用于表格数据。实施例响应于来 自所选库的阈值数量的函数签名适用于表格数据,根据从用于相应主题域的多个处理中选 出的用于第一主题域的处理,使用处理器和存储器来处理第一文档。【附图说明】 在所附的权利要求中阐述了被认为是本专利技术的特性的新颖特征。但是,通过在结 合附图阅读时参照解释性实施例的以下详细描述,可以最好地理解本专利技术自身以及优选的 使用方式及其进一步目的和优点,其中: 图1示出可以实现解释性实施例的数据处理系统的网络的图示; 图2示出可以实现解释性实施例的数据处理系统的框图; 图3示出在其中可根据解释性实施例识别函数关系和签名的表格数据的示例; 图4示出根据解释性实施例的函数签名的示例表示; 图5示出根据解释性实施例的函数签名的示例操作的框图; 图6示出根据解释性实施例的利用表格数据分类文档的示例方式的框图; 图7示出根据解释性实施例的构建函数签名的示例处理的流程图; 图8示出根据解释性实施例的创建签名库的示例处理的流程图; 图9示出根据解释性实施例的用于使用函数签名归类文档的示例处理的流程图; 图10示出根据解释性实施例的使用表格数据的主题分析来响应询问的示例处理 的流程图;以及 图11示出根据解释性实施例的用于创建或改善知识库的示例处理的流程图。【具体实施方式】 解释性实施例认识到:经受NLP的文档一般包含表格数据,S卩,一个或多个表格数 据结构(表格)形式的内容。表格的单元格(cell)是表格内的包含单元,使得单元格的内 容可以唯一地由表格的行和列或其它适当坐标识别。 解释性实施例认识到:在表格的单元格内提供的信息常常涉及同一表格的其它单 元格、同一文档中的不同表格的单元格或不同文档中的单元格或不同表格中的信息。对于 理解表格数据的意思,并且,一般对于理解整个文档的意思,包含于不同单元格中的信息之 间的关系是十分重要的。 许多特定于域的文件,特别是在财务、医疗和其它(一个或多个)主题域中,在众 多表格中具有关键信息。例如,用户可能想知道城市营业性收入是什么,或城市收益的组 成。经常仅在表格中而不是财务文档的叙述文本中发现回答这样的问题需要的信息。 从表格内恢复信息历来是一大难题。解释性实施例认识到:为了正确和完整地解 释表格数据,在NLP中需要专门的处理或操作。用于理解单元格值之间的关系的当前可用 技术限于通过使用行或列标题启发式地猜测单元格的标签。 用于描述本专利技术的解释性实施例一般针对并解决与当前可用NLP技术的限制有 关的上述问题和其它问题。解释性实施例提供了用于表格数据的主题分析的方法、系统和 计算机程序产品。 解释性实施例认识到,表格中的单元格可以依赖于表格中的一个或多个其它单元 格、跨给定文档中的不同表格的单元格或跨不同文档中的不同表格中的单元格。一个单元 格对另一单元格的依赖性在本质上是函数,即,基于函数的依赖性。例如,形成这种函数依 赖性的基础的函数(也称为函数关系或函数的关系)可以是在某些单元格值上运算以在某 些其它单元格中赋予单元格值的数学、统计、逻辑或条件函数的任意组合。 作为示例,包含总量的单元格在函数上依赖于其值参与总量的单元格或与其相 关。作为另一例子,统计分析结果单元格,诸如包含实验中的方差值的单元格,可以在函数 上依赖于可能处于另一表格中的一组其它单元格,在该另一表格中记录了实验的各种迭代 的结果。 这些例子意图不在于限制解释性实施例。函数依赖性指示一个或多个表格的单元 格之间的关系,并且是根据表格或文档中的数据、其目的和各种单元格的意思高度可配置 的。 并且,单元格可作为从属单元格和/或作为被从属单元格参与任意数量的函数依 赖性或函数关系。由于单元格中的信息可以涉及在给定文档中的任何位置可用的信息,因 此单元格的函数依赖性也可以包含依赖于给定文档中的非表格数据。 解释性实施例通过使得NLP工具能够理解表格数据的单元格的关系而改善在文 档中以表格形式提供的信息的理解。解释性实施例提供确定表格中的单元格对其它单元 格、表格的周围文本、文档中的内容或它们的组合的函数依赖性的方式。通过使用表格单元 格之间的函数的关系的定量分析,结合表格内的单元格的语言和/或语义分析,解释性实 施例改善了表格信息的理解而无需只依赖外部知识源。 解释性实施例确定给定表格数据的块中是否包括某些特定于域的函数关系。换而 言之,解释性实施例执行表格数据的主题分析以确定表格数据中的信息是否匹配类似性的 阈值度量内的函数签名。函数签名(签名)是一个或多个表格的一个或多个部分中的一个 或多个单元格之间的函数和语义关系的表达,其中特定于文档的信息或特定于表格的信息 已经被归一化为主题域的特定引用。单元格之间的函数关系包括在那些单元格之间发现的 函数依赖性。单元格之间的语义关系包括与单元格相关联的语义标识符(例如标题、标记 线索、缩排(identation)、偏移等)之间的类似性、依赖性或组织关系。函数关系和语义关 系的示例包括在函数签名中,并且不意在限于解释性实施例。本领域技术人员将能够设想 可以用在根据实施例的函数签名中的表格数据的其它目的相近的特征,并且这些也被认为 是在解释性实施例的范围内。 如果解释性实施例发现这样的块,实施例通过对关于块的内容的推断和/或通过 使用预定模板,取回包含在那个块中的信息。例如,假定实施例收到关于县财务报告文档的 询问。例如,假设询问寻求2007财年的县收益的组成。实施例使用行类别类型"收益"、具有 值类型"年"的列类别并且列值匹配例如"2007"的期望值,来寻找具有使用操作符"SUM(求 和)"的函数签名的块。 注意,诸如收益类别的信息,在块中不必是'平的',块内可能存在一些中间计算 量。该复杂性使得回答以上问题成为使用当前可用技术非常难以解决的问题。当前可用 的表格提取技术寻找收益的组成部分,并且因此,将有可能返回噪声和不精确答案。相反, 由于实施例从给定表格数据发现结构性和语义宏观层面知识的能力,询问接收了精确的答 案。此外,实施例还使得多个不同类型的询问成为可能。例如,实施例可以精确地回答寻求 收益的全部源的询问本文档来自技高网...

【技术保护点】
一种用于表格数据的主题分析的方法,所述方法包括:接收包含所述表格数据的第一文档;选择用于第一主题域的函数签名库;确定来自所选库的阈值数量的函数签名是否适用于所述表格数据,其中当所述表格数据中的值与所述函数签名中指定的操作和表格结构相对应时,函数签名适用于所述表格数据;以及响应于来自所选库的阈值数量的所述函数签名适用于所述表格数据,根据从用于相应主题域的多个处理中选出的用于所述第一主题域的处理使用处理器和存储器处理所述第一文档。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:D·K·拜伦S·N·吉拉尔德A·皮科夫斯基M·B·萨恩切茨
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1