从文档表示信息制造技术

技术编号:10497160 阅读:159 留言:0更新日期:2014-10-04 14:36
本发明专利技术公开了用于将被包括在非结构化文本文档中的信息表示成结构化格式的系统和技术。所述系统和技术在非结构化文档中识别事件和与事件相关联的信息、将所识别的事件和信息分类、并且基于所计算的分类评分而以结构化格式来表示所识别的事件和信息。所述系统和技术也可以向所识别的事件分配置信度评分、比较与事件相关联的置信度评分和与所训练的置信度模型相关联的置信度评分并且基于所述比较而以结构化格式来表示所识别的事件和与事件相关联的信息。

【技术实现步骤摘要】
【国外来华专利技术】从文档表示信息
本公开涉及从非结构化信息表示信息,并且更具体地涉及用于自动以结构化格式而从非结构化文档表示信息的系统和方法。
技术介绍
现今有主要地以被包括在文档中的非结构化文本数据的形式的越来越多的信息量,其与投资者的决策过程有关。当该信息是大量的时,投资者所需要用以识别术语和领会被包括在这些文档中的语义的努力可能是辛苦的。尽管文档的电子存储已经简化了浏览多重和大文档的过程,浏览大量文本以理解和快速定位感兴趣的信息仍然是困难和耗时的。例如,企业新闻发布通常在非结构化(例如自由形式)文本中连同附加信息一起识别企业金融事件,诸如红利、每股收益、管理和所有制结构等等。解析该信息以识别感兴趣的项目是耗时的过程。此外,虽然大多数文字处理工具确实提供用于在文档中搜索单独项目的机制,但是这些工具中没有一个提供伴随感兴趣的项目的补充信息。因此,有用于从非结构化数据提供信息的改进的系统和技术的需要,所述信息诸如事实和事件。
技术实现思路
公开了用于以结构化格式来表示被包括在非结构化文本文档中的信息的系统和技术。所述系统和技术在非结构化文档中识别事件和与事件相关联的信息、将所识别的事件和信息分类、并且基于所计算的分类评分而以结构化格式来表示所识别的事件和信息。所述系统和技术也可以向所识别的事件分配置信度评分、比较与事件相关联的置信度评分和与所训练的置信度模型相关联的置信度评分并且基于所述比较而以结构化格式来表示所识别的事件和与事件相关联的信息。所述系统和技术的各种方面涉及计算概率值和组合概率值以生成分类评分。例如,根据一个方面,方法包括识别被包括在非结构化文本文档中的事件的属性,其中每个所识别的属性类似于被包括在预定义事件属性集合中的至少一个事件属性;为每个所识别的属性生成文档特征;并且将多个分类器中的至少一个应用于每个所生成的特征。所述至少一个先前使用预定义事件属性所训练的分类器对应于所述所识别的事件属性。所述方法也包括从由所述至少一个分类器使用概率估计模型所生成的分类器评分来计算概率值,其中所述概率值指示所识别事件属性的似然性,所述所识别事件属性对应于所述预定义事件属性集合中之一;组合与所识别属性相关联的多个所计算的概率值以生成分类评分;并且至少部分基于所述分类评分而从非结构化文本文档将事件和所识别的属性表示成结构化格式。在一个实施例中,所述方法此外包括使用至少一个置信度模型来向事件分配置信度评分,比较与事件相关联的置信度评分和与所训练的置信度模型相关联的置信度评分,并且基于所述比较以结构化格式从非结构化文本文档表示事件和所识别的属性。在又一个方面,方法包括访问非结构化文本文档以识别事件和与事件相关联的属性集合,其中所述属性集合与预定义事件属性集合有关,并且生成与所述属性集合相关联的文档特征集合,所述文档特征集合具有比所述属性集合更高数目的集合元素。对于在所述文档特征集合中的第一文档特征,所述方法包括生成第一分类器评分,其中所述第一分类器评分是利用先前已经使用预定义事件属性集合所训练的分类器被生成的,并且基于所述第一分类器评分而使用概率估计模型来计算第一概率值,所述第一概率值指示来自事件属性集合的第一事件属性对应于预定义事件属性集合的似然性。所述方法也包括,对于在所述文档特征集合中的第二文档特征,生成第二分类器评分,所述第二分类器评分是利用分类器所生成的,并且基于所述第二分类器评分而使用概率估计模型来计算第二概率值,所述第二概率值指示来自事件属性集合的第二事件属性对应于预定义事件属性集合的似然性。所述方法此外包括使用第一概率值和第二概率值而生成分类评分并且基于所述分类评分而以结构化数据格式从非结构化文本文档表示事件和属性集合。公开了一种系统,以及包括存储用于实施各种技术的机器可读指令的机器可读媒介的产品。以下更详细地讨论各种实施的细节。从以下详细描述、附图和权利要求,附加特征和优点将是显而易见的。附图说明图1是用于从非结构化文本文档表示信息的示范性基于计算机的系统的示意图。图2说明用于训练在图1中所示出的基于计算机的系统的示范性方法。图3说明用于从非结构化文本文档表示信息的示范性方法。图4说明用于训练图1的基于计算机的系统的示范性用户界面。在各种图中同样的参考符号指示同样的元件。具体实施方式本专利技术包括方法和系统,其便于从非结构化数据将事件(例如事实)和所识别的事件属性(例如与事件有关的信息)自动提取(例如表示)成结构化数据格式。可以在本专利技术的情况下所使用的非结构化数据的示例包括但不限于书、杂志、文档、元数据、健康记录、金融记录和非结构化文本,所述非结构化文本诸如新闻报道、企业新闻发布、电子邮件消息的正文、网页以及文字处理器文档。结构化数据格式指定数据将如何被组织并且包括使信息的结构和内容标准化的规则。由本专利技术所生成的示例结构化数据格式包括但不限于可扩展标记语言(XML)、可扩展商业报告语言(XBRL)、超文本标记语言(HTML)和具有所公布的规范文档的其它数据格式。所述方法和系统在以下情景中是特别有益的,在所述情景中,金融事件连同多重其它事实一起被包括在非结构化文本中,所述多重其它事实中的一些涉及金融事件和其中一些不涉及金融事件。例如,企业新闻发布可以包括事件,诸如股票红利宣告,所述股票红利宣告与其相关联地具有股票红利是可支付的时段和识别支付股票红利的商行(businessconcern)的实体名称,其是市场专业人员感兴趣的。所述新闻发布也可以包括与红利事件无关的附加信息,诸如新员工福利信息,其可能对于市场专业人员是较少感兴趣的。使用本专利技术,市场专业人员不需要花时间阅读整个新闻发布和在新员工福利信息中挑选,因为市场专业人员所感兴趣的红利和有关信息可以以若干结构化数据格式之一被自动提供给市场专业人员。现在转向图1,公开了一种适合的计算系统10的示例,在所述计算系统10中,本专利技术的实施例可以被实施。所述计算系统10只是一个示例并且不意图暗示关于本专利技术的使用或功能性的范围的任何限制。所述计算系统10也不应当被解释为具有与所说明组件的任何一个或组合有关的任何依赖性或要求。例如,本专利技术用许多其它通用或专用计算消费电子设备、网络PC、小型计算机、大型(mainframe)计算机、膝上型计算机以及包括任何以上系统或设备的分布式计算环境等等是可操作的。可以在由计算机所执行的计算机可执行指令的通常上下文中描述本专利技术,所述计算机可执行指令诸如程序模块。通常,程序模块包括执行特定任务或实施特定抽象数据类型的例程、程序、对象、组件、数据结构、循环代码段和构造等等。本专利技术可以在分布式计算环境中被实行,在所述分布式计算环境中,任务由远程处理设备执行,所述远程处理设备通过通信网络被链接。在分布式计算环境中,程序模块位于包括存储器存储设备的本地和远程计算机存储媒介这两者中。在以下并且借助于图来描述由程序和模块所执行的任务。本领域技术人员可以将描述和图实施为处理器可执行指令,所述处理器可执行指令可以被写在任何形式的计算机可读媒介上。参考图1,在一个实施例中,系统10包括服务器设备12,所述服务器设备12被配置以包括诸如中央处理单元(‘CPU’)的处理器14、随机存取存储器(‘RAM’)16、诸如显示设备(未示出)和键盘(未示出)的一个或多本文档来自技高网...
从文档表示信息

【技术保护点】
一种方法,包括:识别被包括在非结构化文本文档中的事件的属性,每个所识别的属性类似于被包括在预定义事件属性集合中的至少一个事件属性;为每个所识别的属性生成文档特征;将多个分类器中至少之一应用于每个所生成的文档特征,之前使用预定义事件属性所训练的所述至少一个分类器对应于所识别的事件属性;使用概率估计模型从由所述至少一个分类器所生成的分类器评分来计算概率值,所述概率值指示所识别的事件属性对应于预定义事件属性集合之一的似然性;组合与所识别的属性相关联的多个所计算的概率值,以生成分类评分;和至少部分基于所述分类评分而从非结构化文本文档将事件和所识别的属性表示成结构化格式。

【技术特征摘要】
【国外来华专利技术】2011.04.29 US 13/0976191.一种用于表示信息的方法,包括:识别被包括在非结构化文本文档中的事件的属性,每个所识别的属性类似于被包括在预定义事件属性集合中的至少一个事件属性;为每个所识别的属性生成文档特征;将多个分类器中至少之一应用于每个所生成的文档特征,之前使用预定义事件属性所训练的所述至少一个分类器对应于所识别的事件属性;使用概率估计模型从由所述至少一个分类器所生成的分类器评分来计算概率值,所述概率值指示所识别的事件属性对应于预定义事件属性集合之一的似然性;组合与所识别的属性相关联的多个所计算的概率值,以生成分类评分;和至少部分基于所述分类评分而从非结构化文本文档将事件和所识别的属性表示成结构化格式。2.根据权利要求1所述的方法,此外包括:将来自多个预定义规则的至少一个规则应用于每个所识别的属性;和基于所述至少一个规则来确定每个所识别的属性是否类似于被包括在预定义属性集合中的至少一个事件属性。3.根据权利要求1所述的方法,此外包括:使用至少一个置信度模型来向事件分配置信度评分;比较与事件相关联的置信度评分和与所训练的置信度模型相关联的置信度评分;和基于所述比较以结构化格式从非结构化文本文档表示事件和所识别的属性。4.根据权利要求3所述的方法,其中识别事件的属性包括规格化非结构化文本文档。5.根据权利要求4所述的方法,其中规格化非结构化文本文档包括:识别被包括在非结构化文本文档中的候选属性;将唯一识别符与候选属性相关联;比较所述候选属性与预定义事件属性中的每一个;和基于所述比较来存储所述预定义事件属性中至少之一、所述候选属性和所述唯一识别符。6.根据权利要求5所述的方法,其中所述候选属性是关键词、字母序列、数字和字符之一,所述候选属性是在金融领域中所定义的。7.根据权利要求3所述的方法,此外包括:识别邻近和包括事件的一部分非结构化文本,该部分非结构化文本具有用户可配置的文本大小;通过对从该部分非结构化文本所得到的所有N元计数求平均值来计算与事件相关联的置信度评分;比较所计算的与事件相关联的置信度评分和与被包括在预定义事件属性集合中的至少一个事件属性相关联的在先估计平均值;和基于所述比较向事件分配置信度评分。8.根据权利要求7所述的方法,此外包括如果置信度评分超过阈值,则确定被包括在该部分非结构化文本中的候选属性是否很可能要由在非结构化文本的第一语料库上所训练的模型M识别,非结构化文本的所述第一语料库是被确定为对于事件属性是真阳性的一部分非结构化文本。9.根据权利要求8所述的方法,其中由在非结构化文本的第一语料库上所训练的模型M识别所述候选属性的似然性通过以下公式计算:其中是在非结构化文本的第一语料库上所训练的模型M生成n元n的概率并且通过以下公式计算:其中S()是计算出0出现n元的古德图灵平滑函数。10.根据权利要求9所述的方法,其中如果所计算的候选属性似然性小于与在非结构化文本的第一语料库上所训练的模型相关联的阈概率值,则使所计算的置信度评分的值变小。11.根据权利要求9所述的方法,此外包括:将二进制分类器应用于该部分非结构化文本;如果所述二进制分类器将该部分非结构化文本分类为对于事件属性是阳性的,则为候选属性增大所计算的置信度评分;和如果所述二进制分类器将该部分非结构化文本分类为对于事件属性是阴性的,则为候选属性减小所计算的置信度评分。12.根据权利要求1所述的方法,其中概率估计模型使用保序回归或概率估计方式并且所生成的分类评分是多个所计算的概率值的加权线性组合。13.根据权利要求1所述的方法,其中为每个所识别的属性生成文档特征包括将多个特征生成方案应用于所识别的属性。14.根据权利要求13所述的方法,包括至少从方案的以下组中选择所述多个特征生成方案:“词袋”、“最远距离/最近距离”、“之前或之后”、“存在限定符”、“存在定界符”、“数值-值-阈”、“N元”、“标题词”、“上下文中时期”、“最近单匹配标签”和“基于数值的属性的值的对数”。15.根据权利要求14所述的方法,其中应用词袋特征生成方案包括:为在所述非结构化文本中所出现的每个唯一单词、短语或经规格化的文本生成文档特征;和基于所述单词、短语或经规格化的文本中的每一个分别在所述非结构化文本中所出现的次数来向所生成的文档特征分配特征值。16.根据权利要求14所述的方法,其中应用最远距离/最近距离特征生成方案包括:从与预定义事件属性集合相关联的多个预定义文本识别与所识别的属性之一邻近的文本;为所识别的邻近文本生成文档特征;和向所生成的文档特征分配特征值,所述特征值表示在所识别的邻近文本和所识别的属性之一之间的空间距离。17.根据权利要求14所述的方法,其中应用之前或之后特征生成方案包括:识别与所识别的属性之一邻近的文本;为所识别的邻近文本生成文档特征;如果所识别的邻近文本被包括在与预定义事件属性集合相关联的多个预定义文本中并且所识别的邻近文本在所述非结构化文本中出现在所识别的属性之后,则向所生成的文档特征分配第一特征值;如果所识别的邻近文本被包括在与预定义事件属性集合相关联的多个预定义文本中并且所识别的邻近文本在所述非结构化文本中出现在所识别的属性之前,则向所生成的文档特征分配第二特征值;和如果所识别的邻近文本没有被包括在与预定义事件属性集合相关联的多个预定义文本中,则向所生成的文档特征分配第三特征值。18.根据权利要求14所述的方法,其中应用存在限定符特征生成方案包括:识别被包括在所述非结构化文本中的限定符文本;为所识别的限定符文本生成文档特征;和向所生成的文档特征分配特征值,所述特征值表示所识别的限定符文本是否被包括在与预定义事件属性集合相关联的多个预定义限定符文本中。19.根据权利要求14所述的方法,其中应用存在定界符特征生成方案包括:识别被包括在所述非结构化文本中的定界符;为所识别的定界符生成文档特征;和向所生成的文档特征分配特征值,所述特征值表示所识别的定界符是否被包括在与预定义事件属性集合相关联的多个预定义定界符中。20.根据权利要求14所述的方法,其中应用数值-值-阈特征生成方案包括:识别被包括在所述非结构化文本中的数字事件属性;为所识别的数字事件属性生成文档特征;比较所述数字事件属性与预定义阈值;和基于所述比较向所生成的文档特征分配特征值。21.根据权利要求14所述的方法,其中应用N元特征生成方案包括:识别被包括在所述非结构化文本中的每个唯一N元;为每个所识别的N元生成文档特征;基于每个所识别的唯一N元在所述非结构化文本中所出现的频率来向所生成的文档特征分配特征值。22.根据权利要求14所述的方法,其中应用标题词特征生成方案包括:识别与所识别的属性之一邻近的文本;为所识别的邻近文本生成文档特征;和向所生成的文档特征分配特征值,所述特征值表示所识别的邻近文本是否被包括在与非结构化文本文档相关联的标题和与预定义事件属性集合相关联的多个预定义文本中。23.根据权利要求14所述的方法,其中应用上下文中时期特征生成方案包括:从非结构化文本文档的上下文识别依赖时期的属性,所述上下文由与非结构化文本文档相关联的标题或与非结构化文本文档相关联的元数据定义;为所述依赖时期的属性生成文档特征;和如果所述依赖时期的属性被包括在所述非结构化文本中,则向所生成的文档特征分配第一特征值。24.根据权利要求14所述的方法,其中应用最近单匹配标签特征生成方案包括:为在所述非结构化文本中最接近于所识别的属性的邻近文本生成文档特征;基于与所识别的属性最接近的邻近文本的数字索引来向所生成的文档特征分配第一特征值。25.根据权利要求14所述的方法,其中应用基于数值的属性的值的对数特征生成方案包括:识别被包括在所述非结构化文本中的数字事件属性;为所识别的数字事件属性生成文档特征;和基于所述数字事件属性的对数向所生成的文档特征分配特征值。26.根据权利要求1所述的方法,此外包括使用多个特征生成方案、各自包括至少一个候选事件的训练文档集合和预定义事件属性集合来训练所述多个分类器。27.根据权利要求26所述的方法,包括:通过加标签于被包括在每个训练文档中的多个信息来规格化训练文档集合的每个文档,多个标签信息与金融领域相关联并且多个标签信息中的每一个在每个训练文档之内被分配唯一识别符;从用户界面接收信号,所述信号指示多个标签信息中至少之一对应于预定义事件属性集合之一;和响应于接收信号,存储所述唯一识别符和对应的预定义事件属性作为对。28.根据权利要求27所述的方法,此外包括提供用户界面用于显示每个经规格化的文档和多个标签信息。29.根据权利要求27所述的方法,包括:比较被包括在所述对中的对应的事件属性与预定义事件属性集合中的每一个;和基于所述比较,确定所述对对于每个预定义事件属性是表示阳性示例还是阴性示例。30.根据权利要求29所述的方法,包括通过将多个特征生成方案应用于与至少一个候选事件邻近的至少一部分标签信息来为每个所确定的阳性示例和阴性示例生成至少一个文档特征,其中该部分标签信息具有用户可配置的文本大小。31.根据权利要求30所述的方法,其中为每个所确定的阳性示例和阴性示例生成至少一个文档特征包括将多个特征生成方案分别应用于阳性示例和阴性示例。32.根据权利要求31所述的方法,包括至少从方案的以下组中选择所述多个特征生成方案:“词袋”、“最远距离/最近距离”、“之前或之后”、“存在限定符”、“存在定界符”、“数值-值-阈”、“N元”、“标题词”、“上下文中时期”、“最近单匹配标签”和“基于数值的属性的值的对数”。33.根据权利要求32所述的方法,其中应用词袋特征生成方案包括:为在包括标签信息的一部分非结构化文本中所出现的每个唯一单词、短语或经规格化的文本生成文档特征;和基于所述单词、短语或经规格化的文本中的每一个分别在包括标签信息的该部分非结构化文本中所出现的次数来向所生成的文档特征分配特征值。34.根据权利要求32所述的方法,其中应用最远距离/最近距离特征生成方案包括:比较标签信息和与预定义事件属性集合相关联的多个预定义文本;基于所述比较为所述标签信息生成文档特征;和向所生成的文档特征分配特征值,所述特征值表示在所述标签信息和所述至少一个候选属性之间的空间距离。35.根据权利要求32所述的方法,其中应用之前或之后特征生成方案包括;比较标签信息和与预定义事件属性集合相关联的多个预定义文本;基于所述比较为所述标签信息生成文档特征;如果所述标签信息被包括在与预定义事件属性集合相关联的多个预定义文本中并且所述标签信息在所述非结构化文本中出现在至少一个候选属性之后,则向所生成的文档特征分配第一特征值;如果所述标签信息被包括在与预定义事件属性集合相关联的多个预定义文本中并且所述标签信息在所述非结构化文本中出现在所述至少一个候选属性之前则向所生成的文档特征分配第二特征值;和如果标签信息没有被包括在与所述预定义事件属性集合相关联的多个预定义文本中,则向所生成的文档特征分配第三特征值。36.根据权利要求32所述的方法,其中应用存在限定符特征生成方案包括:识别被包括在所述非结构化文本中的限定符文本;为所识别的限定符文本生成文档特征;和向所生成的文档特征分配特征值,所述特征值表示所识别的限定符文本是否被包括在与预定义事件属性集合相关联的多个预定义限定符文本中。37.根据权利要求32所述的方法,其中应用存在定界符特征生成方案包括:识别被包括在所述非结构化文本中的定界符;为所识别的定界符生成文档特征;和向所生成的文档特征分配特征值,所述特征值表示所识别的定界符是否被包括在与预定义事件属性集合相关联的多个预定义定界符中。38.根据权利要求32所述的方法,其中应用数值-值-阈特征生成方案包括:识别被包括在所述非结构化文本中的数字事件属性;为所识别的数字事件属性生成文档特征;比较数字事件属性与预定义阈值;和基于所述比较向所生成的文档特征分配特征值。39.根据权利要求32所述的方法,其中应用N元特征生成方案包括:识别被包括在所述非结构化文本中的每个唯一N元;为每个所识别的N元生成文档特征;基于每个所识别的唯一N元在所述非结构化文本中所出现的频率来向所生成的文档特征分配特征值。40.根据权利要求32所述的方法,其中应用标题词特征生成方案包括:为标签信息生成文档特征;和向所生成的文档特征分配特征值,所述特征值表示所述标签信息是否被包括在与非结构化文本文档相关联的标题中和被包括在与预定义事件属性集合相关联的多个预定义文本中。41.根据权利要求32所述的方法,其中应用上下文中时期特征生成方案包括:从非结构化文本文档的上下文识别依赖时期的属性,所述上下文由与非结构化文本文档相关联的标题和与非结构化文本文档相关联的元数据之一所定义;为所述依赖时期的属性生成文档特征;和如果所述依赖时期的属性被包括在所述非结构化文本中,则向所生成的文档特征分配第一特征值。42.根据权利要求32所述的方法,其中应用最近单匹配标签特征生成方案包括:为在所述非结构化文本中最接近于所述至少一个候选属性的标签信息生成文档特征;和基于与所述至少一个候选属性最接近的标签信息的数字索引来向所生成的文档特征分配第一特征值。43.根据权利要求32所述的方法,其中应用基于数值的属性的值的对数特征生成方案包括:识别被包括在所述非结构化文本中的数字事件属性;为所识别的数字事件属性生成文档特征;和基于所述数字事件属性的对数来向所生成的文档特征分配特征值。44.一种用于提取信息的系统,包括:包括处理器和存储器的服务器,所述存储器存储指令,所述指令响应于接收用于访问服务的第一请求,使处理器:识别被包括在非结构化文本文档中的事件的属性,每个所识别的属性类似于被包括在预定义事件属性集合中的至少一个事件属性;为每个所识别的属性生成文档特征;将多个分类器中至少之一应用于每个所生成的文档特征,之前使用预定义事件属性所训练的所述至少一个分类器对应于所识别的事件属性;使用概率估计模型从由所述至少一个分类器所生成的分类器评分来计算概率值,所述概率值指示所识别的事件属性对应于预定义事件属性集合之一的似然性;组合与所识别的属性相关联的多个所计算的概率值以生成分类评分;和至少部分基于所述分类评分,从非结构化文本文档将事件和所识别的属性提取成结构化格式。45.根据权利要求44所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器:将来自多个预定义规则的至少一个规则应用于每个所识别的属性;和基于所述至少一个规则,确定每个所识别的属性是否类似于被包括在预定义属性集合中的至少一个事件属性。46.根据权利要求44所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器:使用至少一个置信度模型向事件分配置信度评分;比较与事件相关联的置信度评分和与所训练的置信度模型相关联的置信度评分;和基于所述比较,以结构化格式从非结构化文本文档提取事件和所识别的属性。47.根据权利要求46所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器规格化非结构化文本文档。48.根据权利要求47所述的系统,其中所述存储器存储指令,所述指令响应于接收第一请求,使处理器:识别被包括在非结构化文本文档中的候选属性;关联唯一识别符与所述候选属性;比较所述候选属性与预定义事件属性集合中的每一个...

【专利技术属性】
技术研发人员:HH马利克VS巴瓦H菲奥尔勒塔A拉法特
申请(专利权)人:汤姆森路透社全球资源公司
类型:发明
国别省市:瑞士;CH

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1