从文档表示信息制造技术

技术编号：10497160 阅读：159 留言：0更新日期：2014-10-04 14:36

本发明专利技术公开了用于将被包括在非结构化文本文档中的信息表示成结构化格式的系统和技术。所述系统和技术在非结构化文档中识别事件和与事件相关联的信息、将所识别的事件和信息分类、并且基于所计算的分类评分而以结构化格式来表示所识别的事件和信息。所述系统和技术也可以向所识别的事件分配置信度评分、比较与事件相关联的置信度评分和与所训练的置信度模型相关联的置信度评分并且基于所述比较而以结构化格式来表示所识别的事件和与事件相关联的信息。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】从文档表示信息
本公开涉及从非结构化信息表示信息，并且更具体地涉及用于自动以结构化格式而从非结构化文档表示信息的系统和方法。
技术介绍
现今有主要地以被包括在文档中的非结构化文本数据的形式的越来越多的信息量，其与投资者的决策过程有关。当该信息是大量的时，投资者所需要用以识别术语和领会被包括在这些文档中的语义的努力可能是辛苦的。尽管文档的电子存储已经简化了浏览多重和大文档的过程，浏览大量文本以理解和快速定位感兴趣的信息仍然是困难和耗时的。例如，企业新闻发布通常在非结构化（例如自由形式）文本中连同附加信息一起识别企业金融事件，诸如红利、每股收益、管理和所有制结构等等。解析该信息以识别感兴趣的项目是耗时的过程。此外，虽然大多数文字处理工具确实提供用于在文档中搜索单独项目的机制，但是这些工具中没有一个提供伴随感兴趣的项目的补充信息。因此，有用于从非结构化数据提供信息的改进的系统和技术的需要，所述信息诸如事实和事件。
技术实现思路
公开了用于以结构化格式来表示被包括在非结构化文本文档中的信息的系统和技术。所述系统和技术在非结构化文档中识别事件和与事件相关联的信息、将所识别的事件和信息分类、并且基于所计算的分类评分而以结构化格式来表示所识别的事件和信息。所述系统和技术也可以向所识别的事件分配置信度评分、比较与事件相关联的置信度评分和与所训练的置信度模型相关联的置信度评分并且基于所述比较而以结构化格式来表示所识别的事件和与事件相关联的信息。所述系统和技术的各种方面涉及计算概率值和组合概率值以生成分类评分。例如，根据一个方面，方法包括识别被包括在非结构化文本文档中的事件的属性...
从文档表示信息

【技术保护点】
一种方法，包括：识别被包括在非结构化文本文档中的事件的属性，每个所识别的属性类似于被包括在预定义事件属性集合中的至少一个事件属性；为每个所识别的属性生成文档特征；将多个分类器中至少之一应用于每个所生成的文档特征，之前使用预定义事件属性所训练的所述至少一个分类器对应于所识别的事件属性；使用概率估计模型从由所述至少一个分类器所生成的分类器评分来计算概率值，所述概率值指示所识别的事件属性对应于预定义事件属性集合之一的似然性；组合与所识别的属性相关联的多个所计算的概率值，以生成分类评分；和至少部分基于所述分类评分而从非结构化文本文档将事件和所识别的属性表示成结构化格式。

【技术特征摘要】
【国外来华专利技术】2011.04.29 US 13/0976191.一种用于表示信息的方法，包括：识别被包括在非结构化文本文档中的事件的属性，每个所识别的属性类似于被包括在预定义事件属性集合中的至少一个事件属性；为每个所识别的属性生成文档特征；将多个分类器中至少之一应用于每个所生成的文档特征，之前使用预定义事件属性所训练的所述至少一个分类器对应于所识别的事件属性；使用概率估计模型从由所述至少一个分类器所生成的分类器评分来计算概率值，所述概率值指示所识别的事件属性对应于预定义事件属性集合之一的似然性；组合与所识别的属性相关联的多个所计算的概率值，以生成分类评分；和至少部分基于所述分类评分而从非结构化文本文档将事件和所识别的属性表示成结构化格式。2.根据权利要求1所述的方法，此外包括：将来自多个预定义规则的至少一个规则应用于每个所识别的属性；和基于所述至少一个规则来确定每个所识别的属性是否类似于被包括在预定义属性集合中的至少一个事件属性。3.根据权利要求1所述的方法，此外包括：使用至少一个置信度模型来向事件分配置信度评分；比较与事件相关联的置信度评分和与所训练的置信度模型相关联的置信度评分；和基于所述比较以结构化格式从非结构化文本文档表示事件和所识别的属性。4.根据权利要求3所述的方法，其中识别事件的属性包括规格化非结构化文本文档。5.根据权利要求4所述的方法，其中规格化非结构化文本文档包括：识别被包括在非结构化文本文档中的候选属性；将唯一识别符与候选属性相关联；比较所述候选属性与预定义事件属性中的每一个；和基于所述比较来存储所述预定义事件属性中至少之一、所述候选属性和所述唯一识别符。6.根据权利要求5所述的方法，其中所述候选属性是关键词、字母序列、数字和字符之一，所述候选属性是在金融领域中所定义的。7.根据权利要求3所述的方法，此外包括：识别邻近和包括事件的一部分非结构化文本，该部分非结构化文本具有用户可配置的文本大小；通过对从该部分非结构化文本所得到的所有N元计数求平均值来计算与事件相关联的置信度评分；比较所计算的与事件相关联的置信度评分和与被包括在预定义事件属性集合中的至少一个事件属性相关联的在先估计平均值；和基于所述比较向事件分配置信度评分。8.根据权利要求7所述的方法，此外包括如果置信度评分超过阈值，则确定被包括在该部分非结构化文本中的候选属性是否很可能要由在非结构化文本的第一语料库上所训练的模型M识别，非结构化文本的所述第一语料库是被确定为对于事件属性是真阳性的一部分非结构化文本。9.根据权利要求8所述的方法，其中由在非结构化文本的第一语料库上所训练的模型M识别所述候选属性的似然性通过以下公式计算：其中是在非结构化文本的第一语料库上所训练的模型M生成n元n的概率并且通过以下公式计算：其中S()是计算出0出现n元的古德图灵平滑函数。10.根据权利要求9所述的方法，其中如果所计算的候选属性似然性小于与在非结构化文本的第一语料库上所训练的模型相关联的阈概率值，则使所计算的置信度评分的值变小。11.根据权利要求9所述的方法，此外包括：将二进制分类器应用于该部分非结构化文本；如果所述二进制分类器将该部分非结构化文本分类为对于事件属性是阳性的，则为候选属性增大所计算的置信度评分；和如果所述二进制分类器将该部分非结构化文本分类为对于事件属性是阴性的，则为候选属性减小所计算的置信度评分。12.根据权利要求1所述的方法，其中概率估计模型使用保序回归或概率估计方式并且所生成的分类评分是多个所计算的概率值的加权线性组合。13.根据权利要求1所述的方法，其中为每个所识别的属性生成文档特征包括将多个特征生成方案应用于所识别的属性。14.根据权利要求13所述的方法，包括至少从方案的以下组中选择所述多个特征生成方案：“词袋”、“最远距离/最近距离”、“之前或之后”、“存在限定符”、“存在定界符”、“数值-值-阈”、“N元”、“标题词”、“上下文中时期”、“最近单匹配标签”和“基于数值的属性的值的对数”。15.根据权利要求14所述的方法，其中应用词袋特征生成方案包括：为在所述非结构化文本中所出现的每个唯一单词、短语或经规格化的文本生成文档特征；和基于所述单词、短语或经规格化的文本中的每一个分别在所述非结构化文本中所出现的次数来向所生成的文档特征分配特征值。16.根据权利要求14所述的方法，其中应用最远距离/最近距离特征生成方案包括：从与预定义事件属性集合相关联的多个预定义文本识别与所识别的属性之一邻近的文本；为所识别的邻近文本生成文档特征；和向所生成的文档特征分配特征值，所述特征值表示在所识别的邻近文本和所识别的属性之一之间的空间距离。17.根据权利要求14所述的方法，其中应用之前或之后特征生成方案包括：识别与所识别的属性之一邻近的文本；为所识别的邻近文本生成文档特征；如果所识别的邻近文本被包括在与预定义事件属性集合相关联的多个预定义文本中并且所识别的邻近文本在所述非结构化文本中出现在所识别的属性之后，则向所生成的文档特征分配第一特征值；如果所识别的邻近文本被包括在与预定义事件属性集合相关联的多个预定义文本中并且所识别的邻近文本在所述非结构化文本中出现在所识别的属性之前，则向所生成的文档特征分配第二特征值；和如果所识别的邻近文本没有被包括在与预定义事件属性集合相关联的多个预定义文本中，则向所生成的文档特征分配第三特征值。18.根据权利要求14所述的方法，其中应用存在限定符特征生成方案包括：识别被包括在所述非结构化文本中的限定符文本；为所识别的限定符文本生成文档特征；和向所生成的文档特征分配特征值，所述特征值表示所识别的限定符文本是否被包括在与预定义事件属性集合相关联的多个预定义限定符文本中。19.根据权利要求14所述的方法，其中应用存在定界符特征生成方案包括：识别被包括在所述非结构化文本中的定界符；为所识别的定界符生成文档特征；和向所生成的文档特征分配特征值，所述特征值表示所识别的定界符是否被包括在与预定义事件属性集合相关联的多个预定义定界符中。20.根据权利要求14所述的方法，其中应用数值-值-阈特征生成方案包括：识别被包括在所述非结构化文本中的数字事件属性；为所识别的数字事件属性生成文档特征；比较所述数字事件属性与预定义阈值；和基于所述比较向所生成的文档特征分配特征值。21.根据权利要求14所述的方法，其中应用N元特征生成方案包括：识别被包括在所述非结构化文本中的每个唯一N元；为每个所识别的N元生成文档特征；基于每个所识别的唯一N元在所述非结构化文本中所出现的频率来向所生成的文档特征分配特征值。22.根据权利要求14所述的方法，其中应用标题词特征生成方案包括：识别与所识别的属性之一邻近的文本；为所识别的邻近文本生成文档特征；和向所生成的文档特征分配特征值，所述特征值表示所识别的邻近文本是否被包括在与非结构化文本文档相关联的标题和与预定义事件属性集合相关联的多个预定义文本中。23.根据权利要求14所述的方法，其中应用上下文中时期特征生成方案包括：从非结构化文本文档的上下文识别依赖时期的属性，所述上下文由与非结构化文本文档相关联的标题或与非结构化文本文档相关联的元数据定义；为所述依赖时期的属性生成文档特征；和如果所述依赖时期的属性被包括在所述非结构化文本中，则向所生成的文档特征分配第一特征值。24.根据权利要求14所述的方法，其中应用最近单匹配标签特征生成方案包括：为在所述非结构化文本中最接近于所识别的属性的邻近文本生成文档特征；基于与所识别的属性最接近的邻近文本的数字索引来向所生成的文档特征分配第一特征值。25.根据权利要求14所述的方法，其中应用基于数值的属性的值的对数特征生成方案包括：识别被包括在所述非结构化文本中的数字事件属性；为所识别的数字事件属性生成文档特征；和基于所述数字事件属性的对数向所生成的文档特征分配特征值。26.根据权利要求1所述的方法，此外包括使用多个特征生成方案、各自包括至少一个候选事件的训练文档集合和预定义事件属性集合来训练所述多个分类器。27.根据权利要求26所述的方法，包括：通过加标签于被包括在每个训练文档中的多个信息来规格化训练文档集合的每个文档，多个标签信息与金融领域相关联并且多个标签信息中的每一个在每个训练文档之内被分配唯一识别符；从用户界面接收信号，所述信号指示多个标签信息中至少之一对应于预定义事件属性集合之一；和响应于接收信号，存储所述唯一识别符和对应的预定义事件属性作为对。28.根据权利要求27所述的方法，此外包括提供用户界面用于显示每个经规格化的文档和多个标签信息。29.根据权利要求27所述的方法，包括：比较被包括在所述对中的对应的事件属性与预定义事件属性集合中的每一个；和基于所述比较，确定所述对对于每个预定义事件属性是表示阳性示例还是阴性示例。30.根据权利要求29所述的方法，包括通过将多个特征生成方案应用于与至少一个候选事件邻近的至少一部分标签信息来为每个所确定的阳性示例和阴性示例生成至少一个文档特征，其中该部分标签信息具有用户可配置的文本大小。31.根据权利要求30所述的方法，其中为每个所确定的阳性示例和阴性示例生成至少一个文档特征包括将多个特征生成方案分别应用于阳性示例和阴性示例。32.根据权利要求31所述的方法，包括至少从方案的以下组中选择所述多个特征生成方案：“词袋”、“最远距离/最近距离”、“之前或之后”、“存在限定符”、“存在定界符”、“数值-值-阈”、“N元”、“标题词”、“上下文中时期”、“最近单匹配标签”和“基于数值的属性的值的对数”。33.根据权利要求32所述的方法，其中应用词袋特征生成方案包括：为在包括标签信息的一部分非结构化文本中所出现的每个唯一单词、短语或经规格化的文本生成文档特征；和基于所述单词、短语或经规格化的文本中的每一个分别在包括标签信息的该部分非结构化文本中所出现的次数来向所生成的文档特征分配特征值。34.根据权利要求32所述的方法，其中应用最远距离/最近距离特征生成方案包括：比较标签信息和与预定义事件属性集合相关联的多个预定义文本；基于所述比较为所述标签信息生成文档特征；和向所生成的文档特征分配特征值，所述特征值表示在所述标签信息和所述至少一个候选属性之间的空间距离。35.根据权利要求32所述的方法，其中应用之前或之后特征生成方案包括;比较标签信息和与预定义事件属性集合相关联的多个预定义文本；基于所述比较为所述标签信息生成文档特征；如果所述标签信息被包括在与预定义事件属性集合相关联的多个预定义文本中并且所述标签信息在所述非结构化文本中出现在至少一个候选属性之后，则向所生成的文档特征分配第一特征值；如果所述标签信息被包括在与预定义事件属性集合相关联的多个预定义文本中并且所述标签信息在所述非结构化文本中出现在所述至少一个候选属性之前则向所生成的文档特征分配第二特征值；和如果标签信息没有被包括在与所述预定义事件属性集合相关联的多个预定义文本中，则向所生成的文档特征分配第三特征值。36.根据权利要求32所述的方法，其中应用存在限定符特征生成方案包括：识别被包括在所述非结构化文本中的限定符文本；为所识别的限定符文本生成文档特征；和向所生成的文档特征分配特征值，所述特征值表示所识别的限定符文本是否被包括在与预定义事件属性集合相关联的多个预定义限定符文本中。37.根据权利要求32所述的方法，其中应用存在定界符特征生成方案包括：识别被包括在所述非结构化文本中的定界符；为所识别的定界符生成文档特征；和向所生成的文档特征分配特征值，所述特征值表示所识别的定界符是否被包括在与预定义事件属性集合相关联的多个预定义定界符中。38.根据权利要求32所述的方法，其中应用数值-值-阈特征生成方案包括：识别被包括在所述非结构化文本中的数字事件属性；为所识别的数字事件属性生成文档特征；比较数字事件属性与预定义阈值；和基于所述比较向所生成的文档特征分配特征值。39.根据权利要求32所述的方法，其中应用N元特征生成方案包括：识别被包括在所述非结构化文本中的每个唯一N元；为每个所识别的N元生成文档特征；基于每个所识别的唯一N元在所述非结构化文本中所出现的频率来向所生成的文档特征分配特征值。40.根据权利要求32所述的方法，其中应用标题词特征生成方案包括：为标签信息生成文档特征；和向所生成的文档特征分配特征值，所述特征值表示所述标签信息是否被包括在与非结构化文本文档相关联的标题中和被包括在与预定义事件属性集合相关联的多个预定义文本中。41.根据权利要求32所述的方法，其中应用上下文中时期特征生成方案包括：从非结构化文本文档的上下文识别依赖时期的属性，所述上下文由与非结构化文本文档相关联的标题和与非结构化文本文档相关联的元数据之一所定义；为所述依赖时期的属性生成文档特征；和如果所述依赖时期的属性被包括在所述非结构化文本中，则向所生成的文档特征分配第一特征值。42.根据权利要求32所述的方法，其中应用最近单匹配标签特征生成方案包括：为在所述非结构化文本中最接近于所述至少一个候选属性的标签信息生成文档特征；和基于与所述至少一个候选属性最接近的标签信息的数字索引来向所生成的文档特征分配第一特征值。43.根据权利要求32所述的方法，其中应用基于数值的属性的值的对数特征生成方案包括：识别被包括在所述非结构化文本中的数字事件属性；为所识别的数字事件属性生成文档特征；和基于所述数字事件属性的对数来向所生成的文档特征分配特征值。44.一种用于提取信息的系统，包括：包括处理器和存储器的服务器，所述存储器存储指令，所述指令响应于接收用于访问服务的第一请求，使处理器：识别被包括在非结构化文本文档中的事件的属性，每个所识别的属性类似于被包括在预定义事件属性集合中的至少一个事件属性；为每个所识别的属性生成文档特征；将多个分类器中至少之一应用于每个所生成的文档特征，之前使用预定义事件属性所训练的所述至少一个分类器对应于所识别的事件属性；使用概率估计模型从由所述至少一个分类器所生成的分类器评分来计算概率值，所述概率值指示所识别的事件属性对应于预定义事件属性集合之一的似然性；组合与所识别的属性相关联的多个所计算的概率值以生成分类评分；和至少部分基于所述分类评分，从非结构化文本文档将事件和所识别的属性提取成结构化格式。45.根据权利要求44所述的系统，其中所述存储器存储指令，所述指令响应于接收第一请求，使处理器：将来自多个预定义规则的至少一个规则应用于每个所识别的属性；和基于所述至少一个规则，确定每个所识别的属性是否类似于被包括在预定义属性集合中的至少一个事件属性。46.根据权利要求44所述的系统，其中所述存储器存储指令，所述指令响应于接收第一请求，使处理器：使用至少一个置信度模型向事件分配置信度评分；比较与事件相关联的置信度评分和与所训练的置信度模型相关联的置信度评分；和基于所述比较，以结构化格式从非结构化文本文档提取事件和所识别的属性。47.根据权利要求46所述的系统，其中所述存储器存储指令，所述指令响应于接收第一请求，使处理器规格化非结构化文本文档。48.根据权利要求47所述的系统，其中所述存储器存储指令，所述指令响应于接收第一请求，使处理器：识别被包括在非结构化文本文档中的候选属性；关联唯一识别符与所述候选属性；比较所述候选属性与预定义事件属性集合中的每一个...

【专利技术属性】
技术研发人员：HH马利克，VS巴瓦，H菲奥尔勒塔，A拉法特，
申请(专利权)人：汤姆森路透社全球资源公司，
类型：发明
国别省市：瑞士;CH

全部详细技术资料下载我是这个专利的主人