远程监督关系提取器制造技术

技术编号:16048962 阅读:19 留言:0更新日期:2017-08-20 08:40
提供了一种自动关系提取。使用从大型未标记的数据集建立的统计实体类型预测和关系预测模型的机器学习方法与最小人类介入和基于轻模式的方法交互式地被组合,以从非结构化、半结构化和结构化文档提取关系。通过将针对来自现有事实数据库的已知实体的真相与描述已知实体的文档中的文本相匹配来从未标记的文档的集合收集训练数据,并且针对一个或多个关系类型建立对应的模型。对于建模的关系类型而言,在文档中找到感兴趣的文本数据块。机器学习分类器预测文本数据块之一是正被寻找的实体的概率。组合的机器学习和基于轻模式的方法通过过滤提供经改进的召回率和高精度并且允许所提取的关系的约束和归一化。

【技术实现步骤摘要】
【国外来华专利技术】远程监督关系提取器
技术介绍
填充描述实体与实体的属性之间的关系的事实数据库通常要求聚集以高水平的精度聚集很多信息。手动地填充大型事实数据库是耗时的、昂贵的并且常常不切实际的。由于在没有人类监督的情况下使用不一致的语言、单元和格式从变化的结构化、半结构化和非结构化信息源以必要的精度提取数据中的困难,因而自动地填充事实数据库也可以是耗时的。常规自动事实提取技术包括模式匹配和自然语言处理。模式匹配通常地使用手工制作和硬编码的正则表达式和/或特定规则,其依赖于以相同顺序使用相同词语被表达的信息。在没有综合模式集的情况下,关系的许多表达可能被错失。添加更多模式可以降低错失的表达的数目,而且可能导致收集无关的数据。最终,虽然仔细的模式匹配可能改进,但是创建模式是耗时的、昂贵的并且不可扩展的。使用统计模型的自然语言处理不由特定模式限制,但是建立好的模型要求许多适当地注释的训练数据。手动地注释大型数据集以建立高精度模型是耗时的并且昂贵的。相反,使用更小的数据集或者更少的监督降低时间和成本,而且增加错失正确关系或者收集不正确关系的可能性。待解决的技术问题涉及在最小人类介入和高精度的情况下自动地找到非结构化数据中的关系。关于这些和其他考虑,已经做出本专利技术。虽然已经讨论了相对特定的问题,但是应当理解,本文所公开的方面不应当限于解决
技术介绍
中所标识的特定问题。
技术实现思路
提供该概述以引入以在详细描述章节中下文进一步描述的简化形式的概念的选择。该概述不旨在标识所要求保护的主题的关键特征或基本特征,其也不旨在用作辅助确定所要求保护的主题的范围。关系提取器的方面包括将在最小人类介入的情况下使用根据大型未标记的数据集建立的统计实体类型预测和关系预测模型的机器学习方法和基于轻模式的方法交互式地组合,以从非结构化、半结构化和结构化文档提取关系。关系提取器通过将针对来自现有事实数据库的已知实体的真相与描述已知实体的文档中的文本相匹配来从未标记的文档的集合收集训练数据,并且建立针对一个或多个关系类型的对应的模型。对于建模的关系类型而言,关系提取器找到文档中的感兴趣的文本数据块。机器学习分类器预测文本数据块之一是正被寻找的实体的概率。组合的机器学习和基于轻模式的方法通过过滤提供经改进的查全率和高精度并且允许所提取的关系的约束和归一化。关系提取器包括文档解析器、自然语言处理器和一个或多个二元分类器。可选的页面类型分类器分析文档并且确定针对每个文档的页面类型。页面类型可以被用于确定文档是否描述具有主题类型的主题匹配与正被搜索的关系类型兼容的主题类型。文档解析器读取文档的本地格式并且从文档提取文本以用于处理。文档的内容可以是结构化或非结构化的数据。自然语言处理器提供用于检测参与在文档中正被搜索的所选择的关系类型的所选择的对象类型的对象的提及的逻辑。一旦提及被检测到,自然语言处理器就提取与提及相关联的特征。所提取的特征可以被编译为作为输入被供应到二元分类器的特征向量。对于自动地训练预测模型而言,自动标记器使用从现有事实数据库所收集的已知事实来将提及特征标记为肯定训练示例或否定训练示例,并且建立大型训练数据集。训练数据中的一些或全部被馈送到二元分类器中以建立一个或多个预测模型,其可以包括关系预测模型和实体预测模型。使用初始预测模型做出的预测经由用户接口被呈现给用户以用于验证。该用户验证使用初始预测模型做出的少量的预测是正确还是不正确的。基于从用户接收到的输入,预测模型被重新训练以产生在运行时期间所使用的最终预测模型来处理所选择的文档(包括具有一个或多个未知关系的文档)。该用户还可以指定被用于建立基于模式的模型的一个或多个规则以自定义关系提取。附图说明本公开的进一步的特征、方面和优点将通过参考以下附图变得更好理解,其中元素不按比例以便更清楚地示出细节,并且其中相同参考数字贯穿数个视图指代相同元素:图1是图示关系提取器的方面的系统图;图2是图示用于以高精度从非结构化文本提取关系的方法的方面的高层流程图;图3图示了在数据提取操作期间所生成的视图和模板的方面;图4是图示适于实践本专利技术的方面的计算设备的物理部件的框图;图5A图示了适于实践本专利技术的方面的移动计算设备;图5B是图示适于实践本专利技术的方面的移动计算设备的架构的框图;以及图6是利用其可以实践本专利技术的方面的分布式计算系统的简化框图。具体实施方式下面参考形成本专利技术的一部分并且示出本专利技术的特定示例性方面的附图更完全地描述本专利技术的方面。然而,本专利技术可以以许多不同的形式被实现并且不应当被解释为限于本文所阐述的方面;相反,提供这些方面使得本公开将是彻底并且完整的,并且将方面的范围完全地传达给本领域的技术人员。方面可以被实践为方法、系统或者设备。因此,可以使用硬件、软件或者硬件和软件的组合实践实施方式。因此,以下详细描述将不以限制性意义理解。在本文中描述并且在附图中图示了关系提取器的方面和伴随的方法。关系提取器将在最小人类介入的情况下使用根据大型未标记的数据集建立的统计实体类型预测和关系预测模型的机器学习方法和基于轻模式的方法交互式地组合,以从非结构化、半结构化和结构化文档提取关系。该关系提取器通过将针对来自现有事实数据库的已知实体的真相与描述已知实体的文档中的文本相匹配来从未标记的文档的集合收集训练数据,并且建立针对一个或多个关系类型的对应的模型。对于建模的关系类型而言,关系提取器找到文档中的感兴趣的文本数据块。机器学习分类器预测文本数据块之一是正被寻找的实体的可能性。组合的机器学习方法和基于轻模式的方法通过过滤提供经改进的查全率和高精度并且允许所提取的关系的约束和归一化。图1是图示关系提取器的方面的系统图。该关系提取器100包括文档解析器102、自然语言处理器104和一个或多个二元分类器106。该文档解析器102读取文档108的本地格式并且从文档108提取文本以用于处理。该文档的内容可以是结构化或非结构化数据。如本文所使用的,非结构化数据宽泛地涵盖自由文本和半结构化文本(诸如信息框、表和列表)。关系提取器100可以收集文档并且将他们存储为快照以用于处理或者可以收集实况文档以用于处理。文档108可以被存储在文档存储库110中作为文档集合112的一部分。文档是包含计算机可读格式的关系信息的任何电子文件(即,计算机可读文本)。文档的示例包括但不限于网页、文本文件和字处理文件。该文档可以使用标记语言(诸如但不限于超文本标记语言(HTML)或者可扩展标记语言(XML))被格式化。文档可以是文档的静态或者动态集合的一部分。文档集合的示例包括但不限于在线百科全书(例如,维基百科)、新闻资源和文章储存库。针对HTML文档的适合的文档解析器的一个示例是但不限于HtmlAgilityPack。自然语言处理器104提供用于检测参与在文档中正被搜索的所选择的关系类型的所选择的对象类型的对象的提及的逻辑。关系涵盖语义地链接主题和对象的主题、对象和预测。关系类型指代主题与对象之间的语义链接的描述或者分类。该主题可以是实体,并且对象可以是实体或者属性。实体宽泛地涵盖可以与其他实体区分的任何对象或者事件。为了简单起见,属性指代描述实体的特定特性或者特点(例如,年龄或者出生日期)的值。实体和属性可以由对应的类型分类。实体类型包括但不限于人本文档来自技高网...
远程监督关系提取器

【技术保护点】
一种用于从非结构化文本自动地提取关系的方法,所述方法包括:选择描述在具有实体类型的主题与具有对象类型的对象之间的关系的关系类型;在所选文档中定位对所述对象类型的提及;对于在所述所选文档中被定位的每个提及,使用统计模型预测所述提及满足所述关系类型的概率,所述统计模型使用自动标记的训练数据被建立;以及从所述所选文档提取满足所述关系类型的一个或多个关系。

【技术特征摘要】
【国外来华专利技术】2014.10.02 US 14/504,5071.一种用于从非结构化文本自动地提取关系的方法,所述方法包括:选择描述在具有实体类型的主题与具有对象类型的对象之间的关系的关系类型;在所选文档中定位对所述对象类型的提及;对于在所述所选文档中被定位的每个提及,使用统计模型预测所述提及满足所述关系类型的概率,所述统计模型使用自动标记的训练数据被建立;以及从所述所选文档提取满足所述关系类型的一个或多个关系。2.根据权利要求1所述的方法,还包括以下动作:聚集提取到的所述关系;以及将基于模式的模型应用到所聚集的所述关系。3.根据权利要求1所述的方法,还包括以下动作:计算针对每个提及的一个或多个特征;以及将所述特征提供为所述统计预测的输入。4.根据权利要求1所述的方法,还包括以下动作:基于所述概率与关联于所述关系类型的阈值的比较,确定每个提及是否满足所述关系类型。5.根据权利要求1所述的方法,还包括以下动作:基于所述提及的特征,使所述选择阈值变化。6.根据权利要求1所述的方法,还包括以下动作:基于所述概率与关联于所述关系类型的阈值的比较,确定每个提及是否满足所述关系类型。7.根据权利要求1所述的方法,还包括以下动作:从文档集合取得文档的快照;以及从所述快照选择所述文档以用于处理。8.根据权利要求1所述的方法,还包括以下动作:利用使用来自知识图的现有事实自动标记的大量训练数据来训练统计模型。9.根据权利要求8所述的方法,其中利用使用来自知识图的现有事实自动标记的大量训练数据来训练统计模型的动作包括以下动作:收集使用来自知识图的现有事实自动标记的大量训练数据。10.根据权利要求9所述的方法,其中收集使用来自知识图的现有事实自动标记的大量训练数据的动作还包括以下动作:从知识图选择现有事实,每个现有事实指定具有实体类型的事实主题、具有对象类型的事实对象以及参与事实关系的事实预测;定位描述每个现有事实的所述主题的文档;检测具有与所述事实对象的所述对象类型匹配的对象类型的提及;以及基于每个提及与所述事实对象的比较来将训练数据自动地标记为肯定或者否定。11.根据权利要求10所述的方法,其中基于每个提及与所述事实对象的比较来将训练数据自动地标记为肯定或者否定的动作还包括以下动作:将所述事实对象与每个提及相比较;使用与所述事实对象不匹配的提及来提供否定训练数据;以及使用...

【专利技术属性】
技术研发人员:A·夏尔马张见闻S·阿罗尼超柳元沇汪瑜婧
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1