提取命名实体的方法技术

技术编号：8133920 阅读：282 留言：0更新日期：2012-12-27 12:04

提出了一种从大规模文档文集中提取命名实体的方法。该方法包括识别文集中的命名实体，并利用一些现有资源人工或自动形成种子实体集合，构造命名实体图以发现任何给定命名实体对之间的相同类型概率，扩展所述种子实体集合，以及在所述命名实体图上执行种子实体的置信度传播。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
技术介绍
互联网的出现导致了像以前从来没有过的信息爆炸。每天有数千文档上载，网络已成为搜索信息的最喜欢的地方。命名实体(NE named entity)搜索是搜索正确信息的机制之一。命名实体通常是指词或词组，例如公司、人的名称、位置、时间、日期、数值等。命名实体搜索可以使查找相关信息的任务变得相对容易。不过，如果在互联网上进行搜索，假设搜索文档的文集(corpus )可能潜在地是数百万文档，搜索具有多个简单命名实体的复杂命名实体(例如词组)不是小任务。已经报告过用于命名实体提取的若干种方法。这些方法中的ー些利用机器学习技术来训练模型，以从高质量的新闻专线文本提取公共命名实体。它们集中于针对特定的典型NE类型使用统计模型，例如隐马尔可夫模型、规则学习和最大熵马尔可夫模型。这些研究从手工加标签的训练文集中学习模型或规则，因此模型和规则仅对类似的文集有效，而对于具有不同统计特性或不同流派或风格的其他文集表现不佳。由于针对每种特定NE类型的训练模型成本高昂，所以这些方法不能满足一般命名实体提取的需求。附图说明为了更好地理解本专利技术，现在将參考附图完全以举例的方式描述实施例...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种提取命名实体的计算机实施的方法，包括识别文档文集中的命名实体，并利用ー些现有资源人工或自动形成种子实体集合；构造命名实体图，以发现任何给定命名实体对之间的相同类型概率；扩展所述种子实体集合；以及在所述命名实体图上执行种子实体的置信度传播。2.根据权利要求I所述的方法，其中命名实体图中的每个节点都是命名实体，并且每条边反映了端节点(命名实体)与起始节点(命名实体)是相同类型的条件概率。3.根据权利要求I所述的方法，其中构造命名实体图包括为每个命名实体创建语言模型；确定每个给定命名实体对之间的条件概率，其中每个命名实体都具有其自己的语言模型；以及利用具有其对应条件概率的所有命名实体构造所述命名实体图。4.根据权利要求3所述的方法，其中确定每个给定命名实体对之间的条件概率基于其KL-距尚。5.根据权利要求3所述的方法，在图构造之前还包括如下步骤针对每个命名实体，确定所述命名实体和其余命名实体之间的边；以及针对所述命名实体和其余命名实体之间的每个边确定条件概率。6.根据权利要求5所述的方法，其中仅使用条件概率高于...

【专利技术属性】
技术研发人员：姚从磊，熊宇红，郑李炜，
申请(专利权)人：惠普发展公司，有限责任合伙企业，
类型：
国别省市：

全部详细技术资料下载我是这个专利的主人