提取命名实体的方法技术

技术编号:8133920 阅读:261 留言:0更新日期:2012-12-27 12:04
提出了一种从大规模文档文集中提取命名实体的方法。该方法包括识别文集中的命名实体,并利用一些现有资源人工或自动形成种子实体集合,构造命名实体图以发现任何给定命名实体对之间的相同类型概率,扩展所述种子实体集合,以及在所述命名实体图上执行种子实体的置信度传播。

【技术实现步骤摘要】
【国外来华专利技术】
技术介绍
互联网的出现导致了像以前从来没有过的信息爆炸。每天有数千文档上载,网络已成为搜索信息的最喜欢的地方。命名实体(NE named entity)搜索是搜索正确信息的机制之一。命名实体通常是指词或词组,例如公司、人的名称、位置、时间、日期、数值等。命名实体搜索可以使查找相关信息的任务变得相对容易。不过,如果在互联网上进行搜索,假设搜索文档的文集(corpus )可能潜在地是数百万文档,搜索具有多个简单命名实体的复杂命名实体(例如词组)不是小任务。已经报告过用于命名实体提取的若干种方法。这些方法中的ー些利用机器学习技术来训练模型,以从高质量的新闻专线文本提取公共命名实体。它们集中于针对特定的典型NE类型使用统计模型,例如隐马尔可夫模型、规则学习和最大熵马尔可夫模型。这些研究从手工加标签的训练文集中学习模型或规则,因此模型和规则仅对类似的文集有效,而 对于具有不同统计特性或不同流派或风格的其他文集表现不佳。由于针对每种特定NE类型的训练模型成本高昂,所以这些方法不能满足一般命名实体提取的需求。附图说明为了更好地理解本专利技术,现在将參考附图完全以举例的方式描述实施例,在附图中图I示出了根据实施例的命名实体提取的计算机实施的方法的流程图。图2示出了根据实施例的图I的方法的子例程的流程图。图3示出了根据实施例的命名实体图的示范性图解表示。图4示出了可以在其上实施实施例的计算机系统400的方框图。具体实施例方式在包括附图的整个文档中可互換地使用以下术语。(a) “节点”和“命名实体” (b) “文档”和“电子文档” 本专利技术的实施例提供了用于从文档或文档文集提取命名实体(NE)的方法、计算机可执行代码和计算机存储介质。本专利技术的实施例g在在低质量文集上执行命名实体的有效提取,并以最低成本提取任何类型的实体。所提出的方法适应文档的多祥性(例如在有组织的网页中),并且在大规模文集上提取大量命名实体是高效的。实施例从大规模文档文集有效地提取命名实体,在这种文档文集中,内容的冗余性不如网络规模的文集显著。图I示出了根据实施例的100的流程图。可以在计算机系统(或计算机可读介质)上执行方法100。该方法在步骤110中开始。在步骤110中,访问文档或文档文集,并且识别文档或文档文集中出现的命名实体(NE),利用一些现有资源可以从其人工或自动形成种子实体集ロ O文档文集可以是电子文档的集合,例如但不限于网页的集合。可以从诸如电子数据库之类的储存库(repository)获得文档。电子数据库可以是内部数据库,例如公司的内部网或外部数据库例如Wikipedia。而且,电子数据库可以存储在独立的个人计算机上或遍布在多个计算机器上,利用有线或无线技术联网在一起。例如,电子数据库可以被托管(host)在通过广域网(WAN)或互联网而连接的多个服务器上。在实施例中,识别文集(例如内部网中的网页)中出现的所有可能的命名实体而不考虑其类型。该步骤识别简单和复杂的命名实体这二者。作为例示,可以识别简单实体,例如人名(“Jack Sparrow)和位置(“曼谷”)。也可以识别复杂命名实体,例如产品名称(“Compaq Presario 3434 with HP Printer 4565,,)和项目名称(“Entity ExtractionProject in ABC Department”),而不论其类型如何。在实施例中,可以使用一种基于排列(collocation)的方法(例如,D. Downey等人 在 Proc. of IJCAI, 2007 中的“Locating complex named entities in web text”所述的方法)来识别命名实体。不过,本实施例使用不同的方法判断命名实体的边界。它使用具有数字的项目(term)作为命名实体边界的标识符,并使用预定义的阈值来选择对称条件概率(SCP)高于阈值的候选者作为命名实体。在步骤120中,构造命名实体图以发现以上步骤110中识别的任何给定命名实体对之间的相同类型概率。在构造命名实体图以发现任何给定命名实体对之间的相同类型概率中涉及的方法步骤包括若干子步骤,如图2中所示。在实施例中,使用基于语言模型的图构造方法和基于simhash的方法来计算两个命名实体之间的条件概率并构造命名实体图,其对文档文集(例如,组织的网页)中命名实体之间的相同类型信息进行编码。下文描述这两种模型。基于语言模型的图构造 如所周知,图一般是点的集合,其中ー些点由链路(link)连接。点被称为顶点(或节点),并且连接一些顶点对的链路被称为边。边可以是有方向或无方向的。图构造时的主要问题之ー是计算每条边的权重,其对端节点与起始节点是相同类型的条件概率进行编码。在实施例中,提出了一种三阶段方法以计算边的权重并构造命名实体图(a)为每个命名实体(节点)创建语言模型,(b)基于KL-距离(KL-Divergence)计算条件概率,(c)利用所有命名实体来构造图。在第一阶段中,为每个命名实体创建语言模型(122)。这是通过针对每个命名实体检索包含该命名实体的文档来实现的。然后将检索到的文档与排名前列的文档中的围绕命名实体的片断组合成虚拟文档。为了例示,取命名实体“Jack Sparrow^还假设文档文集中对“Jack Sparrow”的实体搜索获得几百个文档。在本实施例中,所提出的方法将排名前列的文档中的围绕命名实体(“Jack Sparrow”)的片断组合成虚拟文档。排名前列的文档可能标题为例如“Pirate”、“Pirates of The Caribbean”、“Johnny Depp” 等。而且,该片断可以是“胶片”、“电影”、“演员”、“好莱坞”等。所创建的虚拟文档反映了其中命名实体出现在的片段的多祥性,并且捕获了片段中的命名实体的语境的主要特征。因此,虚拟页集合充当用于为每个命名实体构造语言模型的良好集合。在实施例中,利用Dirichlet平滑法构造语言模型。在第二阶段中,计算(124)每个给定命名实体对之间的条件概率。在实施例中,给定ー对实体 ' 和 ',假设 ' 和乃的语言模型分别是Li和Lj,基于其KL-距离D (Lj I Li),条件概率可以被计算为本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种提取命名实体的计算机实施的方法,包括 识别文档文集中的命名实体,并利用ー些现有资源人工或自动形成种子实体集合; 构造命名实体图,以发现任何给定命名实体对之间的相同类型概率; 扩展所述种子实体集合;以及 在所述命名实体图上执行种子实体的置信度传播。2.根据权利要求I所述的方法,其中命名实体图中的每个节点都是命名实体,并且每条边反映了端节点(命名实体)与起始节点(命名实体)是相同类型的条件概率。3.根据权利要求I所述的方法,其中构造命名实体图包括 为每个命名实体创建语言模型; 确定每个给定命名实体对之间的条件概率,其中每个命名实体都具有其自己的语言模型;以及 利用具有其对应条件概率的所有命名实体构造所述命名实体图。4.根据权利要求3所述的方法,其中确定每个给定命名实体对之间的条件概率基于其KL-距尚。5.根据权利要求3所述的方法,在图构造之前还包括如下步骤 针对每个命名实体,确定所述命名实体和其余命名实体之间的边;以及 针对所述命名实体和其余命名实体之间的每个边确定条件概率。6.根据权利要求5所述的方法,其中仅使用条件概率高于...

【专利技术属性】
技术研发人员:姚从磊熊宇红郑李炜
申请(专利权)人:惠普发展公司有限责任合伙企业
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1