【技术实现步骤摘要】
【国外来华专利技术】
技术介绍
互联网的出现导致了像以前从来没有过的信息爆炸。每天有数千文档上载,网络已成为搜索信息的最喜欢的地方。命名实体(NE named entity)搜索是搜索正确信息的机制之一。命名实体通常是指词或词组,例如公司、人的名称、位置、时间、日期、数值等。命名实体搜索可以使查找相关信息的任务变得相对容易。不过,如果在互联网上进行搜索,假设搜索文档的文集(corpus )可能潜在地是数百万文档,搜索具有多个简单命名实体的复杂命名实体(例如词组)不是小任务。已经报告过用于命名实体提取的若干种方法。这些方法中的ー些利用机器学习技术来训练模型,以从高质量的新闻专线文本提取公共命名实体。它们集中于针对特定的典型NE类型使用统计模型,例如隐马尔可夫模型、规则学习和最大熵马尔可夫模型。这些研究从手工加标签的训练文集中学习模型或规则,因此模型和规则仅对类似的文集有效,而 对于具有不同统计特性或不同流派或风格的其他文集表现不佳。由于针对每种特定NE类型的训练模型成本高昂,所以这些方法不能满足一般命名实体提取的需求。附图说明为了更好地理解本专利技术,现在将參考附图完全以举例的方式描述实施例 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种提取命名实体的计算机实施的方法,包括 识别文档文集中的命名实体,并利用ー些现有资源人工或自动形成种子实体集合; 构造命名实体图,以发现任何给定命名实体对之间的相同类型概率; 扩展所述种子实体集合;以及 在所述命名实体图上执行种子实体的置信度传播。2.根据权利要求I所述的方法,其中命名实体图中的每个节点都是命名实体,并且每条边反映了端节点(命名实体)与起始节点(命名实体)是相同类型的条件概率。3.根据权利要求I所述的方法,其中构造命名实体图包括 为每个命名实体创建语言模型; 确定每个给定命名实体对之间的条件概率,其中每个命名实体都具有其自己的语言模型;以及 利用具有其对应条件概率的所有命名实体构造所述命名实体图。4.根据权利要求3所述的方法,其中确定每个给定命名实体对之间的条件概率基于其KL-距尚。5.根据权利要求3所述的方法,在图构造之前还包括如下步骤 针对每个命名实体,确定所述命名实体和其余命名实体之间的边;以及 针对所述命名实体和其余命名实体之间的每个边确定条件概率。6.根据权利要求5所述的方法,其中仅使用条件概率高于...
【专利技术属性】
技术研发人员:姚从磊,熊宇红,郑李炜,
申请(专利权)人:惠普发展公司,有限责任合伙企业,
类型:
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。