用于消除非结构化文本中的特征的歧义的方法技术

技术编号:14275420 阅读:137 留言:0更新日期:2016-12-24 16:53
提供一种用于消除非结构化文本中的特征的歧义的方法。所公开的方法可以不要求预先存在的链接的存在。用于消除非结构化文本中的特征的歧义的方法可使用从源文档和大的文档语料库两者获得的共同出现的特征。所公开的方法可包括多个模块,其包括用于将从源文档获得的特征链接到现存的知识库的共同出现的特征的链接模块。所公开的用于消除特征的歧义的方法可允许从包括具有独特的一组共同出现的特征的实体的知识库中识别独特的实体,这进而可允许在知识搜寻和搜索结果中增加准确度,在大的语料库上使用高级分析方法,使用实体、共同出现的实体、主题ID以及其他获得的特征的组合。

【技术实现步骤摘要】
【国外来华专利技术】
本公开总体上涉及数据管理;并且更具体地,涉及从通过网络接收的源项中提取并存储资料的数据管理系统和方法。
技术介绍
在包括诸如网络的源的大的文档集合中搜索关于实体(例如,人,位置,组织)的信息常常可以是有歧义的,其可导致不精确的文本处理功能、在知识提取期间不精确的特征关联,并因此导致不精确的数据分析。现有技术的系统将基于链接的群集和排列用于数个算法,例如网页排名(PageRank)和超链诱导主题搜索(HITS)算法中。这背后的基本思想和相关的方法是预先存在的链接通常存在于相关的各页面或各概念之间。基于群集的技术的限制在于:有时候在语境中不存在消除实体的歧义所需的语境信息,导致不正确的消除歧义结果。类似地,关于相同的或表面上相似的语境中的不同实体的文档可能被不正确地群集在一起。其他系统试图通过参考实体的一个或多个外部词典(或知识库)消除实体的歧义。在这样的系统中,实体的语境与词典中可能匹配的实体作比较,并返回最接近的匹配。与当前基于词典的技术相关的限制源于以下事实:实体的数量可随时增加,并因此,没有词典可包括世界上所有实体的表示。因此,如果文档的语境与词典中的实体匹配,那么该技术仅识别本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201480072968.html" title="用于消除非结构化文本中的特征的歧义的方法原文来自X技术">用于消除非结构化文本中的特征的歧义的方法</a>

【技术保护点】
一种方法,包括:通过对内存数据库进行寄存的系统的节点搜索一组候选记录,以识别与一个或多个提取的特征匹配的一个或多个候选,其中,与候选匹配的提取的特征是初级特征;通过所述节点使每个所述提取的特征与一个或多个由机器生成的主题标识符(“主题ID”)关联;基于主题ID的相关性,通过所述节点使每个所述初级特征相对于彼此消除歧义;基于所述主题ID的相关性,通过所述节点来识别与每个初级特征关联的一组次级特征;基于所述主题ID的相关性,通过所述节点使每个所述初级特征相对于关联的所述一组次级特征中的每个所述次级特征消除歧义;通过所述节点将每个初级特征链接到关联的所述一组次级特征,以形成新的集群;通过所述节点确定...

【技术特征摘要】
【国外来华专利技术】2013.12.02 US 61/910,7391.一种方法,包括:通过对内存数据库进行寄存的系统的节点搜索一组候选记录,以识别与一个或多个提取的特征匹配的一个或多个候选,其中,与候选匹配的提取的特征是初级特征;通过所述节点使每个所述提取的特征与一个或多个由机器生成的主题标识符(“主题ID”)关联;基于主题ID的相关性,通过所述节点使每个所述初级特征相对于彼此消除歧义;基于所述主题ID的相关性,通过所述节点来识别与每个初级特征关联的一组次级特征;基于所述主题ID的相关性,通过所述节点使每个所述初级特征相对于关联的所述一组次级特征中的每个所述次级特征消除歧义;通过所述节点将每个初级特征链接到关联的所述一组次级特征,以形成新的集群;通过所述节点确定所述新的集群是否与现存的知识库集群匹配,其中,当匹配存在时,通过所述内存数据库服务器计算机的消除歧义模块来确定与所述知识库集群中的每个匹配的初级特征对应的现存的唯一标识符(“唯一ID”)并更新所述知识库集群以包括所述新的集群;以及当匹配不存在时,通过所述节点创建新的知识库集群并给所述新的知识库集群的初级特征分配新的唯一ID;以及通过所述节点传送用于初级特征的所述现存的唯一ID和所述新的唯一ID中的一个。2.根据权利要求1所述的方法,进一步包括:通过所述节点将与提取的特征匹配的每个所述候选记录作比较;以及基于所述比较,通过所述节点给每个所述提取的特征分配加权的匹配分数结果。3.根据权利要求2所述的方法,进一步包括:通过所述节点使每个所述提取的特征与一组加权的特征属性关联。4.根据权利要求3所述的方法,进一步包括:基于一个或多个加权的特征属性,通过所述节点确定每个所述提取的特征的相关性。5.根据权利要求1所述的方法,进一步包括:通过所述节点的提取模块来识别和提取,其中,在一个或多个提取的特征中识别一个或多个初级特征;以及通过所述节点的提取模块将每个所述提取的特征存储在数据库中。6.根据权利要求5所述的方法,进一步包括:通过所述节点的提取模块给每个所述特征分配提取确定性分数。7.根据权利要求1所述的方法,其中,每个初级特征与一组一个或多个特征属性关联。8.根据权利要求7所述的方法,其中,特征属性选自由以下各项构成的组:主题ID、文档标识符(“文档ID”)、特征类型、特征名称、置信度分数以及特征位置。9.根据权利要求1所述的方法,其中,每个关联的特征与根据预定集群层级的一组次序更低的特征关联。10.根据权利要求1所述的方法,进一步包括:通过节点执行所述一组候选记录的模糊关键字搜索。11.根据权利要求7所述的方法,进一步包括:基于相关的多个主题ID的共同出现以及一个或多个特征属性,通过所述节点的即时链接模块来链接两个或更多个数据源。12.根据权利要求1所述的方法,进一步包括:通过将一个数据源中的提取的特征与第二数据...

【专利技术属性】
技术研发人员:斯科特·莱特纳弗兰兹·威克斯尔桑贾伊·博德胡拉凯什·戴维罗伯特·弗拉格
申请(专利权)人:丘贝斯有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1