概念识别设备和方法技术

技术编号:7786473 阅读:142 留言:0更新日期:2012-09-21 07:32
本发明专利技术提供了一种概念识别设备,包括:概念匹配单元,对文档中的概念进行初步匹配,产生具有可信度分数的候选概念;概念分类单元,将概念匹配单元产生的候选概念按照其可信度分数归类为高可信度概念集合和低可信度概念集合;以及概念匹配改进单元,利用高可信度概念集合中的元素对低可信度概念集合中的元素执行消除歧义处理。本发明专利技术还提供了一种概念识别方法。本发明专利技术提高了对文档中的概念(特别是低可信度概念)进行识别的精确度,从而能够对文档进行增强的语义分析。

【技术实现步骤摘要】

本专利技术涉及信息处理领域,具体涉及一种。
技术介绍
随着电子信息量的不断增长,大量的多样化信息存在于不同的分布式系统中,使得用户从中查找有用信息变得非常困难。信息检索(Infrmation Retrieval, IR)技术可用于在文档集合中搜索特定信息,其可被进一步细分为搜索文档中包含的信息、搜索文档本身、搜索描述文档的元数据、在数据库中搜索文本、声音、图像或数据(无论是关系型单机数据库还是超文本联网数据库,例如以太网或内容/文档管理系统)。 语义信息检索能够对传统的基于关键字的信息检索方案做出改进,其中,概念识别与消除歧义在语义信息检索的实现中扮演了重要的角色。在现有技术中,从文档中查找候选概念的技术方案主要采用了一步匹配技术,即,一次找到所有潜在的概念并对这些概念进行评分。参考文献 I (“Graphed based concept identification and disambiguation forenterprise search,,,Falk Brauer, et. al. , Proceeding of Wffff 2010)描述了一种用于从文档中识别潜在概念的一步方法,该方法包括如下步骤对文档进行预处理,以标记句子中的名词短语;对企业本体进行索引化;查找名词短语和来自企业本体的索引概念之间的匹配,并进行加权。参考文献 2 ( “Building semantic kernels for text classification usingWikipedia”,Pu Wang and Carlotta Domeniconi,Proceeding of KDD2008)提出了另一种一步方法,用于在文档中查找Wikipedia概念。与参考文献I中使用标记的名词短语进行概念匹配不同,参考文献2中的方法通过滑动窗口来查找每一个术语序列中的候选概念。然而,一步方法忽视了这样的事实该过程中的中间结果,特别是已识别的高可信度的概念,能够潜在地改进具有低可信度的概念的识别和消除歧义。此外,一步匹配技术不能利用相同文档中出现的多个概念的共现信息进行概念识别和消除歧义,这使得产生的候选概念的质量不高。
技术实现思路
为了解决上述技术问题,本专利技术将已识别的高可信度的概念作为附加知识,通过使用多个概念的共现信息来提高低可信度概念的识别精确度。根据本专利技术的一个方面,提供了一种概念识别设备,包括概念匹配单元,对文档中的概念进行初步匹配,产生具有可信度分数的候选概念;概念分类单元,将概念匹配单元产生的候选概念按照其可信度分数归类为高可信度概念集合和低可信度概念集合;以及概念匹配改进单元,利用高可信度概念集合中的元素对低可信度概念集合中的元素执行消除歧义处理。优选地,概念匹配单元将文档分成多个块,并且参照概念本体对每一个块进行匹配,以产生具有可信度分数的候选概念。优选地,概念匹配单元使窗口 在文档中的文本上滑动,然后通过对窗口中所包含的词或者词组与概念本体中的每个概念所包含的词或者词组进行比对来获得对窗口的评分,以产生具有可信度分数的候选概念。优选地,概念分类单元通过设定可信度分数阈值,把具有高于所述阈值的可信度分数的概念归类到高可信度概念集合中,而把具有低于所述阈值的可信度分数的概念归类到低可信度概念集合中。优选地,概念分类单元通过设定百分数阈值并且按照可信度分数的高低对所有候选概念进行排序,把所有候选概念中具有属于前的可信度分数的概念归类到高可信度概念集合中,而把余下的概念归类到低可信度概念集合中。优选地,概念匹配改进单元执行如下操作选择高可信度概念集合中的高可信度概念子集作为特定的低可信度概念的上下文概念,利用所述上下文概念重新计算所述特定的低可信度概念的可信度分数,并且基于重新计算的可信度分数把所述特定的低可信度概念重新归类到高可信度概念集合或低可信度概念集合中。优选地,概念匹配改进单元按照迭代的方式执行所述操作,直到低可信度概念集合中的元素不再发生变化为止。优选地,概念匹配改进单元按照迭代的方式执行所述操作预定次数。根据本专利技术的另一个方面,提供了一种概念识别方法,包括对文档中的概念进行初步匹配,产生具有可信度分数的候选概念;将概念匹配单元产生的候选概念按照其可信度分数归类为高可信度概念集合和低可信度概念集合;以及利用高可信度概念集合中的元素对低可信度概念集合中的元素执行消除歧义处理。优选地,通过将文档分成多个块并参照概念本体对每一个块进行匹配,来产生具有可信度分数的候选概念。优选地,通过使窗口在文档中的文本上滑动,然后通过对窗口中所包含的词或者词组与概念本体中的每个概念所包含的词或者词组进行比对来获得对窗口的评分,来产生具有可信度分数的候选概念。优选地,通过设定可信度分数阈值,把具有高于所述阈值的可信度分数的概念归类到高可信度概念集合中,而把具有低于所述阈值的可信度分数的概念归类到低可信度概必朱口 T 优选地,通过设定百分数阈值并按照可信度分数的高低对所有候选概念进行排序,把所有候选概念中具有属于前的可信度分数的概念归类到高可信度概念集合中,而把余下的概念归类到低可信度概念集合中。优选地,消除歧义处理包括如下操作选择高可信度概念集合中的高可信度概念子集作为特定的低可信度概念的上下文概念,利用所述上下文概念重新计算所述特定的低可信度概念的可信度分数,并且基于重新计算的可信度分数把所述特定的低可信度概念重新归类到高可信度概念集合或低可信度概念集合中。优选地,按照迭代的方式执行消除歧义处理,直到低可信度概念集合中的元素不再发生变化为止。优选地,按照迭代的方式执行消除歧义处理预定次数。本专利技术提高了对文档中的概念(特别是低可信度概念)进行识别的精确度,从而能够对文档进行增强的语义分析,例如语义文档检索。附图说明通过下文结合附图的详细描述,本专利技术的上述和其它特征将会变得更加明显,其中图I是示出了根据本专利技术一个实施例的概念识别系统的示意图;图2是示出了根据本专利技术一个实施例的概念识别设备的框图;图3是示出了根据本专利技术一个实施例的概念本体的示意图;图4是示出了根据本专利技术另一个实施例的概念识别设备的框图;图5是示出了根据本专利技术一个实施例的概念识别方法的流程图;以及图6是示出了根据本专利技术一个实施例用于执行消除歧义处理的方法的流程图。具体实施例方式下面,通过结合附图对本专利技术的具体实施例的描述,本专利技术的原理和实现将会变得明显。应当注意的是,本专利技术不应局限于下文所述的具体实施例。另外,为了简便起见,省略了与本专利技术无关的公知技术的详细描述。首先,通过下表I对本说明书中的几个术语的含义做出如下说明语义文档检索:j与传统的文档检索(主要关注词的出现频~本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.ー种概念识别设备,包括 概念匹配単元,对文档中的概念进行初歩匹配,产生具有可信度分数的候选概念; 概念分类单元,将概念匹配单元产生的候选概念按照其可信度分数归类为高可信度概念集合和低可信度概念集合;以及 概念匹配改进单元,利用高可信度概念集合中的元素对低可信度概念集合中的元素执行消除歧义处理。2.根据权利要求I所述的概念识别设备,其中,所述概念匹配単元将文档分成多个块,并且參照概念本体对每ー个块进行匹配,以产生具有可信度分数的候选概念。3.根据权利要求I所述的概念识别设备,其中,所述概念匹配単元使窗ロ在文档中的文本上滑动,然后通过对窗口中所包含的词或者词组以及概念本体中的每个概念所包含的词或者词组进行比对而获得对窗ロ的评分,以产生具有可信度分数的候选概念。4.根据权利要求I所述的概念识别设备,其中,所述概念分类单元通过设定可信度分数阈值,把具有高于所述阈值的可信度分数的概念归类到高可信度概念集合中,而把具有低于所述阈值的可信度分数的概念归类到低可信度概念集合中。5.根据权利要求I所述的概念识别设备,其中,所述概念分类单元通过设定百分数阈值并且按照可信度分数的高低对所有候选概念进行排序,把所有候选概念中具有属于前的可信度分数的概念归类到高可信度概念集合中,而把余下的概念归类到低可信度概念集合中。6.根据权利要求I所述的概念识别设备,其中,所述概念匹配改进单元执行如下操作选择高可信度概念集合中的高可信度概念子集作为特定的低可信度概念的上下文概念,利用所述上下文概念重新计算所述特定的低可信度概念的可信度分数,并且基于重新计算的可信度分数把所述特定的低可信度概念重新归类到高可信度概念集合或低可信度概念集7.根据权利要求6所述的概念识别设备,其中,所述概念匹配改进单元按照迭代的方式执行所述操作,直到低可信度概念集合中的元素不再发生变化为止。8.根据权利要求6所述的概念识别设备,其...

【专利技术属性】
技术研发人员:李建强赵彧刘博
申请(专利权)人:日电中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1