概念识别设备和方法技术

技术编号：7786473 阅读：142 留言：0更新日期：2012-09-21 07:32

本发明专利技术提供了一种概念识别设备，包括：概念匹配单元，对文档中的概念进行初步匹配，产生具有可信度分数的候选概念；概念分类单元，将概念匹配单元产生的候选概念按照其可信度分数归类为高可信度概念集合和低可信度概念集合；以及概念匹配改进单元，利用高可信度概念集合中的元素对低可信度概念集合中的元素执行消除歧义处理。本发明专利技术还提供了一种概念识别方法。本发明专利技术提高了对文档中的概念(特别是低可信度概念)进行识别的精确度，从而能够对文档进行增强的语义分析。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息处理领域，具体涉及一种。
技术介绍
随着电子信息量的不断增长，大量的多样化信息存在于不同的分布式系统中，使得用户从中查找有用信息变得非常困难。信息检索(Infrmation Retrieval, IR)技术可用于在文档集合中搜索特定信息，其可被进一步细分为搜索文档中包含的信息、搜索文档本身、搜索描述文档的元数据、在数据库中搜索文本、声音、图像或数据(无论是关系型单机数据库还是超文本联网数据库，例如以太网或内容/文档管理系统)。语义信息检索能够对传统的基于关键字的信息检索方案做出改进，其中，概念识别与消除歧义在语义信息检索的实现中扮演了重要的角色。在现有技术中，从文档中查找候选概念的技术方案主要采用了一步匹配技术，即，一次找到所有潜在的概念并对这些概念进行评分。参考文献 I (“Graphed based concept identification and disambiguation forenterprise search，，，Falk Brauer, et. al. , Proceeding of Wffff 2010)描述了一种用于从文档中识别潜在概念的一步方法，该方法包括如下步骤对文档进行预处理，以标记句子中的名词短语；对企业本体进行索引化；查找名词短语和来自企业本体的索引概念之间的匹配，并进行加权。参考文献 2 ( “Building semantic kernels for text classification usingWikipedia”,Pu Wang and Carlotta Domeniconi,Procee...

【技术保护点】

【技术特征摘要】
1.ー种概念识别设备,包括概念匹配単元，对文档中的概念进行初歩匹配，产生具有可信度分数的候选概念；概念分类单元，将概念匹配单元产生的候选概念按照其可信度分数归类为高可信度概念集合和低可信度概念集合；以及概念匹配改进单元，利用高可信度概念集合中的元素对低可信度概念集合中的元素执行消除歧义处理。2.根据权利要求I所述的概念识别设备，其中，所述概念匹配単元将文档分成多个块，并且參照概念本体对每ー个块进行匹配，以产生具有可信度分数的候选概念。3.根据权利要求I所述的概念识别设备，其中，所述概念匹配単元使窗ロ在文档中的文本上滑动，然后通过对窗口中所包含的词或者词组以及概念本体中的每个概念所包含的词或者词组进行比对而获得对窗ロ的评分，以产生具有可信度分数的候选概念。4.根据权利要求I所述的概念识别设备，其中，所述概念分类单元通过设定可信度分数阈值，把具有高于所述阈值的可信度分数的概念归类到高可信度概念集合中，而把具有低于所述阈值的可信度分数的概念归类到低可信度概念集合中。5.根据权利要求I所述的概念识别设备，其中，所述概念分类单元通过设定百分数阈值并且按照可信度分数的高低对所有候选概念进行排序，把所有候选概念中具有属于前的可信度分数的概念归类到高可信度概念集合中，而把余下的概念归类到低可信度概念集合中。6.根据权利要求I所述的概念识别设备，其中，所述概念匹配改进单元执行如下操作选择高可信度概念集合中的高可信度概念子集作为特定的低可信度概念的上下文概念，利用所述上下文概念重新计算所述特定的低可信度概念的可信度分数，并且基于重新计算的可信度分数把所述特定的低可信度概念重新归类到高可信度概念集合或低可信度概念集7.根据权利要求6所述的概念识别设备，其中，所述概念匹配改进单元按照迭代的方式执行所述操作，直到低可信度概念集合中的元素不再发生变化为止。8.根据权利要求6所述的概念识别设备，其...

【专利技术属性】
技术研发人员：李建强，赵彧，刘博，
申请(专利权)人：日电中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人