一种基于问题本体的语义标注和检索方法技术

技术编号:7662625 阅读:160 留言:0更新日期:2012-08-09 07:11
本发明专利技术涉及一种基于问题本体的语义标注和检索方法,通过选取问题领域作为本体内容和定义投影的标注方法避免了本体受检索内容影响大、动态变化难以构造使用的不足;通过构造多层次多领域的本体模型避免了轻量级本体模型查准率和查全率低的不足,并且可以通过根据客户要求选择不同的检索标准以避免查准率和查全率不能兼顾的不足;通过面向问题的方法把本体模型划分为多层次多领域的本体模型,避免了本体复杂度高、难以保证语义一致性的不足;通过制定文档的匹配程度,克服了语义检索只支持布尔检索,不能对检索结果排序的不足。

【技术实现步骤摘要】

本专利技术涉及智能检索
,具体涉及。
技术介绍
当如主流的检索技术是基于关键字和分类目录的检索,它们根据检索对象的关键字确定是否匹配,不考虑语义,难以应对同一关键字具有不同含义或不同关键字具有相同含义的问题,只能部分提高查准率和查全率。语义检索基于对检索对象含义的理解确定检索对象是否满足请求,有助于克服基于关键词的信息检索技术的缺陷。已有研究包括多个方面,从研究内容上包括架构、耦合、透明性、用户语境和语境更改方法、本体结构和本体技术等;从方法上包括用语义扩充关键字检索、基本概念定位、复杂约束查询、问题求解和连接路径发现、RDF路径遍历、关键字概念映射、图模式、逻辑以及模糊逻辑和模糊关系等;从实现步骤则分为本体建模、标注和检索等。从本体模型和标注看,主要根据检索的内容来构造本体,开放动态环境下以采用单个轻量级本体为主,如以互联网上信息为检索对象的方法;封闭环境下也大多采用单个本体模型,只是描述内容更丰富。标注时基于对检索内容的分析和基于模式的发现确定标注检索对象的概念和关系。只有少数方法采用了多本体,但本体内容是基于对检索对象的分析和提取,把一个大本体分为不同的子本体,子本体描述的是单个问题的子问题,不同本体之间相互垂直,多个本体一起解决单个问题,构建一个领域本体需要考虑其它领域的内容;检索时需要多个领域本体相互协作,检索复杂度不仅取决于领域本体,还取决于所建立的领域本体之间的关系。综合来看,当前语义检索中存在很多问题没有解决一是语义标注的复杂性,当前一般基于单一的语义世界,要支持开放世界假设需要对所有文档的标注,而当前的推理工具大多支持封闭世界下的推理,且没有方法和理论能支持OWL-Full描述的推理。二是语义的多样性,文档中关键字或概念的含义不仅取决于文档的内容,还取决于文档之外的知识,比如对“张三是贾宝玉”,其语义不仅取决于这个句子自身,还取决于张三和贾宝玉相关的知识,当只知道贾宝玉是个漂亮富家公子时,则其语义既可以是张三是漂亮的,也可以是张三是富家公子;如果还知道张三是富家公子且相貌一般时,则其语义只能是张三是富家公子。三是语义的不一致性,文档在不同环境的语义不仅呈现多样性,而且相互之间可能是矛盾的,如张三是贾宝玉既可能是褒义的也可能是贬义的。四是推理和描述的矛盾,语义检索不仅复杂度高,而且和描述复杂程度成反t匕,如OWL-Lite具有多项式的推理复杂度,但只能描述比较简单的领域;0WL-DL具有指数的推理复杂度,可以描述一般的领域;0WL-Full描述能力最强,但不能推理。本专利技术受需求工程中基于环境建模思想和服务计算中通过环境变化描述服务的启发,通过建模现实问题的本体模型来实现标注和检索。
技术实现思路
本专利技术的目的是为解决上述技术问题的不足,提供,通过选取现实问题领域作为本体内容和定义投影的标注方法避免了本体受检索内容影响大、动态变化难以构造使用的不足;通过构造多层次多领域的本体模型避免了轻量级本体模型查准率和查全率低的不足,并且可以通过不同检索标准的选择避免查准率和查全率不能兼顾的不足; 本专利技术为解决上述技术问题的不足,所采用的技术方案是,包括选取问题领域作为本体内容构建多层次多领域的问题本体模型,采用投影标注方法实现多个本体对单个检索对象的标注,以及基于问题本体的语义检索;具体方法为 (一)构建问题本体模型 (1)、确定问题本体的专业领域和范畴,选择所确定的问题领域作为建模本体的内容,列出问题领域中的概念,并定义构成问题本体模型的三种本体单元,分别为问题本体、导航 本体和功能本体; 其中,三种本体单元的定义如下 问题本体PO:包含了问题中的各个领域,领域的性质,领域间的关系以及相关的公理和约束;定义PO={PC, PR,PP, PA} 其中,PC是领域概念的集合,包括功能本体和导航本体,PR是PC内元素之间关系的集合,包括导航本体与功能本体之间的关系和导航本体与导航本体之间的关系,PP是PC内元素的属性的集合,PA是表示PC,PR, PP相关元素约束的公理的集合; 导航本体NO :可以细分的本体,包含功能本体和代表其它领域本体的领域概念;定义N0= {NC, NR, NP, NA} 其中,NC表示领域内的普通概念和细分领域的领域概念的集合,领域概念是某一功能本体或导航本体的名字,NR表示NC内元素之间的关系,NP表示NC内元素的属性,NA表示NC, NR, NP相关元素约束的公理的集合; 功能本体SO:只包含不能进一步细化的普通概念,为不能再细分的本体;定义S0={SC,SR, SP, SA} 其中,SC表示领域SO内的概念的集合,每个概念不再具有子领域,即不与任何领域本体重名,SR表示SC内元素之间的关系,SP表示SC内元素的属性,SA表示SC,SR, SP相关元素约束的公理的集合; (2)、对选定的问题领域进行逐级分解,并结合步骤(I)中三种本体单元的定义,构建多层次多领域骨架结构的问题本体模型,具体分解步骤如下 首先根据问题特征分解领域和领域的层次;具体是根据世界习惯或公认的分类方式进行领域层次的分解;其次根据领域内容的相关性分解;具体是当同一领域存在两个或多个无关内容时,根据领域内不同部分之间的关系分解,当一个领域内不同部分之间无关则分解为不同部分;再次根据领域的一致性进行分解;具体是当单个领域存在冲突或相矛盾的内容,无法进行语义推理时,或者同一概念、同一关系和同一属性具有不同的语义时,进一步进行分解; 最后根据领域的复杂性进行分解;具体是根据现实的分类、侧面和知识的相关性进行分解,以进一步降低领域的复杂度; (二 )、利用问题本体模型对检索对象进行语义标注 (1)、确定要检索的范围或内容,从资源库中选取检索对象; (2)、在步骤(一)所构建的问题 本体模型基础上,根据各个领域本体的特征和内容确定与领域总匹配度DGolDeg相关的匹配度的权重及投影规则,计算检索对象与问题本体模型中各个领域本体的领域总匹配度DGolDeg,并选择领域总匹配度DGolDeg大于设定的最小匹配度的领域本体;所述领域本体包括导航本体和功能本体; 所述的领域总匹配度DGolDeg表示检索对象与领域本体的匹配程度,定义如下DGolDeg=DComDegXwi+DNecDegXwj+DValDegXwk +DConDegXwl其中,DComDeg为领域完整度,DNecDeg为领域必要度,DValDeg为领域有效度,DConDeg为领域一致度,wi、wj\ wk和wl分别表示领域完整度、领域必要度、领域有效度和领域一致度的权重; 领域完整度DComDeg :表示领域模型包含检索对象的程度,用检索对象中可以标注的内容和本体内容的比率衡量,定义如下DComDeg=MC/WCX 100% 领域必要度DNecDeg :表示此领域模型对检索对象的重要程度,用I和可以标注检索对象的领域模型数的比率衡量,定义如下 DNecDeg=l/0NX100% 领域有效度DValDeg:表示领域模型对标注检索对象的有效程度,用可以标注的检索对象和领域模型标注的内容和领域模型内容的比率衡量,定义如下DValDeg=MC/OCX 100% 领域一致度DConDeg :表示检索对象与本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:蔡广军金芝
申请(专利权)人:河南科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1