当前位置: 首页 > 专利查询>熊晶专利>正文

基于领域本体的信息检索优化方法技术

技术编号:6033628 阅读:256 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种基于领域本体的信息检索优化方法,通过检索系统的检索界面,获取用户提交的查询关键字;在用户期望的领域,根据已经建立的领域本体,对用户提交的查询关键字通过领域本体推理进行语义扩展,得到一组或多组新的查询字符串;将扩展后的查询字符串提交给一个或多个搜索引擎进行检索;对各搜索引擎的返回结果进行去重和重排序整合;将最终结果通过检索界面显示给用户。本发明专利技术是利用领域本体的语义优势,提高领域相关的信息检索的效率。

【技术实现步骤摘要】

本专利技术涉及一种网络技术,具体来说是基于搜索引擎的信息检索方法。
技术介绍
人们从网络上获取信息的主要手段是使用搜索工具,如Google、百度、雅虎等。搜 索引擎的工作原理基本包括三个过程(1)从互联网上搜集信息,通过用网络蜘蛛定期对 互联网上所有网站网页的信息进行抓取。(2)整理信息并建立索引数据库由分析索引系 统程序对收集回来的网页进行分析,提取相关网页所在网址链接、编码类型、页面内容包含 的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等信息,根据一定的相关度 算法进行计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要 性),然后用这些相关信息建立网页索引数据库。(3)在索引数据库中搜索排序、接受查询 当用户在搜索引擎的界面输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符 合该关键词的所有相关网页,按照现成的相关度数值排序,相关度越高,排名越靠前。最后, 由页面生成系统将搜索结果的链接地址、页面内容摘要等内容,组织起来返回给用户。目前的搜索引擎大多是基于关键字匹配的搜索引擎。然而,这些搜索引擎很少具 有语义推理能力。Google虽然采用了一些自然语言处理技术,例如,同义词扩展,但是它并 不能解析概念之间的语义关系,这样在一定程度上导致了查准率的降低,使得查询返回结 果并不是用户所满意的信息。另一方面,用户的查询很大程度上依赖于某个专业领域,如海 洋领域。例如,假定用户想搜索海洋领域有关“DIP(Dissolved inorganic phosphorus溶 解无机磷)”的信息,其查询结果如图4所示,通常会获得大量其它领域的“DIP”信息,如微 电子领域的“Dual Inline Package”,即双列直插式封装技术。由于这些是与用户的目的不 相关的无用信息,用户对这样的结果显然是不满意的。“本体(Ontology)”作为“共享概念模型的明确的形式化规范说明”,是通过抽象 出客观世界中一些现象的相关概念而得到的模型,概念模型表现的含义独立于具体的环境 状态。本体体现的是共同认可的知识,反映的是相关领域内公认的概念集,因此本体提供了 对领域知识的共同理解与描述,可以更好地用于共享、交流和重用。构成本体的概念及其之 间的关系是经过精确定义的,运用本体可以消除一词多义、多词一义和词义含糊等现象,从 而完成对领域知识清晰、确切、完整的定义与描述。本体研究的目标是获取一个知识表达方 法,使得机器可以像人类一样共享和处理信息。目前,本体技术被大量应用于知识表示、信 息检索等领域。
技术实现思路
为了克服现有搜索引擎在语义检索上的不足,本专利技术提供了一种基于领域本体的 信息检索优化方法。本专利技术的技术方案为一种,其步骤如下(1)通过检索系统的检索界面,获取用户提交的查询关键字;(2)在用户期望的领域,根据已经建立的领域本体,对用户提交的查询关键字通过 本体推理进行语义扩展,得到一组或多组新的查询字符串;(3)将扩展后的查询字符串提交给一个或多个搜索引擎进行检索;(4)对各搜索引擎的返回结果进行去重、排序整合;(5)将最终结果通过检索界面显示给用户。上述步骤(2)中基于领域本体的语义扩展方式包括如下方式中的一种、两种或全 部①基于is-a关系的优化方法Is-a关系(继承关系)显示了概念的分类,即父概念的实例等于子概念实例的总 和。在子概念上添加了一些约束,因此子概念也称为父概念的特殊化。一个概念与其直接 父概念或子概念在同一个文档中出现的几率是较高的。因此,当搜索关于某个概念A的文 档时,可以利用A的父概念P或子概念C作为约束来提高搜索的查准率。于是,可以将一个 概念优化成概念本身和它的父概念或子概念的查询对。②基于part-of关系的优化方法Part-of表示整体-部分关系,用来描述一个概念与其部分概念之间的相互关系。 一个概念的组成部分也与此概念所属的领域紧密相关。因此,与部分概念相匹配的文档通 常也同其整体概念相关联。于是,可以将一个概念优化成概念本身及其部分概念的查询对。③基于equivalent-class关系的优化方法Equivalent-class(等价类)关系用于处理领域知识中的同义词现象。利用 equivalent-class关系,用户查询中的概念可以映射成与其等价的同义词。这样,可以提高 信息检索的查准率。而且,equivalent-class关系通常作为前两种优化方法的辅助方法。所述查询对内的概念之间为“与”或者“或,,的逻辑关系,“与”可以提高查询准确 率,“或”能够提高查全率。上述步骤(4)中,对各搜索引擎的返回结果进行去重、排序整合,可以采用的算法 如下(1)对搜索结果的URL进行处理,截取“#”之前的URL字符串作为最终的链接地 址;若存在MD5 (URLa) = MD5 (URLb),则认为URLa及URLb对应的页面为重复页面,去重;(2)排序算法考虑两个方面①查询字符串中各概念的语义距离Dist (Ci, Cj),其中Ci与Cj为查询字符串中的 两个概念,权利要求1.一种,其步骤如下(1)通过检索系统的检索界面,获取用户提交的查询关键字;(2)在用户期望的领域,根据已经建立的领域本体,对用户提交的查询关键字通过领域 本体推理进行语义扩展,得到一组或多组新的查询字符串;(3)将扩展后的查询字符串提交给一个或多个搜索引擎进行检索;(4)对各搜索引擎的返回结果进行去重和排序整合;(5)将最终结果通过检索界面显示给用户。2.如权利要求1所述的方法,其特征在于所述的通过本体推理进行语义扩展,是采用 下述方法中的一种或两种或全部①基于is-a关系优化方法基于所述查询关键字获得的概念A的父概念P或子概念C,优化成概念A本身和它的父 概念P的查询对,或概念A本身和它的子概念C的查询对;②基于part-of关系的优化方法将基于查询关键字获得的概念优化成该概念本身和其部分概念构成的查询对;③基于equivalent-class关系的优化将基于查询关键字获得的概念优化成该概念和与其等价的同义词构成的查询对。3.如权利要求2所述的方法,其特征在于所述查询对内的概念之间为“与”或者“或” 的逻辑关系。4.如权利要求1至3中之一所述的方法,其特征在于所述去重是指对于搜索结果 URL进行处理,截取“#,,之前的URL字符串作为最终的链接地址,对于URLa和URLb若存在 MD5 (URLa) = MD5 (URLb),则认为URLa及URLb对应的页面为重复页面,去掉其中一个链接地址。5.如权利要求4所述的方法,其特征在于所述排序是利用概念的语义相似度结合摘 要排序算法,对去重后的结果进行排序。6.如权利要求5所述的方法,其特征在于所述排序方法包括①按式1计算查询字符串中各概念的语义距离7.如权利要求1至3中之一所述的方法,其特征在于所述检索界面为针对某一领域 的专用界面。8.如权利要求1至3中之一所述的方法,其特征在于所述检索界面有领域选项或领 域关键字填写区域,在所述步骤(2)中根据用户选定的领域选项或领域关键字,加载相应 的领域本体进行语义扩展。全文摘要本专利技术提供一种,通过检索系统的检索界面,获取用户提交的查询关键字;在用户期望的领域,根据已经建立的领域本文档来自技高网
...

【技术保护点】
一种基于领域本体的信息检索优化方法,其步骤如下:(1)通过检索系统的检索界面,获取用户提交的查询关键字;(2)在用户期望的领域,根据已经建立的领域本体,对用户提交的查询关键字通过领域本体推理进行语义扩展,得到一组或多组新的查询字符串;(3)将扩展后的查询字符串提交给一个或多个搜索引擎进行检索;(4)对各搜索引擎的返回结果进行去重和排序整合;(5)将最终结果通过检索界面显示给用户。

【技术特征摘要】

【专利技术属性】
技术研发人员:熊晶王爱民徐建良王继鹏张长青郭涛梁燕军孙华
申请(专利权)人:熊晶王爱民徐建良
类型:发明
国别省市:41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1