本发明专利技术涉及中文信息检索(IR)领域,特别涉及一种基于领域本体(Domain ontology)的智能检索方法,以及包含该方法的智能检索系统。其中该系统包括:用于分析用户输入自然查询语句的本体推理模块,用于创建索引库的索引处理模块,用于进行特定查询的查询处理模块,以及用于查询结果处理的结果优化排序模块,所述系统还包括:基于某一领域所构建的领域本体库、数据资源库、以及索引数据库。本发明专利技术所述的基于领域本体的智能检索系统及方法充分利用了领域本体库中的概念及其相互关系,能够正确理解用户需求,优化检索结果,为用户更全、更准地返回专业领域信息,能够显著提高专业技术领域内信息检索的性能。
【技术实现步骤摘要】
本专利技术涉及中文信息检索(IR)领域,特别涉及一种基于领域本体(Domain ontology )的智能检索方法,以及包含该方法的智能检索系统。
技术介绍
信息检索技术的出现是网络发展史上的里程碑,它为网络用户带来了极大的便利, Google、百度是这个领域的典型代表。用户只要输入检索词或检索语句,信息检索系统就会 按照一定的排序规则、为用户快速地返回包含该检索词或检索语句的所有网页。因此,对于 信息检索系统而言,正确理解用户的检索需求、优化结果排序方式等至关重要。然而,现有的通用搜索引擎无法准确理解和处理各类信息,特别是专业领域知识,经常 检索不到、甚至返回大量无关专业领域信息,系统査全率和査准率不高。主要原因在于一方面,采取关键字匹配方式理解用户检索语句。信息检索系统并不关注用户输入的专 业领域词汇的概念和语义,只是将分词后的关键词与索引库中的索引词按照字面形式进行直 接匹配。另一方面,按照检索相关度对结果进行排序处理,即按照检索词和索引词之间相同的字 或词的多少进行排序。为了提高检索效率, 一些信息检索系统提出了 相关搜索等改进技术,然而,这些技 术仍没有脱离字面匹配的本质。在人工智能(AI)等领域,本体(ontology)的引入为相关 问题的解决带来了契机。(1) 本体是共享概念模型的形式化的、明确的规范说明(ontology is a formal, explicit specification of a shared conceptualization, studer 1998)。本体的目标是捕获相关领域的知识,确定该领域共同认可的词汇,并明确定义这些词汇 及词汇间的相互关系,提供对该领域知识的共同理解,并以规范化的形式在计算机中加以存 储。(2) 规定了论域。领域本体以一个特定的领域为描述对象,提供该特定领域的概念定义和概念之间的关系 、主要理论、基本原理,以及领域中发生的活动等。(3) 知识表示、共享和重用。共享知识体系的表示是机器可处理的语义,它以RDF为基础,以URI作为命名机制、 以XML为语法,将不同的应用集成在一起,对Web上的数据进行抽象表示。本体通过这种通用 框架的表示方式,允许跨越不同应用程序、企业和团体的边界进行数据的共享和重用。 (4)信息交流的语义基础。由本体所提供的领域内共同认可的知识体系包括术语集、关系集和规则集,会为不同主 体提供一种共识,为不同背景和领域下的人、机器、软件系统等进行信息交流提供了可能。正是由于以上的特点和优势,所以本体为语义理解、智能检索等提供了可能。20世纪 90年代,本体技术得到了知识工程、人工智能等多个领域的广泛关注和研究,并取得了一定 的成果。然而,目前构建较为详细的、囊括所有领域知识体系的通用本体,并基于这个通用本体 建立信息检索系统并不现实。因此,有必要从某一领域出发,构建领域本体,实现对该专业 领域知识的智能检索。目前,相关智能检索技术中尚不存在基于领域本体的用户输入的句型 模式匹配方法和语义距离测量的结果优化排序方法,且尚不存在包含该方法的智能检索系统 ,导致智能检索系统面临一系列技术问题,并未如预期一样在检索性能上比传统检索系统有 明显的提高和改善。
技术实现思路
本专利技术的主要目的在于提供一种基于领域本体实现智能检索的系统,旨在正确理解用户 需求,提供高效的专业领域信息服务,改进现有信息检索系统的不足。本专利技术的另一个目的还在于提供一种用于上述基于领域本体的智能检索系统的句型模式 匹配方法和语义距离测量等方法,利用该方法可以正确理解用户输入的自然査询语句,对査 询结果进行语义相关度的计算,为用户返回最相关的专业领域信息。为达到上述专利技术目的,本专利技术是通过下述技术方案实现的本专利技术实施例公开了一种基于领域本体的智能检索系统,其特征在于,该系统包括用 于分析用户输入自然査询语句的本体推理模块,用于创建索引库的索引处理模块,用于进行 特定査询的査询处理模块,以及用于査询结果处理的结果优化排序模块,所述系统还包括 基于某一领域所构建的领域本体库、数据资源库、以及索引数据库;其中,本体推理模块包括分词预处理单元和句型模式匹配单元;分词预处理单元,用于接收用户输入的自然査询语句,对査询语句进行分词、词性标注 、领域本体角色标注等预处理,去除弱语义词汇,得到强语义词汇集合;句型模式匹配单元,用于将强语义词汇集合与事先定义的句型模式进行匹配处理,得到新的检索式;索弓1处理模块包括本体语义索弓1处理单元和全文索弓1处理单元;本体语义索引处理单元,用于获取数据资源文档,解析、处理并提取文档主体内容信息,基于领域本体库合成文档语义向量,建立基于本体的语义索引库;全文索引处理单元,用于获取数据资源文档,提取文档信息,建立全文索引库; 査询处理模块包括语义査询处理单元、扩展査询处理单元和全文检索处理单元; 语义査询处理单元,用于基于领域本体概念及概念间关联进行专业领域信息的智能査询处理;扩展査询处理单元,用于基于领域本体概念及概念间关联进行扩展査询处理; 全文检索处理单元,用于按照传统的检索方式,即按照关键字匹配原理进行全文检索的 处理;数据资源库,包括本地领域数据库内的资源或从网上抓取的领域内的资源数据; 索引数据库,包括由索引处理模块建立的本体语义索引库和全文索引库。 本专利技术实施例还公开了一种基于领域本体的智能检索方法,其特征在于,该方法包括下 述步骤A. 对用户输入的自然査询语句进行分词、词性标注,并基于领域本体进行角色标注;B. 分析、判断上述步骤A中的词汇集,进行本体角色非空项的判断,并按照一定的规则 进行相应的査询;C. 对査询结果进行语义距离测量,按照语义距离值进行结果的优化,并将检索结果排 序输出,返回给用户。其中上述步骤B所述的本体角色非空项的判断进一步包括Bl.如果用户输入的自然査询语句中不包括本体概念,则进行全文检索;B2.如果用户输入的自然査询语句中包括本体概念,则进行句型模式的匹配判断。其中上述步骤B2所述的句型模式匹配判断进一步包括B21.如果句型模式匹配成功,则进行语义査询;B22.如果句型模式匹配成功,则访问领域本体库,进行适当的语义扩展处理,进行扩 展査询。因此,本专利技术实施例提供的基于领域本体的智能检索系统和方法,具有以下的优点本 专利技术所述的基于领域本体的智能检索系统及方法充分利用了领域本体库中的概念及其相互关 系,能够正确理解用户需求,优化检索结果,为用户更全、更准地返回专业领域信息,能够显著提高专业
内信息检索的性能。 附图说明根据下述附图及实施例的描述,可以充分说明本专利技术的特征及优点。在附图中 图1是本专利技术实施例的一种基于领域本体的智能检索系统的结构框图; 图2是本专利技术实施例中的语义本体索引处理单元创建语义索引数据库的流程图; 图3是图l所示的本专利技术实施例的智能检索系统为用户执行专业领域知识査询过程的流 程图4是本专利技术实施例所采用的检索方式图;以及图5是本专利技术实施例的领域本体概念间语义的距离示意图。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚,以下参照附图以及实施例,对本专利技术作 进一步详细描述。应当理解,下述所举的实施例仅被用作解释本专利技术、并不用于限制本专利技术 ,即本专利技术的保护范围不限于本文档来自技高网...
【技术保护点】
一种基于领域本体的智能检索系统,包括用于分析用户输入自然查询语句的本体推理模块,用于创建索引库的索引处理模块,用于进行特定查询的查询处理模块,以及用于查询结果处理的结果优化排序模块,其特征在于,所述的系统还包括数据资源库、领域本体库和索引数据库;。
【技术特征摘要】
1.一种基于领域本体的智能检索系统,包括用于分析用户输入自然查询语句的本体推理模块,用于创建索引库的索引处理模块,用于进行特定查询的查询处理模块,以及用于查询结果处理的结果优化排序模块,其特征在于,所述的系统还包括数据资源库、领域本体库和索引数据库;2.权利要求l所述的基于领域本体的智能检索系统,其特征在于 ,所述的本体推理模块包括分词预处理单元和句型模式匹配单元;所述分词预处理单元,用于接收用户输入的自然査询语句,对査询语句进行分词、词 性标注、领域本体角色标注等预处理,去除弱语义词汇,得到强语义词汇集合;所述句型模式匹配单元,用于将强语义词汇集合与事先定义的句型模式进行匹配处理 ,得到新的检索式;3.权利要求l所述的基于领域本体的智能检索系统,其特征在于 ,所述的索引处理模块包括本体语义索弓1处理单元和全文索弓1处理单元;所述本体语义索引处理单元,用于获取数据资源文档,解析、处理并提取文档主体内 容信息,基于领域本体库合成语义向量,建立语义本体索引库;所述全文索引处理单元,用于获取数据资源文档,提取文档信息,建立全文索引库;4.权利要求l所述的基于领域本体的智能检索系统,其特征在于 ,所述的査询处理模块包括语义査询处理单元、扩展査询处理单元和全文检索处理单元;所述语义査询处理单元,用于基于领域本体概念及概念间关联进行专业领域信息的智 能査询处理;所述扩展査询处理单元,用于...
【专利技术属性】
技术研发人员:吴来,刘鹏,李春梅,黄道雄,范书德,
申请(专利权)人:北京中机科海科技发展有限公司,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。