本发明专利技术公开一种基于本体的对象级搜索技术,该搜索技术结合本体方法、语义分析方法以及实体对象化方法来提供准确的搜索结果。其基本思想是:通过构建一个复杂的行业语法树,对查询关键字词法特性和本体实例之间语义关联强弱进行扩展和分析,精准的获取用户查询意图,同时结合领域知识,构建领域本体和领域对象库,对领域本体和用户查询意图进行准确的语义推理和查询,获取准确的查询结果,最后将查询结果进行对象级封装,返回精准的对象级查询信息。本发明专利技术应用范围广泛,适用于各个垂直领域的信息搜索。
【技术实现步骤摘要】
本专利技术涉及搜索引擎领域,特别涉及对基于本体的对象级搜索技术的研究。
技术介绍
随着Web2. O时代的发展,以网页为基本检索单位的通用搜索引擎正面临发展瓶颈,信息量大、无效信息过多、查询结果准确度低、有效信息非结构化、深度不够等问题逐渐突出。基于关键字查询存在索引容量指数增长、查全率和查准率不断降低、关键字本身所具有的内在涵义被忽略;同时,通用的搜索引擎的查询结果为按相关度排序的网页文件,存在很多的冗余信息。因此,提高搜索查全率和查准率,摒除冗余信息,同时能够进行语义层面的搜索,返回精准的对象级信息成为用户对新一代搜索引擎提出的要求。本体是语义搜索中的关键技术,它结合领域的相关知识和规则,对页面的信息进行语义级别的Web分析和推理,能有效的理解用户搜索意图,获取精准的搜索结果。领域实体对象化方法将互联网上同一个领域实体的信息封装为对象进行存·储,能有效的摒除冗余信息。将本体和领域实体对象化方法与搜索引擎结合,能提高搜索的查全率和查准率,同时降低搜索结果的冗余度,能够提供语义对象级精准搜索。在本专利技术中,采用Prot6g6 (开放源码的本体编辑器)对本体库进行构建,本体采用WebOntology Language (本体描述语言)进行描述。本专利技术基于Jena (用于创建语义网应用系统的Java框架结构,它为OWL等语言提供了一个程序开发环境)进行实现。
技术实现思路
本专利技术公布了一种基于本体的对象级搜索技术,该搜索技术结合领域实体对象化方法、本体技术和语义分析技术来提供准确的对象级搜索结果。该搜索技术的结构图如图1所示,主要由领域对象库、领域本体库、语义查询优化和检索模块等组成I)领域对象库将互联网上存在的关于同一个领域实体的信息组织为对象进行存储,每一个对象包含各种属性信息,对象将作为用户查询的结果返回。2)领域本体库提供相关领域的知识、领域知识的共同理解,提供特定的概念定义和概念之间的关系,提供该领域中所发生的活动以及该领域的主要理论和基本原理。其基本的建模原语包括类、关系、函数、公理以及实例,采用OWL本体描述语言进行描述。3)语义查询优化包含语义树构建、查询词切词、关键字语义计算和语义扩展等过程。语义树根据领域中概念的语义关系进行构建,提供概念的语义信息;语义查询优化基于语义树对用户查询词进行语义分析,分析用户的查询意图。4)检索模块搜索技术的核心模块,获取用户查询意图,通过Jena推理机,进行本体分析和推理以及实体映射,完成用户搜索意图到对象级信息映射的过程。 该搜索技术的基本流程如下I)通过爬虫抓取互联网上包含领域实体信息的网页,对网页中属性信息进行抽取和集成,存储到数据库,生成领域数据库;2)结合领域知识和规则以及领域数据库,采用Prot6g6本体构建工具构建领域本 体;3)结合领域数据库和领域实体对象化方法,构建领域对象库;4)获取用户查询词,进行语义分析查询,返回用户的查询意5)检索模块分析语义分析查询的结果,通过Jena推理机,对用户查询意图进行分 析、本体分析和推理以及实体映射,返回映射列表;6)根据检索模块返回的映射列表,从领域对象库中取出封装好的对象级信息,作 为查询结果返回。附图说明图1基于本体的对象级搜索技术结构图图2语义树的结构图3语义查询优化结构图具体实施方式1.主题信息处理主题信息处理由信息抓取、信息抽取和集成组成,生成所属领域的数据库。信息抓 取采用面向网站的自适应爬虫实现,爬虫下载包含需要信息的网页,建立网页数据库。信息 抽取将信息对象从网页中抽取出来,对信息对象的属性进行语义标注。首先选取网页数据 库中样本网页,利用可视化页面标注工具定制一个抽取模板,同时改版监视器监视样本网 页的改版的情况,及时调整抽取模板,然后从网页数据库中的网页进行页面抽取,集成后建 立领域数据库。2.领域对象库构建领域对象库的构建过程包括对象的数据和行为的抽象、对象的封装。采用标准建 模语言(UML)进行对象建模。以餐饮领域为例,构建领域对象库的过程如下I)完成对象的数据和行为的抽象,标出来领域的相关的对象类,如餐馆类(Class restaurant)、折扣类(Class coupon);2)构建数据字典,确定类之间的关联;3)定义类的属性、操作及方法。例如餐馆类的属性有地址、电话、联系人等;4)通过细分和合并类,逐渐完善各个对象模型。3.行业本体构建本体是共享概念模型的明确的形式化规范说明,提供相关领域的知识、概念定义 和概念之间的关系,在本专利技术中为对搜索引擎中领域信息的规范说明。根据现有的本体构建方法,结合实际的领域应用,提出一种新的本体构建方法,采 用Prot6g6本体构建工具的构建领域本体的过程如下I)领域概念和关系以及相关的领域知识对于某个特定的领域,需要明确该领域的概念和关系。以餐饮领域为例包含的概 念有“菜系”,菜系可以划分为”川菜、湘菜、鲁菜、京菜“。概念之间的基本关系主要有继承 关系、部分整体、实例、属性等关系。2)类的定义首先定义各个基本类,通过父类和子类来定义类层次;然后将所有的细化类进行 合并。一个类片段的定义如下<owl Class rdf ID=“香锅 <rdfs subClassOC><owl Class rdf ID=,’川菜、</rdfs subClassOC></owl Class><owl Class rdf about=’’# 川菜 <rdfs subClassOfi><owl Class rdf ID=”菜系 <rdfs subClassOf></owl Class>其中“香锅“是“川菜”的一个子类,同时“川菜“也是“菜系”的一个子类。3)属性的定义和约束属性的定义包括对象属性(ObjectProperty)和数据类型属性 (DatatypeProperty),对象属性把对象之间进行连接,数据类型属性将数据与对象类型值关联。下面以餐馆和菜系类为例进行对象和数据属性的定义如下<owl ObjectProperty rdf ID=Ibelong'<rdfs:domain rdf:resource=,,#Restaurant,,/><rdfs:range rdf:resource=,,#Cuisine,,/></owl ObjectProperty><owl DatatypePropertyrdf ID-4Place5V <rdfs domain rdf resource=’,#Restaurant’,<rdfs range rdf resource=<4xsd:string,,/></owl DatatypeProperty>4)实例的创建以一家餐馆实例的创建为例,其实例片段的OWL描述如下本文档来自技高网...
【技术保护点】
基于本体的对象级搜索引擎技术包括:语义查询优化模块,用于用户查询意图分析;领域对象库,用于存储领域对象级信息;领域本体,用于存储领域本体信息、知识和规则;检索模块,搜索引擎的核心模块。
【技术特征摘要】
1.基于本体的对象级搜索引擎技术包括语义查询优化模块,用于用户查询意图分析;领域对象库,用于存储领域对象级信息;领域本体,用于存储领域本体信息、知识和规则;检索模块,搜索引擎的核心模块。2.根据权利要求1所述的搜索引擎技术,其特征在于,所述的语义查询优化模块包括语义树,包含领域中词汇间的语义关系;语义相似度,两个词汇之间的语义相似程度;查询词切词,语义扩展。3.根据权利要求1所述的搜索引擎技术,其特征在于,所述的领域对象库采用统一建模语言(UML)进行对象建模。4.根据权利要求1所述的搜索引擎技术,其特征在于,所述的领域本体存储领域的相关知识、领域知识的共同理解,以及概念间关系。5.根据权利要求1所述的搜索引擎技术...
【专利技术属性】
技术研发人员:倪毅,邝俊,
申请(专利权)人:倪毅,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。