一种大数据环境下基于本体语义的查询方法及系统技术方案

技术编号:14533032 阅读:211 留言:0更新日期:2017-02-02 16:08
本发明专利技术公开了一种大数据环境下基于本体语义的查询方法,包括:根据用户在查询界面提出的查询请求提取本体语义以生成第一查询语句;通过本体推理机进行推理将第一查询语句转换为第二查询语句,第二查询语句与全局本体相关;将第二查询语句分解为第三查询语句,第三查询语句与局部本体相关;根据局部本体和关系数据库之间的映射关系,将第三查询语句转换第四查询语句,第四查询语句与关系数据库相关;以及利用第四查询语句查询关系数据库,生成查询结果并返回给用户。本发明专利技术采用本体语义的提取,实现语义属性的扩展和分解,实现挖掘隐含在语义中的属性,提高语义的匹配速度和准确率。

Method and system for querying ontology based on large data environment

The query method based on semantic ontology, including the present invention discloses a large data environment: Based on the user queries the query interface extraction ontology to generate the first query; the first query conversion query second by ontology reasoning tool, second queries and the global ontology; second the query is decomposed into third queries, third queries associated with local ontology; according to the mapping between local ontology and relational database, the third query conversion fourth query fourth query and relational database; and the use of fourth query relational database query, query results and returns to the user. The invention adopts the extraction of the semantic of the ontology to realize the expansion and the decomposition of the semantic attribute, to realize the property of mining the implicit in the semantics, and to improve the matching speed and the accuracy of the semantic.

【技术实现步骤摘要】

本专利技术涉及大数据的处理
,尤其涉及一种大数据环境下基于本体语义的查询方法及系统
技术介绍
在现在的大数据时代环境下,数据具有多源异构、分布广泛、动态增长等特性,传统的数据管理模式已不适应大数据环境,目前的系统检索功能已不再能满足人们多样的需求。传统的数据检索方法依据检索对象的不同,可以分为文本检索和多媒体检索。文本检索是指基于文字的检索,它是最早也是最常见的信息表现形式,在信息检索研究中占有基础地位。多媒体检索的对象包括图像、动画、音频和视频,但大多数多媒体检索系统扔采取基于文本关键字的搜索技术。依据检索的不同,文本检索可以分为全文检索和字段检索。全文检索的特点是把用户的查找请求和全文中的每一个词进行比较,不考虑请求与文本语义上的匹配,这种方式虽然可以保证查全率,但是查准率却大大降低了。字段检索只在某些信息点进行匹配,它的性能取决于所使用的标识字段的方法和用户对这种方法的理解,因此具有很大的局限性,字段检索支持语义匹配的能力也较差。在传统基于关键词检索方法中,产生误检、漏检的一个重要原因是用户的需求表达与信息系统的表示方式不一致,实质上是对领域知识理解的不一致,要解决这个问题必须采取某种人和机器都能理解的中间语言来促进人机交流,消除人和机器对同一信息的认同误区。本体论可以用来捕获相关的领域知识,形成对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇和词汇之间相互关系的明确定义。
技术实现思路
本专利技术的目的在于解决现有的数据检索方法中的语义匹配能力较差的问题,提供一种大数据环境下基于本体语义的查询方法及系统以通过本体语义采用属性扩展和和分解的方式实现快速、准确的查询。一方面,本专利技术实施例提供一种大数据环境下基于本体语义的查询方法,包括以下步骤:根据用户在查询界面提出的查询请求提取本体语义以生成第一查询语句;通过本体推理机进行推理将所述第一查询语句转换为第二查询语句,所述第二查询语句与全局本体相关;将所述第二查询语句分解为第三查询语句,所述第三查询语句与局部本体相关;根据所述局部本体和关系数据库之间的映射关系,将所述第三查询语句转换第四查询语句,所述第四查询语句与所述关系数据库相关;以及利用所述第四查询语句查询所述关系数据库,生成查询结果并返回给用户。优选地,通过本体推理机进行推理将所述第一查询语句转换为第二查询语句的所述步骤包括:利用所述本体推理机,在全局本体库中检索与用户的所述查询请求中包含的数据语义相关的全局本体;根据检索到的所述全局本体,重新构造查询语句,将所述第一查询语句转换为所述第二查询语句。优选地,在将所述第二查询语句分解为第三查询语句的所述步骤中,利用查询控制返回的结果和全局本体和局部本体之间的映射表,将所述第二查询语句分解为所述第三查询语句。优选地,利用资源描述框架RDF来描述所述全局本体和所述局部本体。相应地,本专利技术还提供一种大数据环境下基于本体语义的查询系统,包括:用户交互模块,用于用户输入查询请求,并显示返回的查询结果;本体语义提取模块,连接于用户交互模块,用于根据所述查询请求提取本体语义以生成第一查询语句;本体推理机,连接于所述本体语义提取模块,用于进行推理将所述第一查询语句转换为第二查询语句,所述第二查询语句与全局本体相关;分解模块,连接于所述本体推理机,用于将所述第二查询语句分解为与局部本体相关的第三查询语句;映射模块,连接于所述分解模块,用于根据所述局部本体和关系数据库之间的映射关系,将所述第三查询语句转换第四查询语句,所述第四查询语句与所述关系数据库相关;查询模块,连接于所述映射模块和所述用户交互模块,用于利用所述第四查询语句查询所述关系数据库,生成查询结果并返回给所述用户交互模块。优选地,所述本体推理机用于在全局本体库中检索与用户的所述查询请求中包含的数据语义相关的全局本体,根据检索到的所述全局本体,重新构造查询语句,将所述第一查询语句转换为所述第二查询语句。优选地,所述分解模块利用查询控制返回的结果和全局本体和局部本体之间的映射表,将所述第二查询语句分解为所述第三查询语句。优选地,利用资源描述框架RDF来描述所述全局本体和所述局部本体。实施本专利技术实施例,具有如下有益效果:本专利技术提供的大数据环境下基于本体语义的查询方法,根据用户输入的查询请求提取本体语义,通过将本体语义转换为全局本体进行属性扩展,以挖掘隐含在语义中的属性,再通过本体推理机,将全局本体分解为局部本体,利用局部本体与关系数据库之间的映射关系进行查询,由此,可以提高语义的匹配速度和查询的准确率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术第一实施例提供的大数据环境下基于本体语义的查询方法的流程图。图2为本专利技术第二实施例提供的大数据环境下基于本体语义的查询方法的流程图。图3为本专利技术一实施例提供的大数据环境下基于本体语义的查询系统的原理图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例一图1为本专利技术第一实施例提供的大数据环境下基于本体语义的查询方法的流程图。如图1所示,大数据环境下基于本体语义的查询方法包括以下步骤:步骤S110:根据用户在查询界面提出的查询请求提取本体语义以生成第一查询语句。本体论具有较好的逻辑推理功能,对于用户给出的检索词,利用本体论的逻辑推理功能,判断其所属的可能领域,然后分别将该领域及其属下的相关概念与定义以本体化的形式提供给用户。这样一方面可以帮助用户明确其信息需求,把未意识到的、未清晰表达的客观信息需求进一步显性化另一方面让系统确定检索词在本体论中的确切位置,从而帮助机器理解用户的检索意图,为用户提供更精确、更相关的知识与信息。步骤S120:通过本体推理机进行推理将所述第一查询语句转换为第二查询语句,所述第二查询语句与全局本体相关。具体地,在本专利技术一实施例中,通过本体推理机可以将根据用户的查询请求提取的本体语义进行属性扩展,将于本体语义有关的第一查询语句转换为与全局本体相关的第二查询语句。具体地,全局本体是指将《中国图书馆分类法》提供的分类体系与《中国分类主题词表》提供的系统的知识分类系统融合起来,实现二者的一对一、一对多的对应转换关系。根据等值对应、近似对应、从属对应等关系,可显现这种隐含的对应关系。通过相应的软件实现二者之相互控制和转换,并在此基础上建立基于《中国分类主题词表》的分布式主体的全局本体库。在此基础上,可以实现分类语言、主题语言一体化,根据分类语言、主题语言兼容互换的原理,实现自动标引和分类。形成机器标引的样本语料映射到现成分类体系上形成全局本体库,并与权威的标引数据库整合起来建立一个高质量、高效率的用于自动分类的知识库。步骤S130:将所述第二查询语句分本文档来自技高网...

【技术保护点】
一种大数据环境下基于本体语义的查询方法,其特征在于,包括以下步骤:根据用户在查询界面提出的查询请求提取本体语义以生成第一查询语句;通过本体推理机进行推理将所述第一查询语句转换为第二查询语句,所述第二查询语句与全局本体相关;将所述第二查询语句分解为第三查询语句,所述第三查询语句与局部本体相关;根据所述局部本体和关系数据库之间的映射关系,将所述第三查询语句转换第四查询语句,所述第四查询语句与所述关系数据库相关;以及利用所述第四查询语句查询所述关系数据库,生成查询结果并返回给用户。

【技术特征摘要】
1.一种大数据环境下基于本体语义的查询方法,其特征在于,包括以下步骤:根据用户在查询界面提出的查询请求提取本体语义以生成第一查询语句;通过本体推理机进行推理将所述第一查询语句转换为第二查询语句,所述第二查询语句与全局本体相关;将所述第二查询语句分解为第三查询语句,所述第三查询语句与局部本体相关;根据所述局部本体和关系数据库之间的映射关系,将所述第三查询语句转换第四查询语句,所述第四查询语句与所述关系数据库相关;以及利用所述第四查询语句查询所述关系数据库,生成查询结果并返回给用户。2.根据权利要求1所述的大数据环境下基于本体语义的查询方法,其特征在于,通过本体推理机进行推理将所述第一查询语句转换为第二查询语句的所述步骤包括:利用所述本体推理机,在全局本体库中检索与用户的所述查询请求中包含的数据语义相关的全局本体;根据检索到的所述全局本体,重新构造查询语句,将所述第一查询语句转换为所述第二查询语句。3.根据权利要求1所述的大数据环境下基于本体语义的查询方法,其特征在于,在将所述第二查询语句分解为第三查询语句的所述步骤中,利用查询控制返回的结果和全局本体和局部本体之间的映射表,将所述第二查询语句分解为所述第三查询语句。4.根据权利要求1-3所述的大数据环境下基于本体语义的查询方法,其特征在于,利用资源描述框架RDF来描述所述全局本体和所述局部本体。5.一种大数据环境下基于本体语义的查询系统,其特征在...

【专利技术属性】
技术研发人员:都政易明祥陈远磊张冬云熊超超罗文龙
申请(专利权)人:国家超级计算深圳中心深圳云计算中心深圳云计算中心有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1