一种基于ElasticSearch的本体关系数据搜索框架制造技术

技术编号:14130803 阅读:84 留言:0更新日期:2016-12-09 19:25
本发明专利技术特别涉及一种基于ElasticSearch的本体关系数据搜索框架。该基于ElasticSearch的本体关系数据搜索框架,通过对本体建模完成了本体的构建,通过对ES中数据Schema的建模实现了数据在ES中的存储,最终通过本体搜索算法以及关系计算算法实现了本体以及关系数据的搜索,进而实现了多维度、全息化、动态化的信息检索、关联、整合、统计和分析。

【技术实现步骤摘要】

本专利技术涉及数据搜索
,特别涉及一种基于ElasticSearch的本体关系数据搜索框架
技术介绍
本体的概念在上世纪90年代一经提出就引起了计算机各个领域激烈讨论与研究。本体是一套得到大多数人认同的、关于概念体系的明确的、形式化的规范说明。本体的描述语言没有一致的标准,不同领域中构建的本体也存在很大的区别,不同本体的构建过程也相互不同。在信息检索领域中,可以分为以下各个流程:首先构建应用领域的本体;收集信息源中的数据,并参照已经建立的本体,把收集来的数据按规定的格式进行本体实例的构建;对用户检索界面获取的查询请求,进行对本体实例以及相关关系的查询,经过对查询到的数据进行重新组织;按照一定的格式对查询的结果进行数据返回并显示。语义网的实现是本体应用的终极目标,经过多年的研究与演化,语义网也有以前的定义:把web数据转化为计算机可理解的数据,转变为更加一般的概念:本体以及本体之间关系的表现形式。在构建好的本体上层再添加对本体之间关系的信息,从而把孤立的本体数据联系起来,从而实现更加广泛、新颖的应用。本体经过20多年的研究,已经形成了很多构建方法以及本体描述方式。本体的描述可以有:非形式化语言、半非形式化语言、半形式化语言、形式化语言这四种方式。本体的构建也有最耗时耗力的人工构建,经由半自动构建,发展到了自动化构建。本体的构建速度越来越快,构建效果也越来越好。但是本体构建过程还有很多难点不易攻克,如:本体的构建过程是个费时费力的过程,需要完整的工程化、系统化的方法来支持,目前特定的领域本体还需要专家进行参与;通用的大规模本体很少,大多本体只是针对某个具体应用领域或应用而构造的;在实际应用中,不同本体之间常常需要进行映射、扩充与合并处理,以及根据特定的需要从一个大的本体中提取满足要求的小的本体等操作;此外,当现实的知识体系发生变化时,先前构造的本体必须作出相应的演化以保持本体与现实的一致性,这都是本体工程所需研究的问题。语义网在发展过程中已逐步演化为知识图谱,知识图谱的描述与构建亦有很多方式。描述可用本体论语言(OWL Web Ontology Language),亦可用资源描述框架RDF(Resource Description Framework)来进行描述。传统的搜索引擎只能搜索出现关键词的文档或者可以搜索一些简单的关系(如百度百科中的亲属信息),很难在搜索过程中对搜索的结果再进行相应的关系信息处理。基于此,本专利技术设计了一种基于ElasticSearch的本体关系数据搜索框架。该方法基于自定义本体描述Schema来进行本体定义,并结合ElasticSearch中基本数据结构Document,手动创建对应关系,保证数据的完备性;并通过手动或半自动方式构建本体与本体或属性与属性的关系数据结构,最终生成三元组(本体1,关系,本体2)或者(属性1,关系,属性2)的形式,这样的三元组即表示一条关系。
技术实现思路
本专利技术为了弥补现有技术的缺陷,提供了一种简单高效的基于ElasticSearch的本体关系数据搜索框架。本专利技术是通过如下技术方案实现的:一种基于ElasticSearch的本体关系数据搜索框架,其特征在于包括以下步骤:(1)对本体以及关系的描述进行确定,本体描述Schema的确定标志着本体可以被更加精确的描述,描述Schema是本体构建的基础;(2)从原始数据中进行本体以及关系的构建,原始数据分为结构化数据以及非结构化数据,采用自动与人工结合的方式来实现本体以及关系的构建,人工再对构建好的本体数据进行校正,保证数据的高质量;(3)通过人工构建ElasticSearch中数据Schema的形式导入构建好的本体数据,把已经建立好的本体描述以及结构化数据、非结构化数据导入到ES框架中,并对其建立索引,保存数据;(4)用ElasticSearch工具进行数据搜索,并最终展示。所述步骤(2)中,结构化数据包括人,事,物,地点和机构数据;非结构化数据包括网页文档和图片数据。所述步骤(3)中,在ES框架中保存本体的Schema与所述步骤(1)中本体描述Schema相一致。本专利技术的有益效果是:该基于ElasticSearch的本体关系数据搜索框架,通过对本体建模完成了本体的构建,通过对ES中数据Schema的建模实现了数据在ES中的存储,最终通过本体搜索算法以及关系计算算法实现了本体以及关系数据的搜索,进而实现了多维度、全息化、动态化的信息检索、关联、整合、统计和分析。附图说明附图1为本专利技术基于ElasticSearch的本体关系数据搜索框架结构示意图。附图2为本专利技术基于ElasticSearch的本体关系数据搜索框架方法示意图。具体实施方式为了使本专利技术所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图和实施例,对本专利技术进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。该基于ElasticSearch的本体关系数据搜索框架,包括以下步骤:(1)对本体以及关系的描述进行确定,本体描述Schema的确定标志着本体可以被更加精确的描述,描述Schema是本体构建的基础;(2)从原始数据中进行本体以及关系的构建,原始数据分为结构化数据以及非结构化数据,采用自动与人工结合的方式来实现本体以及关系的构建,人工再对构建好的本体数据进行校正,保证数据的高质量,这样可以把人的价值发挥到最大,使得工作更加智能;所述步骤(2)中,结构化数据包括人,事,物,地点和机构数据;非结构化数据包括网页文档和图片数据。(3)通过人工构建ElasticSearch中数据Schema的形式导入构建好的本体数据,把已经建立好的本体描述以及结构化数据、非结构化数据导入到ES框架中,并对其建立索引,保存数据;所述步骤(3)中,在ES框架中保存本体的Schema与所述步骤(1)中本体描述Schema相一致。(4)用ElasticSearch工具进行数据搜索,并最终展示。下面以公安行业中的人、案、物、单位等概念为例进行说明。1、确定本体描述Schema:在领域内专家的帮助下,针对公安行业中的人、案、物、单位等概念进行抽象,并通过描述Schema的形式对不同的本体进行描述,具体如下:(1)人本体主要包括:姓名、性别、出生日期、民族、学历、行政区划、证件号(身份证、军官证等)籍贯等;(2)案本体主要包括:案件类型、案件说明、时间、地址、当事人名、单位、警号、警员名、警情单号、主要线索(关键词)等;(3)物本体主要包括:物品名称、物品种类、物品颜色、物品所有人、物品购买路径等;(4)单位本体主要包括:单位名称、单位编号、法人代表、法人代表证件号、单位所在地区、详细地址、联系电话等。2、确定ElasticSearch框架Schema:通过人工构建ElasticSearch中数据Schema的形式导入构建好的本体数据,把已经建立好的本体描述以及结构化数据、非结构化数据导入到ES框架中,并对其建立索引,保存数据,在ES中保存本体的Schema通常与本体描述Schema相一致。(1)人本体主要包括:姓名(Name)、性别(Gender)、出生日期(Birthday)、民族(Nation)、学历(Educat本文档来自技高网
...
一种基于ElasticSearch的本体关系数据搜索框架

【技术保护点】
一种基于ElasticSearch的本体关系数据搜索框架,其特征在于包括以下步骤:(1)对本体以及关系的描述进行确定,本体描述Schema的确定标志着本体可以被更加精确的描述,描述Schema是本体构建的基础;(2)从原始数据中进行本体以及关系的构建,原始数据分为结构化数据以及非结构化数据,采用自动与人工结合的方式来实现本体以及关系的构建,人工再对构建好的本体数据进行校正,保证数据的高质量;(3)通过人工构建ElasticSearch中数据Schema的形式导入构建好的本体数据,把已经建立好的本体描述以及结构化数据、非结构化数据导入到ES框架中,并对其建立索引,保存数据;(4)用ElasticSearch工具进行数据搜索,并最终展示。

【技术特征摘要】
1.一种基于ElasticSearch的本体关系数据搜索框架,其特征在于包括以下步骤:(1)对本体以及关系的描述进行确定,本体描述Schema的确定标志着本体可以被更加精确的描述,描述Schema是本体构建的基础;(2)从原始数据中进行本体以及关系的构建,原始数据分为结构化数据以及非结构化数据,采用自动与人工结合的方式来实现本体以及关系的构建,人工再对构建好的本体数据进行校正,保证数据的高质量;(3)通过人工构建ElasticSearch中数据Schema的形式导入构建好的本体数据,把已经建立好的本体描述...

【专利技术属性】
技术研发人员:王明君柳廷娜
申请(专利权)人:浪潮软件股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1