基于多源异构数据的统一本体连接查询方法、介质及系统技术方案

技术编号:38412175 阅读:16 留言:0更新日期:2023-08-07 11:17
本发明专利技术涉及数据处理技术领域,尤其涉及一种基于多源异构数据的统一本体连接查询方法、计算机可读存储介质及系统。该基于多源异构数据的统一本体连接查询方法,基于预设的语义模型执行统一数据萃取OneID,使得各个多源异构数据被识别为统一格式ID,然后根据预设的本体模型构建OneID视图清单,为各个多源异构数据导入与本体模型对应的本体属性项,从而实现检索时基于本体属性项的语义适配,将语义适配最接近的统一格式ID输出为检索结果。从多个数据源中提取各种不同的数据,将其面向用户通过统一的、一致的业务语义,通过逻辑SQL进行数据访问和路由,并将最终结果呈现给用户,从而实现多源异构数据的统一、快速、便捷的访问。便捷的访问。便捷的访问。

【技术实现步骤摘要】
基于多源异构数据的统一本体连接查询方法、介质及系统


[0001]本专利技术涉及数据处理
,尤其涉及一种基于多源异构数据的统一本体连接查询方法、计算机可读存储介质及系统。

技术介绍

[0002]基于多源数据的大数据的数据查询及分析方式,传统方式是首先推进数据平台建设,将大量的数据汇集到一个中心后,再进行数据的标准化和清洗工作,最后基于汇总宽表数据进行数据查询和分析。见图1,传统构建方式通过数据接入层、中间层、应用层等逐层构建,数据查询及数据分析通过应用层数据模型进行查询和分析。现有技术存在数据太多,灵活性不够等问题,比如:随着业务发展,新的数据迅速产生,若将数据汇聚到数据湖,量不可控;庞大且适用性低的数据量使得面向新需求,往往需要从头去找新数据源再汇聚,进一步导致业务响应能力降低。如何在数据可信基础上提高业务响应能力成为本领域亟待解决的技术问题。

技术实现思路

[0003]本专利技术所要解决的技术问题是提供一种基于多源异构数据的统一本体连接查询方法以及存储有被执行时实现该方法的计算机程序的计算机可读存储介质,该基于多源异构数据的统一本体连接查询方法能够实现可信数据的快速响应。
[0004]为了解决上述技术问题,第一方面,本专利技术提供了一种基于多源异构数据的统一本体连接查询方法,包括以下步骤:数据获取步骤,在物理层获取待处理的多源异构数据;数据映射步骤,将所获取的多源异构数据从物理层虚拟映射到逻辑层;本体模型处理步骤,对映射在逻辑层的各个多源异构数据,分别基于预设的语义模型执行统一数据萃取OneID,使得各个多源异构数据被识别为统一格式ID,多源异构数据的数据信息全部关联该统一格式ID;动态本体关联步骤,根据所述预设的本体模型构建OneID视图清单,为各个多源异构数据导入与本体模型对应的本体属性项;检索步骤,对接收的检索请求进行基于所述本体属性项的语义适配,将语义适配最接近的统一格式ID输出为检索结果。
[0005]进一步地,以各个多源异构数据的原始来源和业务特征作为这些多源异构数据各自的数据类别。
[0006]进一步地,根据所述多源异构数据所属的数据类别,确定出所述多源异构数据的分发策略。进一步地,所述分发策略包括数据格式、数据传输协议、数据加密方式和数据摆渡机制当中的一种或多种。进一步地,所述数据类别包括文件数据、实时数据、近实时数据和流媒体数据当中
的一种或多种。进一步地,所述动态本体关联步骤中,调用本体属性项中的空间属性、时间属性与主题属性组成识别特征组。进一步地,若两个多源异构数据的识别特征组的特征匹配度高于预设程度,将这两个多源异构数据记载为关联数据,基于所述关联数据自学习所述多源异构数据对应的自动关联策略,得到所述多源异构数据之间的关联关系。进一步地,根据所述多源异构数据所属的数据类别进行分类存储,生成便于用户检索的目录;根据接收到的来自用户检索时输入的兴趣关键词,对所述目录发起检索,获得与兴趣内容匹配的检索结果。第二方面,还提供了一种计算机可读存储介质,其存储有计算机程序,计算机程序被处理器运行时能够实现上述基于多源异构数据的统一本体连接查询方法。
[0007]第三方面,还提供了一种基于多源异构数据的统一本体连接查询系统,包括查询终端、存储终端,还包括处理器以及上述计算机可读存储介质,计算机可读存储介质上的计算机程序可被处理器执行。
[0008]该基于多源异构数据的统一本体连接查询方法,将多源异构数据从物理层虚拟映射到逻辑层后,分别基于预设的语义模型执行统一数据萃取OneID,使得各个多源异构数据被识别为统一格式ID,多源异构数据的数据信息全部关联该统一格式ID;然后根据预设的本体模型构建OneID视图清单,为各个多源异构数据导入与本体模型对应的本体属性项;在检索时对接收的检索请求进行基于本体属性项的语义适配,将语义适配最接近的统一格式ID输出为检索结果。从多个数据源中提取各种不同的数据,将其面向用户通过统一的、一致的业务语义,通过逻辑SQL进行数据访问和路由,并将最终结果呈现给用户,从而实现多源异构数据的统一、快速、便捷的访问。
附图说明
[0009]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
[0010]图1是现有技术的数据分层图。
[0011]图2是该基于多源异构数据的统一本体连接查询方法的数据映射示意图。
[0012]图3是该基于多源异构数据的统一本体连接查询方法的构建过程示意图。
[0013]图4是该基于多源异构数据的统一本体连接查询方法的业务对象关联属性示意图。
[0014]图5是该基于多源异构数据的统一本体连接查询方法的基于动态本体属性项及标准化属性信息示意图。
[0015]图6是该基于多源异构数据的统一本体连接查询方法的数据模型映射结构示意图。
具体实施方式
[0016]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是
本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0017]本实施例的基于多源异构数据的统一本体连接查询系统,包括查询终端、存储终端、处理器和与其连接的计算机可读存储介质,计算机可读存储介质内预先存储有计算机程序,该计算机程序被处理器执行时实现本实施例的基于多源异构数据的统一本体连接查询方法。该方法实现了从多方数据源中提取多源异构数据后,将其虚拟映射到逻辑层,见图2,从而在逻辑层面向用户以预先训练好的语义模型将提取的数据进行统一的、一致的业务语义处理,见图3,并通过逻辑SQL进行数据访问和路由,从而实现多方数据的统一、快速、便捷的访问,并将最终结果呈现给用户。具体步骤说明如下。
[0018]数据获取步骤,在物理层获取待处理的多源异构数据。
[0019]数据映射步骤,将所获取的多源异构数据从物理层虚拟映射到逻辑层。
[0020]本体模型处理步骤,对映射在逻辑层的各个多源异构数据,分别基于预设的语义模型执行统一数据萃取OneID,使得各个多源异构数据被识别为统一格式ID,多源异构数据的数据信息全部关联该统一格式ID。
[0021]其中,预先通过建模工具进行语义层语义模型定义,实现基础业务对象模型和面向应用对象模型,以及本体模型属性的构建,见图4。然后进行业务对象动态本体建模,通过OneId的本体建模理论,见图5,将同一业务对象,如公民、法人、机构、员工、设施、空间、车辆、建筑等进行统一格式ID的编码,并基于历史数据库的大量异构系统形成360
°
视图和画像标签。
[0022]OneId的本体建模具体地,业务实体采用DataVault的模型设计方法,一个业务对象关联属性可以是结构、非结构、实时等信息。建模流程:A、业务实体:设计Hub组件;B、业务本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多源异构数据的统一本体连接查询方法,其特征是,包括以下步骤:数据获取步骤,在物理层获取待处理的多源异构数据;数据映射步骤,将所获取的多源异构数据从物理层虚拟映射到逻辑层;本体模型处理步骤,对映射在逻辑层的各个多源异构数据,分别基于预设的语义模型执行统一数据萃取OneID,使得各个多源异构数据被识别为统一格式ID,多源异构数据的数据信息全部关联该统一格式ID;动态本体关联步骤,根据预设的本体模型构建OneID视图清单,为各个多源异构数据导入与本体模型对应的本体属性项;检索步骤,对接收的检索请求进行基于所述本体属性项的语义适配,将语义适配最接近的统一格式ID输出为检索结果。2.如权利要求1所述的基于多源异构数据的统一本体连接查询方法,其特征是,以各个多源异构数据的原始来源和业务特征作为这些多源异构数据各自的数据类别。3.如权利要求2所述的基于多源异构数据的统一本体连接查询方法,其特征是,根据所述多源异构数据所属的数据类别,确定出所述多源异构数据的分发策略。4.如权利要求3所述的基于多源异构数据的统一本体连接查询方法,其特征是,所述分发策略包括数据格式、数据传输协议、数据加密方式和数据摆渡机制当中的一种或多种。5.如权利要求2所述的基于多源异构数据的统一本体连接查询方法,其特征是...

【专利技术属性】
技术研发人员:高伟王全胜张晓光李劲松张东升
申请(专利权)人:广州信安数据有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1