基于知识图谱的泛在时空数据交叉验证方法及装置制造方法及图纸

技术编号:39411072 阅读:9 留言:0更新日期:2023-11-19 16:02
本发明专利技术提供了一种基于知识图谱的泛在时空数据交叉验证方法及装置,包括:获取多源时空数据,并对多源时空数据的坐标和时间进行统一;基于坐标和时间统一的多源时空数据构建时空知识图谱;对时空知识图谱进行实体空间信息验证和实体时间序列信息验证,得到高质量时空知识,并将所述时空知识存入时空数据库。本发明专利技术缓解了多源数据质量良莠不齐、来自不同数据源的知识重复、知识间的关联不够明确的问题。知识间的关联不够明确的问题。知识间的关联不够明确的问题。

【技术实现步骤摘要】
基于知识图谱的泛在时空数据交叉验证方法及装置


[0001]本专利技术涉及时空数据处理
,尤其是涉及一种基于知识图谱的泛在时空数据交叉验证方法及装置。

技术介绍

[0002]近年来,随着数据产生的方式和涵盖的领域范围不断在扩展,描述与记录人类社会、计算机世界和物质世界复杂事物的时空数据迅猛增长,时空数据规模越来越庞大,语义越来越丰富。通过互联网等手段获取的时空数据信息既包含矢量、影像、栅格等具有明确的空间参考和标准化,采用通用格式存储的结构化数据,同时又包含大量以文本、文档、图片等采用非标准和通用格式存储,但具有明确时间和定位信息的半结构或非结构化数据。具体类型包括,地理信息数据,如地形数据、遥感影像、DEM等;气象数据:包括气温、温度、降雨量等;交通数据:如路网、车辆位置,交通流量等数据;其他的诸如社交媒体数据、人口、经济等数据以及传感器数据等。传统的针对时空数据处理方法主要通过将获取的多源异构时空数据信息进行结构和数据标准的统一,包括数据结构,时间和空间基准等,然后依据数据描述的实体信息或时空信息存入数据库中,根据不同的需求,选择合适的数据进行后续的应用分析。但是现有的处理方法存在多源数据质量良莠不齐、来自不同数据源的知识重复、知识间的关联不够明确等问题。

技术实现思路

[0003]有鉴于此,本专利技术的目的在于提供一种基于知识图谱的泛在时空数据交叉验证方法及装置,以缓解多源数据质量良莠不齐、来自不同数据源的知识重复、知识间关联不够明确的问题。
[0004]为了实现上述目的,本专利技术实施例采用的技术方案如下:第一方面,本专利技术实施例提供了一种基于知识图谱的泛在时空数据交叉验证方法,包括:获取多源时空数据,并对多源时空数据的坐标和时间进行统一;基于坐标和时间统一的多源时空数据构建时空知识图谱;对时空知识图谱进行实体空间信息验证和实体时间序列信息验证,得到高质量时空知识,并将时空知识存入时空数据库。
[0005]在一种实施方式中,基于坐标和时间统一的多源时空数据构建时空知识图谱,包括:基于坐标和时间统一的多源时空数据获取空间实体和时间实体,并根据时间实体和空间实体之间的关系确定时空知识图谱;将多源时空数据中的时间信息、空间信息和属性信息与时空知识图谱进行映射,得到时空知识图谱的时空数据三元组;对时空知识图谱的时空数据三元组进行知识合并。
[0006]在一种实施方式中,基于时空知识图谱的时空数据三元组进行知识合并,包括:计算空间实体的空间相似度;将空间相似度超过相似度阈值的空间实体进行知识合并。
[0007]在一种实施方式中,计算空间实体的空间相似度,包括:当空间实体为点实体时,采用欧式距离计算点实体的空间相似度;当空间实体为线实体时,将线实体分解为由折点
构成的离散点集,利用Hausdorff距离计算线实体的空间相似度;当空间实体为面实体时,计算面实体的特征相似度,并基于特征相似度进行加权求和得到面实体的空间相似度;其中,特征相似度包括:距离相似度、形状相似度和大小相似度。
[0008]在一种实施方式中,对时空知识图谱进行实体空间信息验证,包括:对于同一空间实体,提取空间实体的多源位置信息,并将位置信息确定为候选地址信息;对候选地址信息进行分词,并基于标准地址数据库和分词结果,计算候选地址信息的置信度;将候选地址信息按照置信度从大到小的顺序进行排序,并基于排序结果选择预设数量的候选地址信息作为新的候选地址;基于新的候选地址的地理坐标信息,计算每两个地理坐标信息之间的相对距离,并将相对距离最小的两个点确定为最终候选地址;将两个最终候选地址中置信度较高的地址信息确定为空间实体的唯一位置信息标识;基于唯一位置信息标识构建多尺度地理编码索引。
[0009]在一种实施方式中,对于同一空间实体,提取空间实体的多源位置信息,还包括:对于缺少地址名称信息的位置信息,基于地理位置坐标和开源地图服务确定地理位置坐标对应的位置信息。
[0010]在一种实施方式中,对时空知识图谱进行实体时间序列信息验证,包括:获取描述同一实体信息的异源时序数据集合;对于异源时序数据集合中的每个异源时序数据构建对应的拟合模型;基于拟合模型对异源时序数据集合中的异源时序数据进行拟合,得到多个拟合值集合,并计算每个拟合值集合和异源时序数据集合的均方误差;基于最小均方误差准则,将均方误差最小的拟合值集合确定为最优拟合值集合,并计算最优拟合值集合与异源时序数据集合之间的相对误差;将相对误差小于误差阈值的数据进行合并。
[0011]第二方面,本专利技术实施例提供了一种基于知识图谱的泛在时空数据交叉验证装置,包括:数据获取模块,用于获取多源时空数据,并对多源时空数据的坐标和时间进行统一;图谱构建模块,用于基于坐标和时间统一的多源时空数据构建时空知识图谱;验证模块,用于对时空知识图谱进行实体空间信息验证和实体时间序列信息验证,得到高质量时空知识,并将时空知识存入时空数据库。
[0012]第三方面,本专利技术实施例提供了一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现上述第一方面提供的任一项的方法的步骤。
[0013]第四方面,本专利技术实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述第一方面提供的任一项的方法的步骤。
[0014]本专利技术实施例带来了以下有益效果:本专利技术实施例提供的上述基于知识图谱的泛在时空数据交叉验证方法及装置,首先,获取多源时空数据,并对多源时空数据的坐标和时间进行统一;然后,基于坐标和时间统一的多源时空数据构建时空知识图谱;最后,对时空知识图谱进行实体空间信息验证和实体时间序列信息验证,得到高质量时空知识,并将时空知识存入时空数据库。上述方法通过建立时空知识图谱,将来自不同知识源的时空数据在同一框架规范下进行异构数据整合,得到高质量的时空知识;同时分别在时间和空间层面,通过对空间位置信息的交叉验证和对同一实体下描述同一信息的多源时间序列信息进行交叉验证,实现对异源信息的质量
评估,从而缓解多源数据质量良莠不齐、来自不同数据源的知识重复、知识间的关联不够明确的问题。
[0015]本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
[0016]为使本专利技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0017]为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1为本专利技术实施例提供的一种基于知识图谱的泛在时空数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱的泛在时空数据交叉验证方法,其特征在于,包括:获取多源时空数据,并对所述多源时空数据的坐标和时间进行统一;基于坐标和时间统一的所述多源时空数据构建时空知识图谱;对所述时空知识图谱进行实体空间信息验证和实体时间序列信息验证,得到高质量时空知识,并将所述时空知识存入时空数据库。2.根据权利要求1所述的方法,其特征在于,基于坐标和时间统一的所述多源时空数据构建时空知识图谱,包括:基于坐标和时间统一的所述多源时空数据获取空间实体和时间实体,并根据所述时间实体和所述空间实体之间的关系确定时空知识图谱;将所述多源时空数据中的时间信息、空间信息和属性信息与所述时空知识图谱进行映射,得到所述时空知识图谱的时空数据三元组;基于所述时空知识图谱的时空数据三元组进行知识合并。3.根据权利要求2所述的方法,其特征在于,基于所述时空知识图谱的时空数据三元组进行知识合并,包括:计算所述空间实体的空间相似度;将所述空间相似度超过相似度阈值的空间实体进行知识合并。4.根据权利要求3所述的方法,其特征在于,计算所述空间实体的空间相似度,包括:当所述空间实体为点实体时,采用欧式距离计算点实体的空间相似度;当所述空间实体为线实体时,将所述线实体分解为由折点构成的离散点集,利用Hausdorff距离计算所述线实体的空间相似度;当所述空间实体为面实体时,计算所述面实体的特征相似度,并基于所述特征相似度进行加权求和得到所述面实体的空间相似度;其中,所述特征相似度包括:距离相似度、形状相似度和大小相似度。5.根据权利要求1所述的方法,其特征在于,对所述时空知识图谱进行实体空间信息验证,包括:对于同一空间实体,提取所述空间实体的多源位置信息,并将所述位置信息确定为候选地址信息;对所述候选地址信息进行分词,并基于标准地址数据库和分词结果,计算所述候选地址信息的置信度;将所述候选地址信息按照置信度从大到小的顺序进行排序,并基于排序结果选择预设数量的候选地址信息作为新的候选地址;基于...

【专利技术属性】
技术研发人员:王昊王宇翔周令泉刘凯李小涵廖通逵刘福权胡晓燕
申请(专利权)人:航天宏图信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1