数据血缘图驱动的相似数据发现方法及装置制造方法及图纸

技术编号:42617198 阅读:24 留言:0更新日期:2024-09-03 18:23
本公开提供了一种数据血缘图驱动的相似数据发现方法及装置,可以应用于计算机科学和数据分析技术领域。该方法包括:对数据空间重复以下操作,直至数据空间的多个子空间各自包括的数据节点的数量均小于或等于预设数量:对于每个节点数量大于预设数量的空间结构;基于空间结构中包括的其他数据节点与初始数据节点之间的节点距离,确定目标数据节点;基于初始数据节点和目标数据节点,确定用于划分空间结构的超平面;基于空间结构和超平面,确定数据空间的多个子空间;基于数据空间和多个子空间,确定包括多个数据节点的数据二叉树;以及基于目标查询信息,从数据二叉树中确定查询结果。

【技术实现步骤摘要】

本公开涉及计算机科学和数据分析领域,具体地涉及一种数据血缘图驱动的相似数据发现方法及装置


技术介绍

1、随着5g、云计算、人工智能和物联网等技术的广泛应用,数据的规模和维度呈爆炸式增长,给数据的查找和使用带来了巨大的挑战,众多数据检索问题中,寻找与某对象最相似的对象,即最近邻搜索,成为了一个核心问题。这一任务在图片搜索、信息检索、推荐系统以及社交网络等多个领域都扮演着至关重要的角色。最近邻搜索的目标是在给定一个查询向量的情况下,按照某种距离度量,在数据库向量集合中找到与查询向量最相似的向量。

2、在实施本公开的过程中,专利技术人发现,现有技术至少存在以下问题:在实际应用中,很多需要同时使用、修改、查询的相似数据可能在数据内容上相似度不高,在构建数据向量集合时忽略数据的元数据信息、数据服务信息和数据修改信息,会导致查询结果仅在数据内容层面相似,因此忽略上述相似数据,导致查询结果不准确。

3、为了解决上述问题,首先需要完整、准确地描述数据的全生命周期。在数据系统中,数据元数据信息非常丰富,数据演变过程十分复杂,应用场景也多种多样。这些本文档来自技高网...

【技术保护点】

1.一种数据血缘图驱动的相似数据发现方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述空间结构中包括的其他数据节点与所述初始数据节点之间的节点距离,确定目标数据节点,包括:

3.根据权利要求1所述的方法,其特征在于,所述超平面与所述初始数据节点之间的距离和所述目标数据节点之间的距离相等;

4.根据权利要求3所述的方法,其特征在于,所述基于所述数据空间和所述多个子空间,确定包括所述多个数据节点的数据二叉树,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于目标查询信息,从所述数据二叉树中确定查询结...

【技术特征摘要】

1.一种数据血缘图驱动的相似数据发现方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述空间结构中包括的其他数据节点与所述初始数据节点之间的节点距离,确定目标数据节点,包括:

3.根据权利要求1所述的方法,其特征在于,所述超平面与所述初始数据节点之间的距离和所述目标数据节点之间的距离相等;

4.根据权利要求3所述的方法,其特征在于,所述基于所述数据空间和所述多个子空间,确定包括所述多个数据节点的数据二叉树,包括:

5.根据权利要求4所述的方法,其特征在于,所述基于目标查询信息,从所述数据二叉树中确...

【专利技术属性】
技术研发人员:赵志浩陈曦耿雪冬李峰郭子瑜杨鑫甄恩强王菁华
申请(专利权)人:齐鲁空天信息研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1