一种基于方位编码的相似数据搜索方法、系统及电子设备技术方案

技术编号:38615158 阅读:13 留言:0更新日期:2023-08-26 23:42
本说明书公开了一种基于方位编码的相似数据搜索方法、系统及电子设备,能够以高效准确地确定出相似数据,降低计算成本,提高搜索效率。所述方法包括:获取指定查询数据与给定数据集,所述给定数据集包括多项基本数据;确定所述指定查询数据与多项所述基本数据对应的多维特征向量,并在多维向量空间中确定相应的查询点与多个数据点;针对多个所述数据点构造近邻图,在所述近邻图中为每个所述数据点的多个邻居点进行方位编码,确定多个所述邻居点相应的向量方位编码;基于所述近邻图以及所述向量方位编码在多个所述数据点中进行最近邻搜索,以确定所述查询点的最近邻数据点。以确定所述查询点的最近邻数据点。以确定所述查询点的最近邻数据点。

【技术实现步骤摘要】
一种基于方位编码的相似数据搜索方法、系统及电子设备


[0001]本专利技术涉及大数据处理
,具体涉及一种基于方位编码的相似数据搜索方法、系统及电子设备。

技术介绍

[0002]当前信息化社会,大数据技术获得越发广泛的应用,其主体是为半结构化和非结构化数据(如文本、图像、音频和视频数据等),占总采集量的85%以上,蕴含巨大价值。不过非结构大数据具有海量、异构和混杂等特性,给信息存储、计算以及面向各种应用的数据处理技术带来了前所未有的挑战。为充分挖掘利用非结构化大数据的价值,需要能够对海量非结构化数据进行高效地处理与分析,相似性搜索作为其中的一个关键基础问题,具有重要研究意义。
[0003]相似性搜索是指从给定数据集合中搜索出与指定查询数据最相似数据的过程。由于非结构化数据在结构方面的复杂性导致难以直接计算相似度,一些相关技术中采用提取特征向量的方式将数据转换为向量空间中的数据点进行最近邻搜索,然而高维空间中的最近邻搜索往往会面临“维度灾难”问题,实际处理效果并不理想。一些其他相关技术也往往都会存在计算成本高,搜索效率低的问题。

技术实现思路

[0004]有鉴于此,本说明书实施例提供了一种基于方位编码的相似数据搜索方法、系统及电子设备,能够以高效准确地确定出相似数据,降低计算成本,提高搜索效率。
[0005]在第一方面,本说明书实施例提供了一种基于方位编码的相似数据搜索方法,包括:
[0006]获取指定查询数据与给定数据集,所述给定数据集包括多项基本数据,所述指定查询数据与多项所述基本数据均为非结构化数据;
[0007]对所述指定查询数据与多项所述基本数据进行特征向量提取,生成相对应的多维特征向量,并根据所述多维向量在多维向量空间中确定与所述指定查询数据对应的查询点以及与多项基本数据对应的多个数据点;
[0008]针对多个所述数据点构造近邻图,在所述近邻图中为每个所述数据点的多个邻居点进行方位编码,确定多个所述邻居点相应的向量方位编码;
[0009]基于所述近邻图以及所述向量方位编码在多个所述数据点中进行最近邻搜索,以确定所述查询点的最近邻数据点;
[0010]确定所述最近邻数据点对应的所述基本数据为所述给定查询数据对应的相似数据。
[0011]本说明书实施例还提供了一种基于方位编码的相似数据搜索系统,包括:
[0012]数据获取模块,用于获取指定查询数据与给定数据集,所述给定数据集包括多项基本数据,所述指定查询数据与多项所述基本数据均为非结构化数据;
[0013]特征向量提取模块,用于对所述指定查询数据与多项所述基本数据进行特征向量提取,生成相对应的多维特征向量,并根据所述多维向量在多维向量空间中确定与所述指定查询数据对应的查询点以及与多项基本数据对应的多个数据点;
[0014]方位编码模块,用于针对多个所述数据点构造近邻图,在所述近邻图中为每个所述数据点的多个邻居点进行方位编码,确定多个所述邻居点相应的向量方位编码;
[0015]最近邻搜索模块,用于基于所述近邻图以及所述向量方位编码在多个所述数据点中进行最近邻搜索,以确定所述查询点的最近邻数据点;以及
[0016]相似数据确定模块,用于确定所述最近邻数据点对应的所述基本数据为所述给定查询数据对应的相似数据。
[0017]本说明书实施例还提供了一种基于方位编码的相似数据搜索电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,,所述处理器执行所述程序时实现如第一方面所述的基于方位编码的相似数据搜索方法。
[0018]从上面可以看出,本说明书实施例所提供的一种基于方位编码的相似数据搜索方法、系统及电子设备,具有以下有益技术效果:
[0019]所述基于方位编码的相似数据搜索方法,确定指定查询数据与给定数据集中多项基本数据的多维特征向量,针对多项基本数据对应的多个数据点构造近邻图,基于数据点与对应邻居点在多维向量空间中的方位关系进行方位编码确定多个邻居点对应的向量方位编码,并基于所述向量方位编码执行最近邻搜索,能够实现更加快速地搜索确定出最近邻数据点,从而确定指定查询数据对应的相似数据。这样的方式能够以高效准确地确定出相似数据,降低计算成本,提高搜索效率。
附图说明
[0020]通过参考附图会更加清楚的理解本专利技术的特征和优点,附图是示意性的而不应理解为对本专利技术进行任何限制,在附图中:
[0021]图1示出了本说明书一个或多个可选实施例所提供的一种基于方位编码的相似数据搜索方法示意图;
[0022]图2示出了本说明书一个或多个可选实施例所提供的一种基于方位编码的相似数据搜索方法中构造近邻图的方法示意图;
[0023]图3示出了本说明书一个或多个可选实施例所提供的一种基于方位编码的相似数据搜索方法中进行方位编码的方法示意图;
[0024]图4示出了本说明书一个或多个可选实施例所提供的一种基于方位编码的相似数据搜索方法中进行最近邻搜索的方法示意图;
[0025]图5示出了本说明书一个或多个可选实施例所提供的一种基于方位编码的相似数据搜索系统结构示意图;
[0026]图6示出了本说明书一个或多个可选实施例所提供的一种基于方位编码的相似数据搜索电子设备结构示意图。
具体实施方式
[0027]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例
中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]当前信息化社会,大数据技术获得越发广泛的应用,其主体是为半结构化和非结构化数据(如文本、图像、音频和视频数据等),占总采集量的85%以上,蕴含巨大价值。不过非结构大数据具有海量、异构和混杂等特性,给信息存储、计算以及面向各种应用的数据处理技术带来了前所未有的挑战。为充分挖掘利用非结构化大数据的价值,需要能够对海量非结构化数据进行高效地处理与分析,相似性搜索作为其中的一个关键基础问题,具有重要研究意义。
[0029]相似性搜索是指从给定数据集合中搜索出与指定查询数据最相似数据的过程。由于非结构化数据在结构方面的复杂性导致难以直接计算相似度,一些相关技术中采用提取特征向量的方式将数据转换为向量空间中的数据点进行最近邻搜索,然而高维空间中的最近邻搜索往往会面临“维度灾难”问题,实际处理效果并不理想。一些针对高维空间进行最近邻搜索的其他相关技术也往往都会存在计算量过大,计算成本高,搜索效率低的问题。
[0030]针对上述问题,本说明书实施例的目的在于提出一种基于方位编码的相似数据搜索方法、系统及电子设备,对指定查询数据以及给定数据集中的数据进行方位编码处理后进行最近邻检索,在最近邻搜索时基于方位编码计算汉明距离进行迭代搜索,有效减少方案计算量,提升检索本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于方位编码的相似数据搜索方法,其特征在于,所述方法包括:获取指定查询数据与给定数据集,所述给定数据集包括多项基本数据,所述指定查询数据与多项所述基本数据均为非结构化数据;对所述指定查询数据与多项所述基本数据进行特征向量提取,生成相对应的多维特征向量,并根据所述多维向量在多维向量空间中确定与所述指定查询数据对应的查询点以及与多项基本数据对应的多个数据点;针对多个所述数据点构造近邻图,在所述近邻图中为每个所述数据点的多个邻居点进行方位编码,确定多个所述邻居点相应的向量方位编码;基于所述近邻图以及所述向量方位编码在多个所述数据点中进行最近邻搜索,以确定所述查询点的最近邻数据点;确定所述最近邻数据点对应的所述基本数据为所述给定查询数据对应的相似数据。2.根据权利要求1所述的方法,其特征在于,针对多个所述数据点构造近邻图,包括:依次选取多个所述数据点作为顶点;确定所述顶点与其他多个所述数据点之间的距离,选取与所述顶点间距离最小的多个所述数据点作为所述顶点的邻居点;利用有向边将所述顶点与相应的多个所述邻居点连接,有向边从所述顶点指向所述邻居点。3.根据权利要求1所述的方法,其特征在于,在所述近邻图中为每个所述数据点的多个邻居点进行方位编码,确定多个所述数据点相应的向量方位编码,包括:针对所述给定数据集对应的多个所述数据点相应的所述多维特征向量进行主成分分析,确定主分量投影矩阵;在所述近邻图中,根据所述主分量投影矩阵计算确定所述数据点对应的所述邻居点相对该数据点的方位编码串作为所述邻居点对应的所述向量方位编码。4.根据权利要求3所述的方法,其特征在于,针对所述给定数据集对应的多个所述数据点相应的所述多维特征向量进行主成分分析,确定主分量投影矩阵,包括:使用主成分分析方法计算出多个所述数据点相应的所述多维特征向量的前g

个主分量以构成所述主分量投影矩阵;所述主分量:其中表示所述主分量中第i个综合指标分量,所述主分量由g

个两两相互正交的向量构成,g

=log2g。5.根据权利要求4所述的方法,其特征在于,根据所述主分量投影矩阵计算确定所述数据点对应的所述邻居点相对该数据点的方位编码串,包括:对于每个所述给定数据集中的每个所述数据点令表示在近邻图中的一个所述邻居点,利用所述主分量投影矩阵,计算相对于的方位编码串:C
y
=c1c2…
c
i

c
g

其中,c
i
表示所述方位编码串中的第i位编码。6.根据权利要求1所述的方法,其特...

【专利技术属性】
技术研发人员:冯小康王江孙华锦
申请(专利权)人:山东云海国创云计算装备产业创新中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1