向量相似度搜索的可视化方法、电子设备及介质技术

技术编号:33131726 阅读:17 留言:0更新日期:2022-04-17 00:49
本申请涉及非结构化数据分析处理的可视化领域,特别涉及一种向量相似度搜索的可视化方法、电子设备及介质。在本申请的向量相似度搜索的可视化方法中,通过为向量空间的索引算法的各个阶段都提供一种新颖的呈现方式,在客观上以可视化的方式为向量空间构建了一种更为具像化的结构。通过这样的呈现方式,可以让用户非常清楚地理解在向量相似度搜索的过程中发生了什么,更容易理解向量相似度搜索的实现过程和机制,满足用户的好奇心,提高了用户人机交互的体验。人机交互的体验。人机交互的体验。

【技术实现步骤摘要】
向量相似度搜索的可视化方法、电子设备及介质


[0001]本申请涉及非结构化数据分析处理的可视化领域,特别涉及一种向量相似度搜索的可视化方法、电子设备及介质。

技术介绍

[0002]身处大数据时代,生产经营活动中对于数据分析的需求越来越大。然而,作为分析对象的数据因为来源于各个渠道和源头,并非全是规范的结构化数据。所以对于非结构化数据处理的需求是最大的。因此,人们研究出了非常多的计算机处理算法,用于分析处理非结构化数据。
[0003]随着社会分工的细化,虽然有非常多的企业对于非结构化数据分析算法的需求旺盛,但他们自身并不会对算法进行投入和研究,而是更多采购软件即服务(software as a service,SaaS)类的服务。对于提供分析算法的服务商而言,在向用户展示他们所开发的算法的时候,往往很难找到一个让用户体验好的方式,精准地描述非结构化数据处理技术和算法如何运转。并且,对于作为分析对象的数据而言,这些数据有时是高维数据(描述的维度大于3)。对于这样的高维数据的处理,用户理解非结构化数据处理技术和算法则是更为困难了。

技术实现思路

[0004]本申请实施例提供了一种向量相似度搜索的可视化方法、装置及介质。
[0005]第一方面,本申请提供了一种向量相似度搜索的可视化方法,用于电子设备,该方法包括:
[0006]确定查询向量,以及用于搜索的目标库,并且运行向量相似度搜索,其中,目标库中包括多个向量,并且目标库被呈现为N层的分层结构,分层结构的每一层包括至少一个群,每个群中包括至少一个向量;N层中的每个群都包括一个代表向量;其中,N是大于等于2的整数;
[0007]在N层的第一层中确定至少一个群,并且基于各个群的代表向量,确定距离查询向量在预设范围内的至少一个第一群,并且,以第一可视化方式显示确定第一群的过程的至少部分;
[0008]以第二可视化方式,从至少一个第一群中的各个第一群开始,呈现从第1层逐层进入第M层的过程,其中M=2,3,

,N

1,N;
[0009]对于第M层,以逐层搜索的方式确定候选向量,其中
[0010]在M=2,3,
……
,N

1的情形中,在第M层中隶属于上一层确定的群的所有群中,基于各个群的代表向量,确定距离查询向量最近的第二群,并且,以第一可视化方式显示每层中确定第二群的过程的至少部分,以及以第二可视化方式,呈现从第M层进入第M+1层的过程;及
[0011]在M=N的情形中,从第M层中隶属于上一层确定的群包括的所有向量中,基于各个
向量与查询向量的距离,确定预设数量的候选向量;并且,以第三可视化方式显示确定候选向量的过程的至少部分,以及
[0012]以第四可视化方式,显示候选向量。
[0013]可以理解,通常的向量搜索算法都仅向用户输出最终的搜索结果,而其中的具体搜索过程对用户而言是未知的。但是通过本申请的可视化方法,能够将向量搜索过程以便于用户理解的方式,呈现给用户,比如下文图7示出的具体可视化的形式。
[0014]在上述第一方面的一种可能的实现中,在N层的第一层中确定多个群,且基于各个群的代表向量,确定距离查询向量最近的第一群,包括,
[0015]确定第一层中的所有群;
[0016]基于所有群中的每个群的代表向量,确定与查询向量的距离;以及
[0017]根据距离,确定距离查询向量满足预设条件的至少一个第一群。
[0018]在上述第一方面的一种可能的实现中,在M=2,3,
……
,N

1的情形中,在第M层中包括的所有群中,基于各个群的代表向量,确定距离查询向量最近的第二群,包括
[0019]确定第M层中的所有群;
[0020]基于所有群中的每个群的代表向量,确定与查询向量的距离;以及
[0021]根据距离,确定距离查询向量满足预设条件的至少一个群作为第二群。
[0022]在上述第一方面的一种可能的实现中,在M=N的情形中,从第M层包括的所有向量中,基于各个向量与查询向量的距离,确定预设数量的候选向量,包括
[0023]确定第M层中的所有向量;
[0024]基于所有向量与查询向量的距离;以及
[0025]根据距离以及预设条件,确定预设数量的向量作为候选向量。
[0026]在上述第一方面的另一种可能的实现中,在N层的第一层中确定多个群,且基于各个群的代表向量,确定距离查询向量在预设范围内的至少一个第一群,包括,
[0027]在第一层中确定一起始向量;
[0028]从起始向量出发,经由至少一个路径逐步搜索查询向量,各个路径至少经过第一层中的一个群的代表向量;
[0029]从至少一个路径中确定至少一个候选路径,在候选路径所经过的群中,确定离查询向量的最近的群与查询向量的距离在预设范围内;其中,群与查询向量的距离根据该群的代表向量与查询向量的距离而确定;
[0030]对于至少一个候选路径中的每一个候选路径,确定与查询向量的距离最近的群作为第一群,以对应于每一个候选路径获得相应的第一群。
[0031]在上述第一方面的另一种可能的实现中,经由至少一个路径逐步搜索查询向量,包括
[0032]根据起始向量,确定与起始向量关联的至少一个第一代表向量,其中,代表向量与群对应;
[0033]从至少一个第一代表向量出发搜索下一代表向量,以确定至少一个路径,其中
[0034]在第一代表向量所关联的至少一个后续的代表向量的距离均大于第一代表向量与查询向量的距离的情况下,终止经由该路径搜索查询向量,并将第一代表向量作为该路径的终点;
[0035]在第一代表向量所关联的至少一个代表向量的距离小于第一代表向量与查询向量的距离的情况下,以距离查询向量最近的第L代表向量作为下一次搜索的起始点,继续进行第L+1代表向量的搜索,并且在搜索到的第L+1代表向量所关联的至少一个代表向量的距离均大于第L代表向量与查询向量的距离的情况下,终止经由该路径搜索查询向量,并将第L向量作为该路径的终点,其中,L是大于等于2的整数。
[0036]通过上述方法,结合本申请涉及的非结构化数据,可以有效提高向量搜索过程中搜索路径的可解释性。具体地,本申请的可视化方法将向量搜索过程中涉及到的向量的访问记录,结合具体的可视化形式(例如图片、文字等)展现给用户,以便用户了解在向量搜索过程中,利用起始向量是如何逐步搜索到查询向量的。
[0037]在上述第一方面的另一种可能的实现中,在M=2,3,
……
,N

1的情形中,在第M层中包括的所有群中,基于各个群的代表向量,确定距离查询向量最近的第二群,包括
[0038]确定第M层的起始向量;
[0039]从起始向量出发,经由至少一个路径逐步搜索查询向量,各个路径至少经过第M层中的一个群的代表向本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种向量相似度搜索的可视化方法,用于电子设备,其特征在于,所述方法包括:确定查询向量,以及用于搜索的目标库,并且运行向量相似度搜索,其中,所述目标库中包括多个向量,并且所述目标库被呈现为N层的分层结构,所述分层结构的每一层包括至少一个群,每个群中包括至少一个向量;N层中的每个群都包括一个代表向量;其中,N是大于等于2的整数;在所述N层的第一层中确定至少一个群,并且基于各个群的代表向量,确定距离所述查询向量在预设范围内的至少一个第一群,并且,以第一可视化方式显示确定所述第一群的过程的至少部分;以第二可视化方式,从所述至少一个第一群中的各个第一群开始,呈现从所述第1层逐层进入第M层的过程,其中M=2,3,

,N

1,N;对于所述第M层,以逐层搜索的方式确定候选向量,其中,在M=2,3,
……
,N

1的情形中,在第M层中隶属于上一层确定的群的所有群中,基于各个群的代表向量,确定距离所述查询向量最近的第二群,并且,以第一可视化方式显示每层中确定所述第二群的过程的至少部分,以及以第二可视化方式,呈现从第M层进入第M+1层的过程;及在M=N的情形中,从第M层中隶属于上一层确定的群包括的所有向量中,基于各个向量与所述查询向量的距离,确定预设数量的候选向量;并且,以第三可视化方式显示确定所述候选向量的过程的至少部分,以及以第四可视化方式,显示所述候选向量。2.如权利要求1所述的方法,其特征在于,在所述N层的第一层中确定多个群,且基于各个群的代表向量,确定距离所述查询向量最近的第一群,包括:确定所述第一层中的所有群;基于所述所有群中的每个群的代表向量,确定与所述查询向量的距离;以及根据所述距离,确定距离所述查询向量满足预设条件的至少一个第一群。3.如权利要求2所述的方法,其特征在于,在M=2,3,
……
,N

1的情形中,在第M层中包括的所有群中,基于各个群的代表向量,确定距离所述查询向量最近的第二群,包括:确定所述第M层中的所有群;基于所述所有群中的每个群的代表向量,确定与所述查询向量的距离;以及根据所述距离,确定距离所述查询向量满足预设条件的至少一个群作为所述第二群。4.如权利要求2所述的方法,其特征在于,在M=N的情形中,从第M层包括的所有向量中,基于各个向量与所述查询向量的距离,确定预设数量的候选向量,包括:确定所述第M层中的所有向量;基于所述所有向量与所述查询向量的距离;以及根据所述距离以及预设条件,确定预设数量的向量作为所述候选向量。5.如权利要求1所述的方法,其特征在于,在所述N层的第一层中确定多个群,且基于各个群的代表向量,确定距离所述查询向量在预设范围内的至少一个第一群,包括:在所述第一层中确定一起始向量;从所述起始向量出发,经由至少一个路径逐步搜索所述查询向量,所述各个路径至少经过所述第一层中的一个群的代表向量;
从所述至少一个路径中确定至少一个候选路径,在所述候选路径所经过的群中,确定离所述查询向量的最近的群与所述查询向量的距离在预设范围内;其中,群与所述查询向量的距离根据该群的代表向量与所述查询向量的距离而确定;对于所述至少一个候选路径中的每一个候选路径,确定与所述查询向量的距离最近的群作为所述第一群,以对应于每一个候选路径获得相应的第一群。6.如权利要求5所述的方法,其特征在于,经由至少一个路径逐步搜索所述查询向量,包括:根据所述起始向量,确定与所述起始向量关联的至少一个第一代表向量,其中,所述代表向量与群对应;从所述至少一个第一代表向量出发搜索下一代表向量,以确定至少一个路径,其中在所述第一代表向量所关联的至少一个后续的代表向量的距离均大于所述第一代表向量与所述查询向量的距离的情况下,终止经由该路径搜索所述查询向量,并将所述第一代表向量作为该路径的终点;在所述第一代表向量所关联的至少一个代表向量的距离小于所述第一代表向量与所述查询向量的距离的情况下,以距离所述查询向量最近的第L代表向量作为下一次搜索的起始点,继续进行第L+1代表向量的搜索,并且在搜索到的所述第L+1代表向量所关联的至少一个代表向量的距离均大于所述第L代表向量与所述查询向量的距离的情况下,终止经由该路径搜索所述查询向量,并将第L向量作为该路径的终点,其中,L是大于等于2的整数。7.如权利要求5所述的方法,其特征在于,在M=2,3,
……
,N

1的情形中,在第M层中包括的所有群...

【专利技术属性】
技术研发人员:谢超田敏蒋瑞怿曾浩然
申请(专利权)人:上海徐毓智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1