【技术实现步骤摘要】
向量相似度搜索的可视化方法、电子设备及介质
[0001]本申请涉及非结构化数据分析处理的可视化领域,特别涉及一种向量相似度搜索的可视化方法、电子设备及介质。
技术介绍
[0002]身处大数据时代,生产经营活动中对于数据分析的需求越来越大。然而,作为分析对象的数据因为来源于各个渠道和源头,并非全是规范的结构化数据。所以对于非结构化数据处理的需求是最大的。因此,人们研究出了非常多的计算机处理算法,用于分析处理非结构化数据。
[0003]随着社会分工的细化,虽然有非常多的企业对于非结构化数据分析算法的需求旺盛,但他们自身并不会对算法进行投入和研究,而是更多采购软件即服务(software as a service,SaaS)类的服务。对于提供分析算法的服务商而言,在向用户展示他们所开发的算法的时候,往往很难找到一个让用户体验好的方式,精准地描述非结构化数据处理技术和算法如何运转。并且,对于作为分析对象的数据而言,这些数据有时是高维数据(描述的维度大于3)。对于这样的高维数据的处理,用户理解非结构化数据处理技术和算法则是更为困难了。
技术实现思路
[0004]本申请实施例提供了一种向量相似度搜索的可视化方法、装置及介质。
[0005]第一方面,本申请提供了一种向量相似度搜索的可视化方法,用于电子设备,该方法包括:
[0006]确定查询向量,以及用于搜索的目标库,并且运行向量相似度搜索,其中,目标库中包括多个向量,并且目标库被呈现为N层的分层结构,分层结构的每一层包括至少一个群,每个群中 ...
【技术保护点】
【技术特征摘要】
1.一种向量相似度搜索的可视化方法,用于电子设备,其特征在于,所述方法包括:确定查询向量,以及用于搜索的目标库,并且运行向量相似度搜索,其中,所述目标库中包括多个向量,并且所述目标库被呈现为N层的分层结构,所述分层结构的每一层包括至少一个群,每个群中包括至少一个向量;N层中的每个群都包括一个代表向量;其中,N是大于等于2的整数;在所述N层的第一层中确定至少一个群,并且基于各个群的代表向量,确定距离所述查询向量在预设范围内的至少一个第一群,并且,以第一可视化方式显示确定所述第一群的过程的至少部分;以第二可视化方式,从所述至少一个第一群中的各个第一群开始,呈现从所述第1层逐层进入第M层的过程,其中M=2,3,
…
,N
‑
1,N;对于所述第M层,以逐层搜索的方式确定候选向量,其中,在M=2,3,
……
,N
‑
1的情形中,在第M层中隶属于上一层确定的群的所有群中,基于各个群的代表向量,确定距离所述查询向量最近的第二群,并且,以第一可视化方式显示每层中确定所述第二群的过程的至少部分,以及以第二可视化方式,呈现从第M层进入第M+1层的过程;及在M=N的情形中,从第M层中隶属于上一层确定的群包括的所有向量中,基于各个向量与所述查询向量的距离,确定预设数量的候选向量;并且,以第三可视化方式显示确定所述候选向量的过程的至少部分,以及以第四可视化方式,显示所述候选向量。2.如权利要求1所述的方法,其特征在于,在所述N层的第一层中确定多个群,且基于各个群的代表向量,确定距离所述查询向量最近的第一群,包括:确定所述第一层中的所有群;基于所述所有群中的每个群的代表向量,确定与所述查询向量的距离;以及根据所述距离,确定距离所述查询向量满足预设条件的至少一个第一群。3.如权利要求2所述的方法,其特征在于,在M=2,3,
……
,N
‑
1的情形中,在第M层中包括的所有群中,基于各个群的代表向量,确定距离所述查询向量最近的第二群,包括:确定所述第M层中的所有群;基于所述所有群中的每个群的代表向量,确定与所述查询向量的距离;以及根据所述距离,确定距离所述查询向量满足预设条件的至少一个群作为所述第二群。4.如权利要求2所述的方法,其特征在于,在M=N的情形中,从第M层包括的所有向量中,基于各个向量与所述查询向量的距离,确定预设数量的候选向量,包括:确定所述第M层中的所有向量;基于所述所有向量与所述查询向量的距离;以及根据所述距离以及预设条件,确定预设数量的向量作为所述候选向量。5.如权利要求1所述的方法,其特征在于,在所述N层的第一层中确定多个群,且基于各个群的代表向量,确定距离所述查询向量在预设范围内的至少一个第一群,包括:在所述第一层中确定一起始向量;从所述起始向量出发,经由至少一个路径逐步搜索所述查询向量,所述各个路径至少经过所述第一层中的一个群的代表向量;
从所述至少一个路径中确定至少一个候选路径,在所述候选路径所经过的群中,确定离所述查询向量的最近的群与所述查询向量的距离在预设范围内;其中,群与所述查询向量的距离根据该群的代表向量与所述查询向量的距离而确定;对于所述至少一个候选路径中的每一个候选路径,确定与所述查询向量的距离最近的群作为所述第一群,以对应于每一个候选路径获得相应的第一群。6.如权利要求5所述的方法,其特征在于,经由至少一个路径逐步搜索所述查询向量,包括:根据所述起始向量,确定与所述起始向量关联的至少一个第一代表向量,其中,所述代表向量与群对应;从所述至少一个第一代表向量出发搜索下一代表向量,以确定至少一个路径,其中在所述第一代表向量所关联的至少一个后续的代表向量的距离均大于所述第一代表向量与所述查询向量的距离的情况下,终止经由该路径搜索所述查询向量,并将所述第一代表向量作为该路径的终点;在所述第一代表向量所关联的至少一个代表向量的距离小于所述第一代表向量与所述查询向量的距离的情况下,以距离所述查询向量最近的第L代表向量作为下一次搜索的起始点,继续进行第L+1代表向量的搜索,并且在搜索到的所述第L+1代表向量所关联的至少一个代表向量的距离均大于所述第L代表向量与所述查询向量的距离的情况下,终止经由该路径搜索所述查询向量,并将第L向量作为该路径的终点,其中,L是大于等于2的整数。7.如权利要求5所述的方法,其特征在于,在M=2,3,
……
,N
‑
1的情形中,在第M层中包括的所有群...
【专利技术属性】
技术研发人员:谢超,田敏,蒋瑞怿,曾浩然,
申请(专利权)人:上海徐毓智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。