一种数据搜索方法、装置、计算机设备及介质制造方法及图纸

技术编号:46414947 阅读:7 留言:0更新日期:2025-09-16 20:03
本申请公开了一种数据搜索方法、装置、计算机设备及介质,涉及数据搜索技术领域,包括获取目标数据集,并基于目标数据集生成初始聚类;对初始聚类进行子聚类划分,得到目标聚类索引;其中,同一子聚类中的数据点的最远数据点相同;基于目标聚类索引中子聚类的聚类类型,搜索得到目标聚类索引中与目标查询点最近的目标数据点,聚类类型包括非叶子节点和叶子节点。本方法为了避免不同聚类规模相差较大,对较大规模的聚类进一步划分子聚类,直至所有聚类规模相近,从而得到目标聚类索引,保证索引的层次性。基于子聚类的类型进行搜索,可避免因子聚类的下级子聚类过多导致的搜索成本过大,提高搜索的准确率和效率。

【技术实现步骤摘要】

本申请涉及数据搜索,尤其涉及一种数据搜索方法、装置、计算机设备及介质


技术介绍

1、高维最近邻搜索是非结构化检索领域中的核心问题之一,非结构化数据是指不符合固定格式或模式的数据,与结构化数据(如关系数据库中的表格)不同,它们无法通过预定义的数据模型进行组织和存储。非结构化数据形式多样,包括文本、图像、音频、视频、日志文件等,因此难以用传统数据库管理系统处理。

2、相关技术中,高维索引领域提出了多种技术路径,其中包括基于树形空间划分的方法、新型扫描等,然而这些方法需要多轮迭代,或易受到数据量限制,搜索效率较低。


技术实现思路

1、本申请提供了一种数据搜索方法、装置、计算机设备及介质,以至少解决搜索效率不高的问题。

2、本申请提供了一种数据搜索方法,包括:

3、获取目标数据集,并基于所述目标数据集生成初始聚类;

4、对所述初始聚类进行子聚类划分,得到目标聚类索引;其中,同一所述子聚类中的数据点的最远数据点相同;

5、基于所述目标聚类索引中子聚类的聚类类本文档来自技高网...

【技术保护点】

1.一种数据搜索方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述初始聚类进行子聚类划分,得到目标聚类索引,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于预设数量阈值对所述初始聚类中的至少一个数据点集合的进行分类,包括:

4.根据权利要求2所述的方法,其特征在于,所述对聚类类型为非叶子节点的第一数据点集合进行子聚类划分,包括:

5.根据权利要求1所述的方法,其特征在于,所述基于所述目标聚类索引中子聚类的聚类类型,搜索得到所述目标聚类索引中与目标查询点最近的目标数据点,包括:

6.根据权利要...

【技术特征摘要】

1.一种数据搜索方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述对所述初始聚类进行子聚类划分,得到目标聚类索引,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于预设数量阈值对所述初始聚类中的至少一个数据点集合的进行分类,包括:

4.根据权利要求2所述的方法,其特征在于,所述对聚类类型为非叶子节点的第一数据点集合进行子聚类划分,包括:

5.根据权利要求1所述的方法,其特征在于,所述基于所述目标聚类索引中子聚类的聚类类型,搜索得到所述目标聚类索引中与目标查询点最近的目标数据点,包括:

6.根据权利要求5所述的方法,...

【专利技术属性】
技术研发人员:冯小康陈静静孙华锦王江李树青曹仰昱
申请(专利权)人:济南迈威智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1