基于张量引擎驱动的向量数据库方法及系统技术方案

技术编号:39724148 阅读:7 留言:0更新日期:2023-12-17 23:29
本发明专利技术提出基于张量引擎驱动的向量数据库方法及系统,包括步骤

【技术实现步骤摘要】
基于张量引擎驱动的向量数据库方法及系统


[0001]本专利技术涉及数据库领域,具体涉及基于张量引擎驱动的向量数据库方法及系统


技术介绍

[0002]随着现代互联网

传感器技术以及应用程序的迅速发展,我们观察到越来越多的数据采用高维向量的形式,例如图像

文本和音频

这种数据的普及和复杂性已经超出了传统数据库系统的处理能力

[0003]在此背景下,深度学习的发展使得数据向量化
(embedding)
成为一种主流的数据表示方法

通过深度学习模型,我们可以将复杂的数据结构如文本

图片等映射到一个高维向量空间,这些向量不仅捕捉到了数据的表层特征,还深度揭示了其语义信息

当涉及到相似度计算

分类等任务时,这种向量表示尤为重要

[0004]此外,越来越多的应用场景要求在大规模的数据集中进行快速的相似度搜索,例如图像搜索

推荐系统和自然语言处理

但传统的数据库索引方法在处理高维空间的数据时效率不高,而这正是向量数据库尝试解决的问题

[0005]从
2022
年到
2023
年,尽管
GPT
大模型对向量数据库显示出浓厚的兴趣,但在
VLDB、SIGMOD
等重要的学术会议上,关于向量数据库的研究仍然较少,显示出这是一个新兴且待深入挖掘的


从市场角度看,
DBRank
的统计数据显示,当前主要的向量数据库如
Milvus、pinecone、weaviate
等,都是在最近五年内兴起的

[0006]目前,对于向量数据库的主要应用集中在向量相似度搜索上,即依靠预先建立的向量索引来实现毫秒级的相似度查询

这种查询方式非常适合文本

音视频

生物数据等多种形式的相似度搜索

[0007]然而,就像在
OLTP
数据库中并非所有场景都适用于索引,向量数据库也面临相似的挑战

除了相似度搜索之外,还有一系列的分析需求,如聚类

异常检测

维度约减

关联分析等,这些需求要求对整个向量数据集进行更深入的分析


技术实现思路

[0008]为克服现有技术的不足,本专利技术提出基于张量引擎驱动的向量数据库方法及系统,与传统的
10

20
年前面向
CPU
的数据库架构不同,摒弃了这些旧的计算架构,从天然支持
GPU
加速的张量计算引擎出发,构建了一个全新的面向
GPU
计算

围绕张量数据计算的分析型向量数据库

这使其在向量分析和搜索场景中有显著的优势,张量计算框架所支持的
CUDA
代码库中,可以支持类似
GPUDirect RDMA
的网络加速,在分布式数据计算方面,有更高的潜力

[0009]为实现上述目的,本专利技术提供基于张量引擎驱动的向量数据库方法,包括:
[0010]步骤
S1
:自适应数据识别及向量转换;
[0011]步骤
S2
:获取智能数据,动选择态查询策略,最后输出自适应结果;
[0012]步骤
S3
:用户满意度收集,并且持续优化模型

[0013]进一步地,步骤
S1
具体如下:
[0014]步骤
S11
:使用决策树模型预测和确定数据类型,为之后的转换选择最合适的方法;
[0015]步骤
S12
:使用协同过滤推荐系统自动选择最佳的向量转换方法;
[0016]步骤
S13
:根据数据内容,应用深度自编码器技术自动生成向量表示,以捕获更深层次的信息;
[0017]步骤
S14
:在
KineVectorStore
中存储向量数据和原始数据;
[0018]步骤
S15
:根据数据的更新情况和查询频率,利用
B
树索引进行动态更新数据

[0019]进一步地,步骤
S2
具体如下:
[0020]步骤
S21
:用
KineVectorCompute
结合
LRU(Least Recently Used)
智能缓存系统,快速获取常查询的数据;
[0021]步骤
S22
:利用支持向量机
(SVM)
预测用户可能的查询需求,动态选择查询策略;
[0022]步骤
S23
:根据查询分析和用户历史反馈,通过
K

均值聚类优化并返回最相关的
result
数据

[0023]进一步地,步骤
S3
具体如下:
[0024]步骤
S31
:提供基于
React
的界面或
RESTful API
让用户为查询结果打分或留下反馈;
[0025]步骤
S32
:根据用户反馈和查询日志,使用在线学习策略不断调整和训练向量转换和查询策略的模型

[0026]进一步地,步骤
S1
还包括数据增强策略,具体为使用生成对抗网络
(GANs)
生成增强数据,增加向量数据的多样性和鲁棒性,通过随机噪声注入提高稀有或少见数据样本的可用性

[0027]进一步地,步骤
S2
还包括自适应可视化界面,具体如下:
[0028]步骤
S24
:根据用户查询历史和喜好,使用
D3.js
库提供自动调整的数据可视化界面

[0029]步骤
S25
:对返回的结果提供基于
Three.js
的交互式的探索工具,增强用户体验

[0030]基于张量引擎驱动的向量数据库系统,适用于上述所述的基于张量引擎驱动的向量数据库方法,其特征在于,包括客户端层
(Client Layer)
和计算管理层
(KineVectorCompute Layer)

[0031]所述客户端层用于为用户提供多种访问和交互方式,以满足不同的应用场景和用户习惯;
[0032]所述计算管理层用于核心本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
基于张量引擎驱动的向量数据库方法,其特征在于,包括:步骤
S1
:自适应数据识别及向量转换;步骤
S2
:获取智能数据,动选择态查询策略,最后输出自适应结果;步骤
S3
:用户满意度收集,并且持续优化模型
。2.
根据权利要求1所述基于张量引擎驱动的向量数据库方法,其特征在于,步骤
S1
具体如下:步骤
S11
:使用机器学习模型预测和确定数据类型,为之后的转换选择方法;步骤
S12
:使用推荐系统或机器学习模型自动选择向量转换方法;步骤
S13
:根据数据内容,应用深度学习技术自动生成向量表示,以捕获更深层次的信息;步骤
S14
:在
KineVectorStore
中存储向量数据和原始数据;步骤
S15
:根据数据的更新情况和查询频率动态更新数据索引
。3.
根据权利要求1所述的基于张量引擎驱动的向量数据库方法,其特征在于,步骤
S2
具体如下:步骤
S21
:使用
KineVectorCompute
结合智能缓存系统,快速获取常查询的数据;步骤
S22
:利用机器学习模型预测用户可能的查询需求,动态选择查询策略;步骤
S23
:根据查询分析和用户历史反馈,优化并返回最相关的
result
数据
。4.
根据权利要求1所述的基于张量引擎驱动的向量数据库方法,其特征在于,步骤
S3
具体如下:步骤
S31
:提供界面或
API
让用户为查询结果打分或留下反馈;步骤
S32
:根据用户反馈和查询日志,不断调整和训练向量转换和查询策略的模型
。5.
根据权利要求1所述的基于张量引擎驱动的向量数据库方法,其特征在于,步骤
S1
还包括数据增强策略,具体为通过机器学习模型生成增强数据,增加向量数据的多样性和鲁棒性,然后通过合成技术提高稀有或少见数据样本的可用性
。6.
根据权利要求1...

【专利技术属性】
技术研发人员:韦振源王刚
申请(专利权)人:上海恩毕可施科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1