一种向量数据库文本召回方法、装置、设备及介质制造方法及图纸

技术编号:42898579 阅读:18 留言:0更新日期:2024-09-30 15:15
本发明专利技术提供一种向量数据库文本召回方法、装置、设备及介质,涉及计算机技术领域,方法包括:获取文本数据集,在文本数据集中获得最终关键词,构建最终关键词与文本数据集之间的映射索引文件;通过最终关键词对SentenceTransformer模型做微调;获取用户查询语句,确定正样本数据文本对和负样本数据文本对;根据映射索引文件,获得加入关键词的正负样本数据集;采用正负样本数据集训练对比学习模型;将查询语句依次输入微调后的SentenceTransformer模型和训练后的对比学习模型,获得文本召回结果。本发明专利技术解决了文本向量空间中正负样本的对齐性和均匀性缺陷,提升了向量数据库的文本召回效果。

【技术实现步骤摘要】

本专利技术涉及计算机,具体涉及一种向量数据库文本召回方法、装置、设备及介质


技术介绍

1、文本召回是一种将用户问句向量化后和文本数据集匹配并召回语义相似的文本数据的技术。其核心思想是将文本数据转化为高维空间中的向量表示,并基于这些向量进行高效的检索和召回。因此,文本召回技术在信息检索、问答系统等领域有着广泛的应用。

2、文本召回过程中的用户查询问句向量化常用的方法是基于bert的文本向量化算法。该算法的基本思路是利用预训练语言模型bert进行有监督训练,在模型推理阶段通过单个bert获取句向量表示。该算法的不足之处在于依赖训练数据质量,另外bert模型在预训练过程中使用单个字符层面的特征,将连续的词语被切分成字单独进行mask,在模型结构上忽略了突出用户查询问句中的关键词信息。

3、文本召回过程中的文本向量相似度匹配常用的模型算法有基于向量空间模型的tf-idf模型算法、基于深度学习的siamese-network-bert模型算法。基于向量空间模型的tf-idf模型算法,其缺陷在于它忽略了词序和语法结构,仅仅考虑了词的频率,即使本文档来自技高网...

【技术保护点】

1.一种向量数据库文本召回方法,其特征在于,包括:

2.根据权利要求1所述的向量数据库文本召回方法,其特征在于,获取文本数据集,在所述文本数据集中抽取候选关键词,包括:

3.根据权利要求1所述的向量数据库文本召回方法,其特征在于,对所述候选关键词进行精筛选,将筛选结果作为最终关键词,包括:

4.根据权利要求1所述的向量数据库文本召回方法,其特征在于,根据匹配结果,确定正样本数据文本对和负样本数据文本对,包括:

5.根据权利要求4所述的向量数据库文本召回方法,其特征在于,还包括:经过多次过采样操作后确定所述正样本数据文本对

6....

【技术特征摘要】

1.一种向量数据库文本召回方法,其特征在于,包括:

2.根据权利要求1所述的向量数据库文本召回方法,其特征在于,获取文本数据集,在所述文本数据集中抽取候选关键词,包括:

3.根据权利要求1所述的向量数据库文本召回方法,其特征在于,对所述候选关键词进行精筛选,将筛选结果作为最终关键词,包括:

4.根据权利要求1所述的向量数据库文本召回方法,其特征在于,根据匹配结果,确定正样本数据文本对和负样本数据文本对,包括:

5.根据权利要求4所述的向量数据库文本召回方法,其特征在于,还包括:经过多次过采样操作后确定所述正样本数据文本对。

6.根据权利要求1所述的向量数据库文本召...

【专利技术属性】
技术研发人员:陶春村谷佳铭陆肖元
申请(专利权)人:擎翌上海智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1