一种基于向量表示的相似文本检索方法技术

技术编号：38040382 阅读：12 留言：0更新日期：2023-06-30 11:06

本发明专利技术公开了一种基于向量表示的相似文本检索方法。该方法首先是用词嵌入+池化的方法处理篇章级文本，通过Bert编码得到文本向量表示，利用ball树的方法将所有文本向量表示构建为ball树索引，对所有文本向量表示和ball树中心点进行乘积量化，并建好PQ索引；检索时将查询文本也转化为向量表示，再通过乘积量化计算距离矩阵，基于距离矩阵和Ball树索引结构进行KNN检索得到k个相似文本。本发明专利技术构造的基于向量表示的相似文本检索方法支持长文本检索，能对海量的文本向量表示进行准确快速的检索，对复杂的或具有多重语义的文本查询有很好的效果，同时对不熟悉某领域行话的用户或想做探索性搜索的用户非常友好且有帮助，最后相比于Faiss中的IndexIVFPQ方法搜索更加全面准确。Faiss中的IndexIVFPQ方法搜索更加全面准确。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于向量表示的相似文本检索方法

[0001]本专利技术属于相似文本检索领域，尤其涉及一种基于向量表示的相似文本检索方法。

技术介绍

[0002]如今人们在日常生活当中会经常使用搜索引擎，比如百度、搜狗等等，而这些搜索引擎原理上都是基于关键字的搜索引擎。所谓的基于关键字的搜索引擎，以简化的Elasticsearch为例，Elasticsearch使用标记器将文档拆分为多个关键字(即有意义的文本单元)，然后这些关键字会被映射到数字序列并用于构建倒排索引。在搜索时，Elasticsearch同样会将用户的查询文本拆分为多个关键字，然后查找哪些文档包含用户的查询，并对它们的相关程度进行评分，最后得出排名。Elasticsearch在大多数情况下工作得很好，但是，基于关键字的搜索引擎通常会遇到以下问题：如不支持长文本检索，例如论文摘要或博客中的段落查询；对复杂的或具有多重语义的文本查询效果不好以及对不熟悉领域行话的用户或想做探索性搜索的用户不友好。
[0003]因此本专利技术希望能有一个关注单词上下文语义的向量表示搜索引擎。
[0004]在基于向量的搜索引擎中，Faiss是目前较成熟的向量近似近邻搜索库，它为稠密向量提供高效相似度搜索和聚类，并支持十亿级别向量的搜索。Faiss核心原理就两个，倒排索引IVF和乘积量化PQ，这两个方法是Faiss实现高速，少内存以及精确检索的主要手段。但是，使用Faiss又会面临以下问题：如Faiss本身没有将文本转化为向量的功能；对于海量的文本，Faiss核心原理中的IVF...

【技术保护点】

【技术特征摘要】
1.一种基于向量表示的相似文本检索方法，其特征在于，该方法包含以下步骤：(1)对篇章级文本进行按句切分，通过断句再拼接的方式将相邻的句子按文本顺序放入一个个segment，使得每一个segment中文本长度不超过510个字符，并在每个segment前添加[CLS]标识；最终将整个文本拆分为多个segment，得到一个segment列表；(2)将按句切分后得到的segment列表基于BERT编码，利用BERT学习得到segment列表中每个segment的向量表示，其中BERT模型利用第一位[CLS]的表示输出作为segment的向量表示，最终得到segment向量表示列表；(3)利用Max
‑
Pooling方法在步骤(2)所得到的segment向量表示列表中的所有[CLS]向量上，取每个纬度的最大值，整合到一个向量上，pooling后的向量表示代表整个篇章文本的向量表示；(4)利用ball树的思想方法把所有篇章文本向量表示作为数据点划分至一个个超球体当中，组成ball树，所述一个超球体由一个节点来表示，其数据点则指向一个个节点；(5)基于步骤(4)得到的ball树，利用相似向量检索库Faiss的乘积量化方法对所有篇章文本向量表示加上ball树所有中心点进行压缩和编码，即对向量表示聚类和量化后构建PQ索引；(6)基于步骤(5)得到的索引进行KNN检索：(6.1)通过步骤(1)
‑
(3)的方法将拿到的查询文本转化为查询文本向量表示；(6.2)利用乘积量化中相同的方法把128维向量表示分成4段32维向量表示，然后计算每一段向量与之前预训练好的簇心表中簇心的距离，得到一张1024*4的距离矩阵表，该表表示查询文本向量与PQ索引中向量的距离；(6.3)从ball树根节点开始自上而下寻找离查询文本向量最近的叶子节点，从叶子节点中找出离查询文本向量最近的k个数据点，存入一个KNN缓存队列，并且以查询文本向量为中心点，以查询文本向量到KNN缓存队列中第k个数据点的距离为半径，形成一个查询文本超球体；(6.4)回退的查看当前节点的兄弟节点所对应的超球体是否与查询文本超球体相交；所述兄弟节点为属于同一个父节点的另外一个节点；根据三角定理判断两个超球体是否相交；若查看到某一兄弟节点所对应的超球体与查询文本超球体相交，且该兄弟节点为叶子节点时，计算该节点中是否有比KNN缓存队列中数据点离查询文本向量更近的数据点，若有，...

【专利技术属性】
技术研发人员：曹斌，蔡炜，侯晨煜，范菁，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人