一种基于向量表示的相似文本检索方法技术

技术编号:38040382 阅读:12 留言:0更新日期:2023-06-30 11:06
本发明专利技术公开了一种基于向量表示的相似文本检索方法。该方法首先是用词嵌入+池化的方法处理篇章级文本,通过Bert编码得到文本向量表示,利用ball树的方法将所有文本向量表示构建为ball树索引,对所有文本向量表示和ball树中心点进行乘积量化,并建好PQ索引;检索时将查询文本也转化为向量表示,再通过乘积量化计算距离矩阵,基于距离矩阵和Ball树索引结构进行KNN检索得到k个相似文本。本发明专利技术构造的基于向量表示的相似文本检索方法支持长文本检索,能对海量的文本向量表示进行准确快速的检索,对复杂的或具有多重语义的文本查询有很好的效果,同时对不熟悉某领域行话的用户或想做探索性搜索的用户非常友好且有帮助,最后相比于Faiss中的IndexIVFPQ方法搜索更加全面准确。Faiss中的IndexIVFPQ方法搜索更加全面准确。

【技术实现步骤摘要】
一种基于向量表示的相似文本检索方法


[0001]本专利技术属于相似文本检索领域,尤其涉及一种基于向量表示的相似文本检索方法。

技术介绍

[0002]如今人们在日常生活当中会经常使用搜索引擎,比如百度、搜狗等等,而这些搜索引擎原理上都是基于关键字的搜索引擎。所谓的基于关键字的搜索引擎,以简化的Elasticsearch为例,Elasticsearch使用标记器将文档拆分为多个关键字(即有意义的文本单元),然后这些关键字会被映射到数字序列并用于构建倒排索引。在搜索时,Elasticsearch同样会将用户的查询文本拆分为多个关键字,然后查找哪些文档包含用户的查询,并对它们的相关程度进行评分,最后得出排名。Elasticsearch在大多数情况下工作得很好,但是,基于关键字的搜索引擎通常会遇到以下问题:如不支持长文本检索,例如论文摘要或博客中的段落查询;对复杂的或具有多重语义的文本查询效果不好以及对不熟悉领域行话的用户或想做探索性搜索的用户不友好。
[0003]因此本专利技术希望能有一个关注单词上下文语义的向量表示搜索引擎。
[0004]在基于向量的搜索引擎中,Faiss是目前较成熟的向量近似近邻搜索库,它为稠密向量提供高效相似度搜索和聚类,并支持十亿级别向量的搜索。Faiss核心原理就两个,倒排索引IVF和乘积量化PQ,这两个方法是Faiss实现高速,少内存以及精确检索的主要手段。但是,使用Faiss又会面临以下问题:如Faiss本身没有将文本转化为向量的功能;对于海量的文本,Faiss核心原理中的IVF方法在使用时要求用户自己设置搜索聚类数,而不是机器自动选择最合适的搜索聚类数,这可能会让搜索不够全面,导致错过最优解。
[0005]因此,上述基于关键字的搜索引擎未关注单词上下文语义和Faiss的IVF方法搜索不全面的技术问题是亟需解决的。

技术实现思路

[0006]针对现有方法的不足,本专利技术提供一种基于向量表示的相似文本检索方法,具体技术方案如下:
[0007]一种基于向量表示的相似文本检索方法,该方法包含以下步骤:
[0008](1)对篇章级文本进行按句切分,通过断句再拼接的方式将相邻的句子按文本顺序放入一个个segment,使得每一个segment中文本长度不超过510个字符,并在每个segment前添加[CLS]标识;最终将整个文本拆分为多个segment,得到一个segment列表;
[0009](2)将按句切分后得到的segment列表基于BERT编码,利用BERT学习得到segment列表中每个segment的向量表示,其中BERT模型利用第一位[CLS]的表示输出作为segment的向量表示,最终得到segment向量表示列表;
[0010](3)利用Max

Pooling方法在步骤(2)所得到的segment向量表示列表中的所有[CLS]向量上,取每个纬度的最大值,整合到一个向量上,pooling后的向量表示代表整个篇
章文本的向量表示;
[0011](4)利用ball树的思想方法把所有篇章文本向量表示作为数据点划分至一个个超球体当中,组成ball树,所述一个超球体由一个节点来表示,其数据点则指向一个个节点;
[0012](5)基于步骤(4)得到的ball树,利用相似向量检索库Faiss的乘积量化方法对所有篇章文本向量表示加上ball树所有中心点进行压缩和编码,即对向量表示聚类和量化后构建PQ索引;
[0013](6)基于步骤(5)得到的索引进行KNN检索:
[0014](6.1)通过步骤(1)

(3)的方法将拿到的查询文本转化为查询文本向量表示;
[0015](6.2)利用乘积量化中相同的方法把128维向量表示分成4段32维向量表示,然后计算每一段向量与之前预训练好的簇心表中簇心的距离,得到一张1024*4的距离矩阵表,该表表示查询文本向量与PQ索引中向量的距离;
[0016](6.3)从ball树根节点开始自上而下寻找离查询文本向量最近的叶子节点,从叶子节点中找出离查询文本向量最近的k个数据点,存入一个KNN缓存队列,并且以查询文本向量为中心点,以查询文本向量到KNN缓存队列中第k个数据点的距离为半径,形成一个查询文本超球体;
[0017](6.4)回退的查看当前节点的兄弟节点所对应的超球体是否与查询文本超球体相交;所述兄弟节点为属于同一个父节点的另外一个节点;根据三角定理判断两个超球体是否相交;
[0018]若查看到某一兄弟节点所对应的超球体与查询文本超球体相交,且该兄弟节点为叶子节点时,计算该节点中是否有比KNN缓存队列中数据点离查询文本向量更近的数据点,若有,则更新KNN缓存队列和查询文本超球体的半径;最后直到回退到根节点即结束检索,输出KNN缓存队列中的k个数据点为查询文本的k个最近邻相似文本。
[0019]具体地,所述步骤(4)的ball树的思想方法为:开始ball树只有一个根节点,所有的数据点都指向它,之后每一次循环,每个节点会被划分为两个子节点。
[0020]进一步地,所述每一次循环的具体划分过程为:
[0021](4.1)计算节点内所有数据点的中心点,即质心;
[0022](4.2)找到离中心点最远的数据点作为左子节点,再找到离左子节点最远的数据点作为右子节点;
[0023](4.3)让离左子节点近的数据点指向左子节点,否则指向右子节点,以此划分出了新的两个区域;
[0024](4.4)计算出这两个区域的中心点和半径,形成两个超球体;按照以上划分过程循环至划分出的超球体中数据点的数量小于设定值时结束,最终构建出ball树索引。
[0025]进一步地,所述步骤(5)的聚类和量化,具体为:
[0026](5.1)聚类:假设每个向量表示的维度为128,每个向量被切分为4段,得到4段32维的向量表示;然后对每堆小向量分别进行聚类,假设聚类个数为1024个,则可得到1024个簇心,再给每个簇心赋予ID,最后得到4张有1024个簇心的表;
[0027](5.2)量化:通过第一步得到的簇心表,找到每一个向量表示的4段切分向量表示在4张簇心表中对应的最近的簇心ID,将对应的4个ID赋予4段切分向量表示,这样一个128维的向量就变成了一个由4个ID组成的向量;最后重新计算ball树所有中心节点所在超球
体的半径,再构建PQ索引。
[0028]进一步地,所述步骤(6.4)的根据三角定理判断两个超球体是否相交的判断公式为:
[0029](radius(p)+r)≤|center(p)

q|
[0030]其中,p为当前节点的兄弟节点所对应的超球体,radius(p)为该超球体的半径,center(p)为该超球体的中心点,q为查询文本向量,r为查询文本超球体的半径,|center(p)

q|为p的中心点到q的距离;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于向量表示的相似文本检索方法,其特征在于,该方法包含以下步骤:(1)对篇章级文本进行按句切分,通过断句再拼接的方式将相邻的句子按文本顺序放入一个个segment,使得每一个segment中文本长度不超过510个字符,并在每个segment前添加[CLS]标识;最终将整个文本拆分为多个segment,得到一个segment列表;(2)将按句切分后得到的segment列表基于BERT编码,利用BERT学习得到segment列表中每个segment的向量表示,其中BERT模型利用第一位[CLS]的表示输出作为segment的向量表示,最终得到segment向量表示列表;(3)利用Max

Pooling方法在步骤(2)所得到的segment向量表示列表中的所有[CLS]向量上,取每个纬度的最大值,整合到一个向量上,pooling后的向量表示代表整个篇章文本的向量表示;(4)利用ball树的思想方法把所有篇章文本向量表示作为数据点划分至一个个超球体当中,组成ball树,所述一个超球体由一个节点来表示,其数据点则指向一个个节点;(5)基于步骤(4)得到的ball树,利用相似向量检索库Faiss的乘积量化方法对所有篇章文本向量表示加上ball树所有中心点进行压缩和编码,即对向量表示聚类和量化后构建PQ索引;(6)基于步骤(5)得到的索引进行KNN检索:(6.1)通过步骤(1)

(3)的方法将拿到的查询文本转化为查询文本向量表示;(6.2)利用乘积量化中相同的方法把128维向量表示分成4段32维向量表示,然后计算每一段向量与之前预训练好的簇心表中簇心的距离,得到一张1024*4的距离矩阵表,该表表示查询文本向量与PQ索引中向量的距离;(6.3)从ball树根节点开始自上而下寻找离查询文本向量最近的叶子节点,从叶子节点中找出离查询文本向量最近的k个数据点,存入一个KNN缓存队列,并且以查询文本向量为中心点,以查询文本向量到KNN缓存队列中第k个数据点的距离为半径,形成一个查询文本超球体;(6.4)回退的查看当前节点的兄弟节点所对应的超球体是否与查询文本超球体相交;所述兄弟节点为属于同一个父节点的另外一个节点;根据三角定理判断两个超球体是否相交;若查看到某一兄弟节点所对应的超球体与查询文本超球体相交,且该兄弟节点为叶子节点时,计算该节点中是否有比KNN缓存队列中数据点离查询文本向量更近的数据点,若有,...

【专利技术属性】
技术研发人员:曹斌蔡炜侯晨煜范菁
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1