一种基于深度相关匹配模型的信息检索方法技术

技术编号:20075090 阅读:33 留言:0更新日期:2019-01-15 00:38
本发明专利技术公开一种基于深度相关匹配模型的信息检索方法,包括如下步骤:获取检索词及文档的文档词;构建各个文档对应不同检索词的初始交互矩阵;使用具有检索维度的k‑max池化函数对各个初始交互矩阵降维得到各个文档对应不同检索词Top‑K交互矩阵;使用多层神经网络计算各个文档的Top‑K交互矩阵的检索得分;基于各个文档的检索得分的大小对各个文档进行排序,得到检索结果。本发明专利技术充分考虑了相似检索词的重要性,显著提高了检索的性能。

An Information Retrieval Method Based on Depth-related Matching Model

The invention discloses an information retrieval method based on depth correlation matching model, which includes the following steps: acquiring search terms and document words; constructing initial interaction matrices of different documents corresponding to different search terms; using K Max pooling function with search dimension to reduce the dimension of each initial interaction matrix to obtain different search terms Top K interaction matrices of each document; Layer neural network calculates the retrieval score of Top_K interaction matrix of each document, and ranks each document based on the retrieval score of each document to get the retrieval results. The invention fully considers the importance of similar search terms, and remarkably improves the retrieval performance.

【技术实现步骤摘要】
一种基于深度相关匹配模型的信息检索方法
本专利技术涉及计算机领域,尤其涉及一种基于深度相关匹配模型的信息检索方法。
技术介绍
在传统的信息检索模型中,它们会根据精确匹配信号测量文档的相关性。也就是说,相关性得分通过来自文档的检索词的频率所确定。因为忽略了相似匹配信号,这类模型经常面临典型的单词不匹配问题。最近,深度神经网络在许多自然语言处理任务中取得了巨大成功。同时,这些深度神经网络也已应用于信息检索,称为神经信息检索(即NeuIR)。他们用词嵌入作为单词的表达,再基于这些表达来构建一些模型,这些模型的检索性能有比较大的提高。单词的重要性对信息检索的模型非常重要。在传统的检索模型中,他们基于逆文档频率(即IDF)来测量单词的重要性。由于这些模型仅考虑与检索词相同的文档词,因此仅考虑检索词的IDF就足够了。最近,神经检索模型采用深度神经网络来模拟检索词和文档词之间的相似匹配。通过这种方式,与检索词相似的词也能够被检索到。然而,现有的神经检索模型忽略了这些相似检索词的重要性,检索性能较差。因此,如何提供一种新的技术方案,提高检索性能成为了本领域技术人员急需解决的问题。
技术实现思路
针对现有技术中存在的上述不足,本专利技术公开了一种基于深度相关匹配模型的信息检索方法,充分考虑了相似检索词的重要性,显著提高了检索的性能。为解决上述技术问题,本专利技术采用了如下的技术方案:一种基于深度相关匹配模型的信息检索方法,包括如下步骤:获取检索词及文档的文档词;随机初始化每个检索词及文档词对应的多层神经网络中的神经节点的权重;将各个检索词以词嵌入的形式表示得到各个检索词的词嵌入矩阵;将各个文档的文档词以词嵌入的形式表示得到各个文档的词嵌入矩阵;基于文档词对应的神经节点的权重对各个文档的词嵌入矩阵进行映射得到各个文档的文档词权重向量;分别求各个检索词的词嵌入矩阵与各个文档的词嵌入矩阵的向量的点积,并添加各个文档的文档词权重向量得到各个文档对应不同检索词的初始交互矩阵;使用具有检索维度的k-max池化函数对各个初始交互矩阵降维得到各个文档对应不同检索词Top-K交互矩阵;使用多层神经网络计算各个文档的Top-K交互矩阵的检索得分;基于各个文档的检索得分的大小对各个文档进行排序,得到检索结果。优选地,所述多层神经网络可表示为其中,wk和bk分别表示第k层神经网络的权重矩阵和偏差,ak表示第k层神经网络的激活函数,gqi表示第i个检索词的权重系数,i=1,2,…,M,M表示检索词的总个数,s表示检索得分,k=1,2,…,L,L表示多层神经网络的网络总层数,表示第i个检索词第k层神经网络的Top-K交互矩阵。优选地,第i个检索词的权重系数gqi=softmax(wqiqi),qi表示第i个检索词的词嵌入矩阵,wqi表示第i个检索词对应的多层神经网络中的神经节点的权重,softmax()表示归一化指数函数。优选地,任一文档中第i个检索词对应的降维后的Top-K交互矩阵为其中,M表示检索词的总个数,Tk表示具有检索维度的k-max池化函数,d为所述文档的词嵌入矩阵,gd为所述文档的文档词权重向量,gd={gd1,gd2,…,gdj,…,gdN},gdj为所述文档中第j个文档词的权重,gdj=wdjdj,wdj表示第j个文档词对应的多层神经网络中的神经节点的权重,dj为第j个文档词的词嵌入矩阵,j=1,2,…,N,N表示文档中包含的文档词的总个数,文档的词嵌入矩阵由所述文档中所有文档词的词嵌入矩阵组成。优选地,通过损失函数L(θ)对神经网络的参数进行优化,其中,θ表示神经网络中任意一种需要优化的参数,q表示检索词的集合,d+来自正样本文档集D+,d+表示与检索词正相关的文档词集,d-来自负样本文档集D-,d-表示与检索词无关和/或负相关的文档词集。综上所述,本专利技术公开一种基于深度相关匹配模型的信息检索方法,包括如下步骤:获取检索词及文档的文档词;随机初始化每个检索词及文档词对应的多层神经网络中的神经节点的权重;将各个检索词以词嵌入的形式表示得到各个检索词的词嵌入矩阵;将各个文档的文档词以词嵌入的形式表示得到各个文档的词嵌入矩阵;基于文档词对应的神经节点的权重对各个文档的词嵌入矩阵进行映射得到各个文档的文档词权重向量;分别求各个检索词的词嵌入矩阵与各个文档的词嵌入矩阵的向量的点积,并添加各个文档的文档词权重向量得到各个文档对应不同检索词的初始交互矩阵;使用具有检索维度的k-max池化函数对各个初始交互矩阵降维得到各个文档对应不同检索词Top-K交互矩阵;使用多层神经网络计算各个文档的Top-K交互矩阵的检索得分;基于各个文档的检索得分的大小对各个文档进行排序,得到检索结果。附图说明图1为本专利技术公开的一种基于深度相关匹配模型的信息检索方法的流程图。图2为本专利技术采用本专利技术的方法选择不同的top-k时的性能比较。具体实施方式下面结合附图对本专利技术作进一步的详细说明。如图1所示,本专利技术公开了一种基于深度相关匹配模型的信息检索方法,包括如下步骤:S101、获取检索词及文档的文档词;S102、随机初始化每个检索词及文档词对应的多层神经网络中的神经节点的权重;S103、将各个检索词以词嵌入的形式表示得到各个检索词的词嵌入矩阵;S104、将各个文档的文档词以词嵌入的形式表示得到各个文档的词嵌入矩阵;S105、基于文档词对应的神经节点的权重对各个文档的词嵌入矩阵进行映射得到各个文档的文档词权重向量;gd为文档词权重向量,首先用文档中所有的文档词的词嵌入进行映射,假设,文档有300个词,词嵌入为50维,那么文档词嵌入矩阵为300*50维,用文档词对应的多层神经网络中的神经节点的权重映射为300*1维,如果检索词有5个单词,则将300*1维的矩阵扩展为5*300*1维,即文档词权重向量。S106、分别求各个检索词的词嵌入矩阵与各个文档的词嵌入矩阵的向量的点积,并添加各个文档的文档词权重向量得到各个文档对应不同检索词的初始交互矩阵;每个文档的词嵌入矩阵与各个检索词的词嵌入矩阵都会得到一个初始交互矩阵,即一个文档的初始交互矩阵的个数等于检索词的个数。给定检索词和文档,每个检索词和文档的文档词均处于分布式表示中,以求点积的方式以形成待添加重要性数据初始交互矩阵,为了强调文档中的不同单词具有不同的显着性水平,将文档词的重要性添加到矩阵中,即将待添加重要性数据初始交互矩阵的值和文档词权重向量的值相加,得到初始交互矩阵。S107、使用具有检索维度的k-max池化函数对各个初始交互矩阵降维得到各个文档对应不同检索词Top-K交互矩阵;文档中不重要的文档词也包括在初始交互矩阵中并参与了后续计算。通过我们的研究,与检索词具有高相关性的文档词基本上确定了文档的检索得分,低相关的文档词,如停用词,对检索得分的影响很低,在此基础上,我们提出了基于检索维度的top-k池化函数,以选择最优文档词,去除不良文档词。处理k-max池层后,对于每个文档都是选取前K个最强的文档词,整个文档维度的长度为K,它形成一个固定值,能够有效减少计算量,提高检索效率,并为传入神经网络提供条件。一般情况下,检索词或者文档中的文档词的词嵌入输入神经网路是不会改变的,但是由于词嵌入是通过其他数据训练而来,在当前数据本文档来自技高网...

【技术保护点】
1.一种基于深度相关匹配模型的信息检索方法,其特征在于,包括如下步骤:获取检索词及文档的文档词;随机初始化每个检索词及文档词对应的多层神经网络中的神经节点的权重;将各个检索词以词嵌入的形式表示得到各个检索词的词嵌入矩阵;将各个文档的文档词以词嵌入的形式表示得到各个文档的词嵌入矩阵;基于文档词对应的神经节点的权重对各个文档的词嵌入矩阵进行映射得到各个文档的文档词权重向量;分别求各个检索词的词嵌入矩阵与各个文档的词嵌入矩阵的向量的点积,并添加各个文档的文档词权重向量得到各个文档对应不同检索词的初始交互矩阵;使用具有检索维度的k‑max池化函数对各个初始交互矩阵降维得到各个文档对应不同检索词Top‑K交互矩阵;使用多层神经网络计算各个文档的Top‑K交互矩阵的检索得分;基于各个文档的检索得分的大小对各个文档进行排序,得到检索结果。

【技术特征摘要】
1.一种基于深度相关匹配模型的信息检索方法,其特征在于,包括如下步骤:获取检索词及文档的文档词;随机初始化每个检索词及文档词对应的多层神经网络中的神经节点的权重;将各个检索词以词嵌入的形式表示得到各个检索词的词嵌入矩阵;将各个文档的文档词以词嵌入的形式表示得到各个文档的词嵌入矩阵;基于文档词对应的神经节点的权重对各个文档的词嵌入矩阵进行映射得到各个文档的文档词权重向量;分别求各个检索词的词嵌入矩阵与各个文档的词嵌入矩阵的向量的点积,并添加各个文档的文档词权重向量得到各个文档对应不同检索词的初始交互矩阵;使用具有检索维度的k-max池化函数对各个初始交互矩阵降维得到各个文档对应不同检索词Top-K交互矩阵;使用多层神经网络计算各个文档的Top-K交互矩阵的检索得分;基于各个文档的检索得分的大小对各个文档进行排序,得到检索结果。2.如权利要求1所述的基于深度相关匹配模型的信息检索方法,其特征在于,所述多层神经网络可表示为其中,wk和bk分别表示第k层神经网络的权重矩阵和偏差,ak表示第k层神经网络的激活函数,gqi表示第i个检索词的权重系数,i=1,2,…,M,M表示检索词的总个数,s表示检索得分,k=1,2,…,L,L表示多层神经网络的网络总层数,表示第i个检索词第k层神经网络的Top-K交互矩阵。3.如权利要求2所述的...

【专利技术属性】
技术研发人员:朱小飞杨州张宜浩王越甄少明兰毅
申请(专利权)人:重庆理工大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1