一种基于深度相关匹配模型的信息检索方法技术

技术编号：20075090 阅读：33 留言：0更新日期：2019-01-15 00:38

本发明专利技术公开一种基于深度相关匹配模型的信息检索方法，包括如下步骤：获取检索词及文档的文档词；构建各个文档对应不同检索词的初始交互矩阵；使用具有检索维度的k‑max池化函数对各个初始交互矩阵降维得到各个文档对应不同检索词Top‑K交互矩阵；使用多层神经网络计算各个文档的Top‑K交互矩阵的检索得分；基于各个文档的检索得分的大小对各个文档进行排序，得到检索结果。本发明专利技术充分考虑了相似检索词的重要性，显著提高了检索的性能。

An Information Retrieval Method Based on Depth-related Matching Model

The invention discloses an information retrieval method based on depth correlation matching model, which includes the following steps: acquiring search terms and document words; constructing initial interaction matrices of different documents corresponding to different search terms; using K Max pooling function with search dimension to reduce the dimension of each initial interaction matrix to obtain different search terms Top K interaction matrices of each document; Layer neural network calculates the retrieval score of Top_K interaction matrix of each document, and ranks each document based on the retrieval score of each document to get the retrieval results. The invention fully considers the importance of similar search terms, and remarkably improves the retrieval performance.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度相关匹配模型的信息检索方法
本专利技术涉及计算机领域，尤其涉及一种基于深度相关匹配模型的信息检索方法。
技术介绍
在传统的信息检索模型中，它们会根据精确匹配信号测量文档的相关性。也就是说，相关性得分通过来自文档的检索词的频率所确定。因为忽略了相似匹配信号，这类模型经常面临典型的单词不匹配问题。最近，深度神经网络在许多自然语言处理任务中取得了巨大成功。同时，这些深度神经网络也已应用于信息检索，称为神经信息检索(即NeuIR)。他们用词嵌入作为单词的表达，再基于这些表达来构建一些模型，这些模型的检索性能有比较大的提高。单词的重要性对信息检索的模型非常重要。在传统的检索模型中，他们基于逆文档频率(即IDF)来测量单词的重要性。由于这些模型仅考虑与检索词相同的文档词，因此仅考虑检索词的IDF就足够了。最近，神经检索模型采用深度神经网络来模拟检索词和文档词之间的相似匹配。通过这种方式，与检索词相似的词也能够被检索到。然而，现有的神经检索模型忽略了这些相似检索词的重要性，检索性能较差。因此，如何提供一种新的技术方案，提高检索性能成为了本领域技术人员急需解决的问题。
技术实现思路
针对现有技术中存在的上述不足，本专利技术公开了一种基于深度相关匹配模型的信息检索方法，充分考虑了相似检索词的重要性，显著提高了检索的性能。为解决上述技术问题，本专利技术采用了如下的技术方案：一种基于深度相关匹配模型的信息检索方法，包括如下步骤：获取检索词及文档的文档词；随机初始化每个检索词及文档词对应的多层神经网络中的神经节点的权重；将各个检索词以词嵌入的形式表示得到各个检索词的词嵌入...

【技术保护点】
1.一种基于深度相关匹配模型的信息检索方法，其特征在于，包括如下步骤：获取检索词及文档的文档词；随机初始化每个检索词及文档词对应的多层神经网络中的神经节点的权重；将各个检索词以词嵌入的形式表示得到各个检索词的词嵌入矩阵；将各个文档的文档词以词嵌入的形式表示得到各个文档的词嵌入矩阵；基于文档词对应的神经节点的权重对各个文档的词嵌入矩阵进行映射得到各个文档的文档词权重向量；分别求各个检索词的词嵌入矩阵与各个文档的词嵌入矩阵的向量的点积，并添加各个文档的文档词权重向量得到各个文档对应不同检索词的初始交互矩阵；使用具有检索维度的k‑max池化函数对各个初始交互矩阵降维得到各个文档对应不同检索词Top‑K交互矩阵；使用多层神经网络计算各个文档的Top‑K交互矩阵的检索得分；基于各个文档的检索得分的大小对各个文档进行排序，得到检索结果。

【技术特征摘要】
1.一种基于深度相关匹配模型的信息检索方法，其特征在于，包括如下步骤：获取检索词及文档的文档词；随机初始化每个检索词及文档词对应的多层神经网络中的神经节点的权重；将各个检索词以词嵌入的形式表示得到各个检索词的词嵌入矩阵；将各个文档的文档词以词嵌入的形式表示得到各个文档的词嵌入矩阵；基于文档词对应的神经节点的权重对各个文档的词嵌入矩阵进行映射得到各个文档的文档词权重向量；分别求各个检索词的词嵌入矩阵与各个文档的词嵌入矩阵的向量的点积，并添加各个文档的文档词权重向量得到各个文档对应不同检索词的初始交互矩阵；使用具有检索维度的k-max池化函数对各个初始交互矩阵降维得到各个文档对应不同检索词Top-K交互矩阵；使用多层神经网络计算各个文档的Top-K交互矩阵的检索得分；基于各个文档的检索得分的大小对各个文档进行排序，得到检索结果。2.如权利要求1所述的基于深度相关匹配模型的信息检索方法，其特征在于，所述多层神经网络可表示为其中，wk和bk分别表示第k层神经网络的权重矩阵和偏差，ak表示第k层神经网络的激活函数，gqi表示第i个检索词的权重系数，i＝1,2,…,M，M表示检索词的总个数，s表示检索得分，k＝1,2,…,L，L表示多层神经网络的网络总层数，表示第i个检索词第k层神经网络的Top-K交互矩阵。3.如权利要求2所述的...

【专利技术属性】
技术研发人员：朱小飞，杨州，张宜浩，王越，甄少明，兰毅，
申请(专利权)人：重庆理工大学，
类型：发明
国别省市：重庆,50

全部详细技术资料下载我是这个专利的主人