一种基于深度学习的文本哈希检索方法技术

技术编号：23672212 阅读：64 留言：0更新日期：2020-04-04 17:43

本发明专利技术公开了一种基于深度学习的文本哈希检索方法，特点是首先利用双向LSTM模型提取词嵌入矩阵中的每个原始词汇数据对应的语义编码，接着在双向LSTM模型之后并联接入文本卷积神经网络，并增加注意力机制，再使用sign函数将第二全连接层的输出值转化为对应的哈希编码，利用哈希编码重构类别标签，最后，在文本库哈希编码中查找与检索文本哈希编码的海明距离最近的向量数据，完成对检索文本数据的哈希检索过程，优点是哈希模型对短文本的学习能力较高，其中增加的注意力机制能够进一步提升特征的表达能力，分类层利用哈希编码重构类别标签，使得哈希模型在学习二进制编码的同时，能更加精细地利用标签信息，因此检索精度较高。

A text hash retrieval method based on deep learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习的文本哈希检索方法
本专利技术涉及一种文本哈希检索方法，尤其是一种基于深度学习的文本哈希检索方法。
技术介绍
随着数据规模和维度增大，语义检索的代价急剧增加，文本哈希作为一种实现高效语义检索的重要方式，受到了广泛的关注；然而，大多数文本哈希算法都是直接利用机器学习机制将本文的显式特征或者关键字特征映射二进制编码，这些特征无法有效地保证文本之间的语义相似性，导致得到的编码检索效率较低。
技术实现思路
本专利技术所要解决的技术问题是提供一种检索精度及效率较高的基于深度学习的文本哈希检索方法。本专利技术解决上述技术问题所采用的技术方案为：一种基于深度学习的文本哈希检索方法，包括以下步骤：①获取由S个原始词汇数据组成的待检索文本库数据，对原始词汇数据进行清洗和分词的预处理，得到预处理后的文本库数据；②定义待训练的哈希模型如下：②-1对预处理后的文本库数据进行词嵌入处理，得到词嵌入矩阵；②-2构造双向LSTM模型，将词嵌入矩阵输入双向LSTM模型，得到每个原始...

【技术保护点】
1.一种基于深度学习的文本哈希检索方法，其特征在于包括以下步骤：/n①获取由S个原始词汇数据组成的待检索文本库数据，对原始词汇数据进行清洗和分词的预处理，得到预处理后的文本库数据；/n②定义待训练的哈希模型如下：/n②-1对预处理后的文本库数据进行词嵌入处理，得到词嵌入矩阵；/n②-2构造双向LSTM模型，将词嵌入矩阵输入双向LSTM模型，得到每个原始词汇数据对应的语义编码；/n②-3使用文本卷积神经网络提取每个语义编码的n-gram特征；/n②-4使用注意力机制提取每个语义编码的注意力特征；/n②-5采用前后拼接的方式将每个语义编码的n-gram特征和注意力特征合并，得到每个语义编码的综合特...

【技术特征摘要】
1.一种基于深度学习的文本哈希检索方法，其特征在于包括以下步骤：
①获取由S个原始词汇数据组成的待检索文本库数据，对原始词汇数据进行清洗和分词的预处理，得到预处理后的文本库数据；
②定义待训练的哈希模型如下：
②-1对预处理后的文本库数据进行词嵌入处理，得到词嵌入矩阵；
②-2构造双向LSTM模型，将词嵌入矩阵输入双向LSTM模型，得到每个原始词汇数据对应的语义编码；
②-3使用文本卷积神经网络提取每个语义编码的n-gram特征；
②-4使用注意力机制提取每个语义编码的注意力特征；
②-5采用前后拼接的方式将每个语义编码的n-gram特征和注意力特征合并，得到每个语义编码的综合特征；
②-6设置两个使用relu函数作为激活函数的第一全连接层，通过第一全连接层将每个语义编码的综合特征转化为更高阶特征；
②-7设置使用tanh函数作为激活函数的第二全连接层，将每个语义编码的更高阶特征输入第二全连接层，使用sign函数将第二全连接层的输出值转化为对应的哈希编码；
②-8设置分类层，对与第二全连接层的输出值对应的哈希编码进行分类；
③打乱预处理后的文本库数据得到打乱后的文本库数据，将打乱后的文本库数据平均分为P个批次的待训练文本库数据，P＞1000，用P个批次的待训练文本库数据根据由保相似性原则定义的损失函数训练待训练的哈希模型，得到训练后的哈希模型；
④使用训练后的哈希模型对预处理后的文本库数据进行编码，得到对应的文本库哈希编码；
⑤给定检索文本数据，对检索文本数据进行清洗和分词的预处理得到预处理后的检索文本数据，使用训练后的哈希模型对预处理后的检索文本数据进行编码，得到对应...

【专利技术属性】
技术研发人员：寿震宇，钱江波，辛宇，谢锡炯，陈海明，
申请(专利权)人：宁波大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人