当前位置: 首页 > 专利查询>宁波大学专利>正文

一种基于深度学习的文本哈希检索方法技术

技术编号:23672212 阅读:44 留言:0更新日期:2020-04-04 17:43
本发明专利技术公开了一种基于深度学习的文本哈希检索方法,特点是首先利用双向LSTM模型提取词嵌入矩阵中的每个原始词汇数据对应的语义编码,接着在双向LSTM模型之后并联接入文本卷积神经网络,并增加注意力机制,再使用sign函数将第二全连接层的输出值转化为对应的哈希编码,利用哈希编码重构类别标签,最后,在文本库哈希编码中查找与检索文本哈希编码的海明距离最近的向量数据,完成对检索文本数据的哈希检索过程,优点是哈希模型对短文本的学习能力较高,其中增加的注意力机制能够进一步提升特征的表达能力,分类层利用哈希编码重构类别标签,使得哈希模型在学习二进制编码的同时,能更加精细地利用标签信息,因此检索精度较高。

A text hash retrieval method based on deep learning

【技术实现步骤摘要】
一种基于深度学习的文本哈希检索方法
本专利技术涉及一种文本哈希检索方法,尤其是一种基于深度学习的文本哈希检索方法。
技术介绍
随着数据规模和维度增大,语义检索的代价急剧增加,文本哈希作为一种实现高效语义检索的重要方式,受到了广泛的关注;然而,大多数文本哈希算法都是直接利用机器学习机制将本文的显式特征或者关键字特征映射二进制编码,这些特征无法有效地保证文本之间的语义相似性,导致得到的编码检索效率较低。
技术实现思路
本专利技术所要解决的技术问题是提供一种检索精度及效率较高的基于深度学习的文本哈希检索方法。本专利技术解决上述技术问题所采用的技术方案为:一种基于深度学习的文本哈希检索方法,包括以下步骤:①获取由S个原始词汇数据组成的待检索文本库数据,对原始词汇数据进行清洗和分词的预处理,得到预处理后的文本库数据;②定义待训练的哈希模型如下:②-1对预处理后的文本库数据进行词嵌入处理,得到词嵌入矩阵;②-2构造双向LSTM模型,将词嵌入矩阵输入双向LSTM模型,得到每个原始词汇数据对应的语义编码;②-3使用文本卷积神经网络提取每个语义编码的n-gram特征;②-4使用注意力机制提取每个语义编码的注意力特征;②-5采用前后拼接的方式将每个语义编码的n-gram特征和注意力特征合并,得到每个语义编码的综合特征;②-6设置两个使用relu函数作为激活函数的第一全连接层,通过第一全连接层将每个语义编码的综合特征转化为更高阶特征;②-7设置使用tanh函数作为激活函数的第二全连接层,将每个语义编码的更高阶特征输入第二全连接层,使用sign函数将第二全连接层的输出值转化为对应的哈希编码;②-8设置分类层,对与第二全连接层的输出值对应的哈希编码进行分类;③打乱预处理后的文本库数据得到打乱后的文本库数据,将打乱后的文本库数据平均分为P个批次的待训练文本库数据,P>1000,用P个批次的待训练文本库数据根据由保相似性原则定义的损失函数训练待训练的哈希模型,得到训练后的哈希模型;④使用训练后的哈希模型对预处理后的文本库数据进行编码,得到对应的文本库哈希编码;⑤给定检索文本数据,对检索文本数据进行清洗和分词的预处理得到预处理后的检索文本数据,使用训练后的哈希模型对预处理后的检索文本数据进行编码,得到对应的检索文本哈希编码;⑥在文本库哈希编码中查找与检索文本哈希编码的海明距离最近的向量数据,并将该向量数据对应的待检索文本库数据中的原始词汇数据组成的文本作为最终的检索结果,完成对检索文本数据的哈希检索过程。所述的步骤③中训练待训练的哈希模型,得到训练后的哈希模型的具体过程如下:③-1设置最大迭代次数,根据保相似性原则定义损失函数如下:其中,1≤i≤N,1≤j≤M,N=S/P,M为与第二全连接层的输出值对应的哈希编码的位数,yi为每个批次的待训练文本库数据中的第i个词汇数据对应的真实标签,为每个批次的待训练文本库数据中的第i个词汇数据对应的分类层的输出值,yij为yi的第j位的值,为的第j位的值,ai表示每个批次的待训练文本库数据中的第i个词汇数据对应的第二全连接层的输出值,W表示分类层的可训练参数,mean(ai)表示对ai的元素求均值,λ1为预设的损失函数中第二项的超参数,λ2为预设的损失函数中第三项的超参数,λ3表示为预设的损失函数中第四项的超参数,||…||2为2-范数符号;③-2根据损失函数使用Adam优化算法对待训练模型进行迭代优化,直到达到设置的最大迭代次数时停止迭代过程,得到训练后的哈希模型。所述的步骤③-1中λ1=0.1,λ2=0.1,λ3=0.1。所述的步骤③-1中设置的最大迭代次数为50000次。与现有技术相比,本专利技术的优点在于首先利用双向LSTM模型提取词嵌入矩阵中的每个原始词汇数据对应的语义编码,接着为了增强哈希模型对短文本的学习能力,在双向LSTM模型之后并联接入文本卷积神经网络,并增加注意力机制进一步提升特征的表达能力,最后,在全连接层与分类层之间添加隐藏层作为哈希层,隐藏层使用sign函数将第二全连接层的输出值转化为对应的哈希编码,分类层利用哈希编码重构类别标签,使得哈希模型在学习二进制编码的同时,能更加精细地利用标签信息,最后,在文本库哈希编码中查找与检索文本哈希编码的海明距离最近的向量数据,并将该向量数据对应的待检索文本库数据中的原始词汇数据组成的文本作为最终的检索结果,完成对检索文本数据的哈希检索过程,通过在短文本数据集与普通文本数据集上的对比实验,显示了采用以上文本哈希检索方法的查询准确率有较多的提升。具体实施方式以下对本专利技术作进一步详细描述。一种基于深度学习的文本哈希检索方法,包括以下步骤:①获取由S个原始词汇数据组成的待检索文本库数据,对原始词汇数据进行清洗和分词的预处理,得到预处理后的文本库数据。②定义待训练的哈希模型如下:②-1对预处理后的文本库数据进行词嵌入处理,得到词嵌入矩阵;②-2构造双向LSTM模型,将词嵌入矩阵输入双向LSTM模型,得到每个原始词汇数据对应的语义编码;②-3使用文本卷积神经网络提取每个语义编码的n-gram特征;②-4使用注意力机制提取每个语义编码的注意力特征;②-5采用前后拼接的方式将每个语义编码的n-gram特征和注意力特征合并,得到每个语义编码的综合特征;②-6设置两个使用relu函数作为激活函数的第一全连接层,通过第一全连接层将每个语义编码的综合特征转化为更高阶特征;②-7设置使用tanh函数作为激活函数的第二全连接层,将每个语义编码的更高阶特征输入第二全连接层,使用sign函数将第二全连接层的输出值转化为对应的哈希编码;②-8设置分类层,对与第二全连接层的输出值对应的哈希编码进行分类。③打乱预处理后的文本库数据得到打乱后的文本库数据,将打乱后的文本库数据平均分为P个批次的待训练文本库数据,P>1000,用P个批次的待训练文本库数据根据由保相似性原则定义的损失函数训练待训练的哈希模型,得到训练后的哈希模型,具体过程如下:③-1设置最大迭代次数为50000次,根据保相似性原则定义损失函数如下:其中,1≤i≤N,1≤j≤M,N=S/P,M为与第二全连接层的输出值对应的哈希编码的位数,yi为每个批次的待训练文本库数据中的第i个词汇数据对应的真实标签,为每个批次的待训练文本库数据中的第i个词汇数据对应的分类层的输出值,yij为yi的第j位的值,为的第j位的值,ai表示每个批次的待训练文本库数据中的第i个词汇数据对应的第二全连接层的输出值,W表示分类层的可训练参数,mean(ai)表示对ai的元素求均值,λ1为预设的损失函数中第二项的超参数,λ2为预设的损失函数中第三项的超参数,λ3表示为预设的损失函数中第四项的超参数,λ1=0.1,λ2=0.1,λ3=0.1,||…||2为2-范数本文档来自技高网...

【技术保护点】
1.一种基于深度学习的文本哈希检索方法,其特征在于包括以下步骤:/n①获取由S个原始词汇数据组成的待检索文本库数据,对原始词汇数据进行清洗和分词的预处理,得到预处理后的文本库数据;/n②定义待训练的哈希模型如下:/n②-1对预处理后的文本库数据进行词嵌入处理,得到词嵌入矩阵;/n②-2构造双向LSTM模型,将词嵌入矩阵输入双向LSTM模型,得到每个原始词汇数据对应的语义编码;/n②-3使用文本卷积神经网络提取每个语义编码的n-gram特征;/n②-4使用注意力机制提取每个语义编码的注意力特征;/n②-5采用前后拼接的方式将每个语义编码的n-gram特征和注意力特征合并,得到每个语义编码的综合特征;/n②-6设置两个使用relu函数作为激活函数的第一全连接层,通过第一全连接层将每个语义编码的综合特征转化为更高阶特征;/n②-7设置使用tanh函数作为激活函数的第二全连接层,将每个语义编码的更高阶特征输入第二全连接层,使用sign函数将第二全连接层的输出值转化为对应的哈希编码;/n②-8设置分类层,对与第二全连接层的输出值对应的哈希编码进行分类;/n③打乱预处理后的文本库数据得到打乱后的文本库数据,将打乱后的文本库数据平均分为P个批次的待训练文本库数据,P>1000,用P个批次的待训练文本库数据根据由保相似性原则定义的损失函数训练待训练的哈希模型,得到训练后的哈希模型;/n④使用训练后的哈希模型对预处理后的文本库数据进行编码,得到对应的文本库哈希编码;/n⑤给定检索文本数据,对检索文本数据进行清洗和分词的预处理得到预处理后的检索文本数据,使用训练后的哈希模型对预处理后的检索文本数据进行编码,得到对应的检索文本哈希编码;/n⑥在文本库哈希编码中查找与检索文本哈希编码的海明距离最近的向量数据,并将该向量数据对应的待检索文本库数据中的原始词汇数据组成的文本作为最终的检索结果,完成对检索文本数据的哈希检索过程。/n...

【技术特征摘要】
1.一种基于深度学习的文本哈希检索方法,其特征在于包括以下步骤:
①获取由S个原始词汇数据组成的待检索文本库数据,对原始词汇数据进行清洗和分词的预处理,得到预处理后的文本库数据;
②定义待训练的哈希模型如下:
②-1对预处理后的文本库数据进行词嵌入处理,得到词嵌入矩阵;
②-2构造双向LSTM模型,将词嵌入矩阵输入双向LSTM模型,得到每个原始词汇数据对应的语义编码;
②-3使用文本卷积神经网络提取每个语义编码的n-gram特征;
②-4使用注意力机制提取每个语义编码的注意力特征;
②-5采用前后拼接的方式将每个语义编码的n-gram特征和注意力特征合并,得到每个语义编码的综合特征;
②-6设置两个使用relu函数作为激活函数的第一全连接层,通过第一全连接层将每个语义编码的综合特征转化为更高阶特征;
②-7设置使用tanh函数作为激活函数的第二全连接层,将每个语义编码的更高阶特征输入第二全连接层,使用sign函数将第二全连接层的输出值转化为对应的哈希编码;
②-8设置分类层,对与第二全连接层的输出值对应的哈希编码进行分类;
③打乱预处理后的文本库数据得到打乱后的文本库数据,将打乱后的文本库数据平均分为P个批次的待训练文本库数据,P>1000,用P个批次的待训练文本库数据根据由保相似性原则定义的损失函数训练待训练的哈希模型,得到训练后的哈希模型;
④使用训练后的哈希模型对预处理后的文本库数据进行编码,得到对应的文本库哈希编码;
⑤给定检索文本数据,对检索文本数据进行清洗和分词的预处理得到预处理后的检索文本数据,使用训练后的哈希模型对预处理后的检索文本数据进行编码,得到对应...

【专利技术属性】
技术研发人员:寿震宇钱江波辛宇谢锡炯陈海明
申请(专利权)人:宁波大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1