英文句子相似度的计算方法及装置制造方法及图纸

技术编号:17796686 阅读:76 留言:0更新日期:2018-04-25 20:10
本发明专利技术公开了一种英文句子相似度的计算方法及装置,其中,方法包括以下步骤:获取英文句子;根据英文句子获取词向量序列,并对词向量序列进行扩维,以得到三维张量的句子特征模型;将句子特征模型的三维张量作为多通道的图像数据输入至卷积神经网络模型,以提取特征向量组;根据特征向量组的余弦距离计算英文句子对的相似度。该方法可以通过模型结构简单,训练时间短,收敛好的神经网络模型来计算句子相似度,从而可以有效简化训练模型,缩短训练时间,测试效果好。

A method and device for calculating the similarity of English sentences

The present invention discloses a method and device for calculating the similarity of English sentence, in which the method includes the following steps: obtaining English sentences, obtaining vector sequence according to English sentences, and expanding the dimension of word vector sequence to obtain three dimensional tensor characteristic model of sentence; The image data of the channel are input to the convolution neural network model to extract the feature vector group, and the similarity of the English sentence pairs is calculated according to the cosine distance of the eigenvector group. This method can calculate sentence similarity by simple model structure, short training time and convergent neural network model. Thus, the training model can be simplified, training time is shortened, and the test results are good.

【技术实现步骤摘要】
英文句子相似度的计算方法及装置
本专利技术涉及文本处理
,特别涉及一种英文句子相似度的计算方法及装置。
技术介绍
与句子相似度问题相关的基于词向量的神经网络模型大致有三种。一种是以LSTM(LongShort-TermMemory,长短期记忆网络)网络为主体的模型来处理句子相似度,首先,将句子中的单词由对应的词向量来表示;然后,将词向量依次输入到LSTM网络中进行进一步处理,最后得到句子的相似度。一种是用CNN(ConvolutionalNeuralNetwork,卷积神经网络)网络来对句子进行分类。处理句子分类问题,需要为句子设定类别,并利用进行标注的句子来对模型进行训练。词向量依据对应单词在句子中的位置逐个连接成的二维矩阵,CNN以这个二维矩阵作为输入,在输出处得到句子的预测分类。本质上,句子分类是一个分类问题,CNN也被用作分类模型来处理问题,而句子相似度的测量是一个回归问题,两种问题的建模方式并不完全相同,不过句子分类模型中的很多做法值得计算句子相似度的模型去借鉴。还有一种模型是使用LSTM和CNN的混合模型来处理句子相似度的问题,集LSTM模型和CNN网络之所长,由于本文档来自技高网...
英文句子相似度的计算方法及装置

【技术保护点】
一种英文句子相似度的计算方法,其特征在于,包括以下步骤:获取英文句子;根据所述英文句子获取词向量序列,并对所述词向量序列进行扩维,以得到三维张量的句子特征模型;将所述句子特征模型的三维张量作为多通道的图像数据输入至卷积神经网络模型,以提取特征向量组;根据所述特征向量组的余弦距离计算英文句子对的相似度。

【技术特征摘要】
1.一种英文句子相似度的计算方法,其特征在于,包括以下步骤:获取英文句子;根据所述英文句子获取词向量序列,并对所述词向量序列进行扩维,以得到三维张量的句子特征模型;将所述句子特征模型的三维张量作为多通道的图像数据输入至卷积神经网络模型,以提取特征向量组;根据所述特征向量组的余弦距离计算英文句子对的相似度。2.根据权利要求1所述的英文句子相似度的计算方法,其特征在于,还包括:去掉卷积神经网络的全连接层,使得所述卷积神经网络输出为多个向量。3.根据权利要求1所述的英文句子相似度的计算方法,其特征在于,所述对所述词向量序列进行扩维,进一步包括:通过词向量的均值表示词组和短语,以将所述英文句子表示为图像的数据格式,使得具有长、宽、高的所述三维张量。4.根据权利要求1所述的英文句子相似度的计算方法,其特征在于,通过k-max池化提取主要特征并处理长度不等的句子。5.根据权利要求4所述的英文句子相似度的计算方法,其特征在于,所述相似度的相对值计算公式为:其中,vs为句子向量,u1,u2,...,uk为CNN的输出的k个向量。6.一种英文句子相似...

【专利技术属性】
技术研发人员:姚海鹏刘惠文张培颖
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1