The present invention discloses a method and device for calculating the similarity of English sentence, in which the method includes the following steps: obtaining English sentences, obtaining vector sequence according to English sentences, and expanding the dimension of word vector sequence to obtain three dimensional tensor characteristic model of sentence; The image data of the channel are input to the convolution neural network model to extract the feature vector group, and the similarity of the English sentence pairs is calculated according to the cosine distance of the eigenvector group. This method can calculate sentence similarity by simple model structure, short training time and convergent neural network model. Thus, the training model can be simplified, training time is shortened, and the test results are good.
【技术实现步骤摘要】
英文句子相似度的计算方法及装置
本专利技术涉及文本处理
,特别涉及一种英文句子相似度的计算方法及装置。
技术介绍
与句子相似度问题相关的基于词向量的神经网络模型大致有三种。一种是以LSTM(LongShort-TermMemory,长短期记忆网络)网络为主体的模型来处理句子相似度,首先,将句子中的单词由对应的词向量来表示;然后,将词向量依次输入到LSTM网络中进行进一步处理,最后得到句子的相似度。一种是用CNN(ConvolutionalNeuralNetwork,卷积神经网络)网络来对句子进行分类。处理句子分类问题,需要为句子设定类别,并利用进行标注的句子来对模型进行训练。词向量依据对应单词在句子中的位置逐个连接成的二维矩阵,CNN以这个二维矩阵作为输入,在输出处得到句子的预测分类。本质上,句子分类是一个分类问题,CNN也被用作分类模型来处理问题,而句子相似度的测量是一个回归问题,两种问题的建模方式并不完全相同,不过句子分类模型中的很多做法值得计算句子相似度的模型去借鉴。还有一种模型是使用LSTM和CNN的混合模型来处理句子相似度的问题,集LSTM模型和CNN网络之所长,由于LSTM考虑前后输入信息之间的关联性,被用来对句子整体建模,句子建模后,将句子对{S1,S2}同时放入CNN网络用来进行相似度评估。然而,现有的用于处理句子相似度的模型,无论是LSTM模型还是LSTM和CNN的混合模型,都是一种深度的神经网络,参数庞大,训练时间慢,模型复杂是他们通有的缺点。复杂而规模庞大的网络也许会达到很好的效果,但是其复杂程度直接制约着这类模型的实际应用。专 ...
【技术保护点】
一种英文句子相似度的计算方法,其特征在于,包括以下步骤:获取英文句子;根据所述英文句子获取词向量序列,并对所述词向量序列进行扩维,以得到三维张量的句子特征模型;将所述句子特征模型的三维张量作为多通道的图像数据输入至卷积神经网络模型,以提取特征向量组;根据所述特征向量组的余弦距离计算英文句子对的相似度。
【技术特征摘要】
1.一种英文句子相似度的计算方法,其特征在于,包括以下步骤:获取英文句子;根据所述英文句子获取词向量序列,并对所述词向量序列进行扩维,以得到三维张量的句子特征模型;将所述句子特征模型的三维张量作为多通道的图像数据输入至卷积神经网络模型,以提取特征向量组;根据所述特征向量组的余弦距离计算英文句子对的相似度。2.根据权利要求1所述的英文句子相似度的计算方法,其特征在于,还包括:去掉卷积神经网络的全连接层,使得所述卷积神经网络输出为多个向量。3.根据权利要求1所述的英文句子相似度的计算方法,其特征在于,所述对所述词向量序列进行扩维,进一步包括:通过词向量的均值表示词组和短语,以将所述英文句子表示为图像的数据格式,使得具有长、宽、高的所述三维张量。4.根据权利要求1所述的英文句子相似度的计算方法,其特征在于,通过k-max池化提取主要特征并处理长度不等的句子。5.根据权利要求4所述的英文句子相似度的计算方法,其特征在于,所述相似度的相对值计算公式为:其中,vs为句子向量,u1,u2,...,uk为CNN的输出的k个向量。6.一种英文句子相似...
【专利技术属性】
技术研发人员:姚海鹏,刘惠文,张培颖,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。