英文句子相似度的计算方法及装置制造方法及图纸

技术编号:17796686 阅读:64 留言:0更新日期:2018-04-25 20:10
本发明专利技术公开了一种英文句子相似度的计算方法及装置,其中,方法包括以下步骤:获取英文句子;根据英文句子获取词向量序列,并对词向量序列进行扩维,以得到三维张量的句子特征模型;将句子特征模型的三维张量作为多通道的图像数据输入至卷积神经网络模型,以提取特征向量组;根据特征向量组的余弦距离计算英文句子对的相似度。该方法可以通过模型结构简单,训练时间短,收敛好的神经网络模型来计算句子相似度,从而可以有效简化训练模型,缩短训练时间,测试效果好。

A method and device for calculating the similarity of English sentences

The present invention discloses a method and device for calculating the similarity of English sentence, in which the method includes the following steps: obtaining English sentences, obtaining vector sequence according to English sentences, and expanding the dimension of word vector sequence to obtain three dimensional tensor characteristic model of sentence; The image data of the channel are input to the convolution neural network model to extract the feature vector group, and the similarity of the English sentence pairs is calculated according to the cosine distance of the eigenvector group. This method can calculate sentence similarity by simple model structure, short training time and convergent neural network model. Thus, the training model can be simplified, training time is shortened, and the test results are good.

【技术实现步骤摘要】
英文句子相似度的计算方法及装置
本专利技术涉及文本处理
,特别涉及一种英文句子相似度的计算方法及装置。
技术介绍
与句子相似度问题相关的基于词向量的神经网络模型大致有三种。一种是以LSTM(LongShort-TermMemory,长短期记忆网络)网络为主体的模型来处理句子相似度,首先,将句子中的单词由对应的词向量来表示;然后,将词向量依次输入到LSTM网络中进行进一步处理,最后得到句子的相似度。一种是用CNN(ConvolutionalNeuralNetwork,卷积神经网络)网络来对句子进行分类。处理句子分类问题,需要为句子设定类别,并利用进行标注的句子来对模型进行训练。词向量依据对应单词在句子中的位置逐个连接成的二维矩阵,CNN以这个二维矩阵作为输入,在输出处得到句子的预测分类。本质上,句子分类是一个分类问题,CNN也被用作分类模型来处理问题,而句子相似度的测量是一个回归问题,两种问题的建模方式并不完全相同,不过句子分类模型中的很多做法值得计算句子相似度的模型去借鉴。还有一种模型是使用LSTM和CNN的混合模型来处理句子相似度的问题,集LSTM模型和CNN网络之所长,由于LSTM考虑前后输入信息之间的关联性,被用来对句子整体建模,句子建模后,将句子对{S1,S2}同时放入CNN网络用来进行相似度评估。然而,现有的用于处理句子相似度的模型,无论是LSTM模型还是LSTM和CNN的混合模型,都是一种深度的神经网络,参数庞大,训练时间慢,模型复杂是他们通有的缺点。复杂而规模庞大的网络也许会达到很好的效果,但是其复杂程度直接制约着这类模型的实际应用。专
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种英文句子相似度的计算方法,该方法可以有效简化训练模型,缩短训练时间,测试效果好。本专利技术的另一个目的在于提出一种英文句子相似度的计算装置。为达到上述目的,本专利技术一方面实施例提出了一种英文句子相似度的计算方法,包括以下步骤:获取英文句子;根据所述英文句子获取词向量序列,并对所述词向量序列进行扩维,以得到三维张量的句子特征模型;将所述句子特征模型的三维张量作为多通道的图像数据输入至卷积神经网络模型,以提取特征向量组;根据所述特征向量组的余弦距离计算英文句子对的相似度。本专利技术实施例的英文句子相似度的计算方法,可以通过句子特征模型三维张量作为多通道的图像数据输入至卷积神经网络模型,提取特征向量组,并计算英文句子对的相似度,从而可以有效简化训练模型,缩短训练时间,测试效果好。另外,根据本专利技术上述实施例的英文句子相似度的计算方法还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,上述方法还包括:去掉卷积神经网络的全连接层,使得所述卷积神经网络输出为多个向量。进一步地,在本专利技术的一个实施例中,所述对所述词向量序列进行扩维,进一步包括:通过词向量的均值表示词组和短语,以将所述英文句子表示为图像的数据格式,使得具有长、宽、高的所述三维张量。进一步地,在本专利技术的一个实施例中,通过k-max池化提取主要特征并处理长度不等的句子。进一步地,在本专利技术的一个实施例中,所述相似度的相对值计算公式为:其中,vs为句子向量,u1,u2,...,uk为CNN的输出的k个向量。为达到上述目的,本专利技术另一方面实施例提出了一种英文句子相似度的计算装置,包括:获取模块,用于获取英文句子;建模模块,用于根据所述英文句子获取词向量序列,并对所述词向量序列进行扩维,以得到三维张量的句子特征模型;提取模块,用于将所述句子特征模型的三维张量作为多通道的图像数据输入至卷积神经网络模型,以提取特征向量组;计算模块,用于根据所述特征向量组的余弦距离计算英文句子对的相似度。本专利技术实施例的英文句子相似度的计算装置,可以通过句子特征模型三维张量作为多通道的图像数据输入至卷积神经网络模型,提取特征向量组,并计算英文句子对的相似度,从而可以有效简化训练模型,缩短训练时间,测试效果好。另外,根据本专利技术上述实施例的英文句子相似度的计算装置还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,上述装置还包括:处理模块,用于去掉卷积神经网络的全连接层,使得所述卷积神经网络输出为多个向量。进一步地,在本专利技术的一个实施例中,所述建模模块还用于通过词向量的均值表示词组和短语,以将所述英文句子表示为图像的数据格式,使得具有长、宽、高的所述三维张量。进一步地,在本专利技术的一个实施例中,通过k-max池化提取主要特征并处理长度不等的句子。进一步地,在本专利技术的一个实施例中,所述相似度的相对值计算公式为:其中,vs为句子向量,u1,u2,...,uk为CNN的输出的k个向量。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为根据本专利技术一个实施例的英文句子相似度的计算方法的流程图;图2为根据本专利技术一个实施例的基于词向量和卷积神经网络的计算句子相似度的模型的示意图;图3为根据本专利技术一个实施例的句子模型,CNN网络的输入层的示意图;图4为根据本专利技术一个实施例的卷积网络,k-max池化的示意图;图5为根据本专利技术一个实施例的选择KL损失函数,MSE损失函数的模型在测试集上的均方误差随着训练step变化曲线图;图6为根据本专利技术一个实施例的选择KL损失函数,MSE损失函数测试集上pearson相关系数随着训练step变化曲线图;图7为根据本专利技术一个实施例的英文句子相似度的计算装置的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。在介绍英文句子相似度的计算方法及装置之前,先简单介绍一下句子相似度计算的重要性。在问答系统、信息检索、抄袭检测、语音识别等语言处理和研究中,句子相似度计算是一项基础而且核心的工作。目前,随着神经网络的兴起,大量的基于循环神经网络和卷积神经网络的方法被应用于自然语言处理的研究和应用中。所谓句子相似度,即给定句子对{S1,S2},通过某种方式来给出句子S1,句子S2的相似性sim{S1,S2}的评估分数。正是基于上述原因,本专利技术实施例提出了一种英文句子相似度的计算方法及装置。下面参照附图描述根据本专利技术实施例提出的英文句子相似度的计算方法及装置,首先将参照附图描述根据本专利技术实施例提出的英文句子相似度的计算方法。图1是本专利技术一个实施例的英文句子相似度的计算方法的流程图。如图1所示,该英文句子相似度的计算方法包括以下步骤:在步骤S101中,获取英文句子。可以理解的是,本专利技术实施例首先获取获取要进行处理的英文句子。在步骤S102中,根据英文句子获取词向量序列,并对词向量序列进行扩维,以得到三维张量的句子特征模型。可以理解的是,如图2所示,相比于常见的词向量对句子进行建模的方法,为了表达相距较远的词语间的语义特征,本专利技术实施例可以对词向量序列进行了扩维,使得句子特征模型本文档来自技高网
...
英文句子相似度的计算方法及装置

【技术保护点】
一种英文句子相似度的计算方法,其特征在于,包括以下步骤:获取英文句子;根据所述英文句子获取词向量序列,并对所述词向量序列进行扩维,以得到三维张量的句子特征模型;将所述句子特征模型的三维张量作为多通道的图像数据输入至卷积神经网络模型,以提取特征向量组;根据所述特征向量组的余弦距离计算英文句子对的相似度。

【技术特征摘要】
1.一种英文句子相似度的计算方法,其特征在于,包括以下步骤:获取英文句子;根据所述英文句子获取词向量序列,并对所述词向量序列进行扩维,以得到三维张量的句子特征模型;将所述句子特征模型的三维张量作为多通道的图像数据输入至卷积神经网络模型,以提取特征向量组;根据所述特征向量组的余弦距离计算英文句子对的相似度。2.根据权利要求1所述的英文句子相似度的计算方法,其特征在于,还包括:去掉卷积神经网络的全连接层,使得所述卷积神经网络输出为多个向量。3.根据权利要求1所述的英文句子相似度的计算方法,其特征在于,所述对所述词向量序列进行扩维,进一步包括:通过词向量的均值表示词组和短语,以将所述英文句子表示为图像的数据格式,使得具有长、宽、高的所述三维张量。4.根据权利要求1所述的英文句子相似度的计算方法,其特征在于,通过k-max池化提取主要特征并处理长度不等的句子。5.根据权利要求4所述的英文句子相似度的计算方法,其特征在于,所述相似度的相对值计算公式为:其中,vs为句子向量,u1,u2,...,uk为CNN的输出的k个向量。6.一种英文句子相似...

【专利技术属性】
技术研发人员:姚海鹏刘惠文张培颖
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1