一种句子相似度判断方法技术

技术编号：18894494 阅读：20 留言：0更新日期：2018-09-08 10:57

本发明专利技术公开了一种句子相似度判断方法，属于自然语言处理技术领域；方法包括：根据两个外部输入的句子样本，获取句子样本中的字词向量矩阵；提取句子样本中的重叠特征以形成重叠特征矩阵，并将字词向量矩阵与重叠特征矩阵结合作为第一神经网络模型的输入数据；根据第一神经网络模型处理得到针对句子样本的句子向量并进行操作形成一句子合并向量，并与根据重叠特征形成的重叠特征向量结合作为第二神经网络模型的输入数据；根据第二神经网络模型处理得到相似性度量并输出，以作为判断两个句子样本的相似度的依据。上述技术方案的有益效果是：解决现有技术中计算句子相似度比较依赖预训练的字/词向量的质量以及未登录词的问题。

A sentence similarity judgment method

The invention discloses a method for judging sentence similarity, belonging to the field of natural language processing technology; the method comprises: acquiring the word vector matrix in the sentence sample according to two input sentence samples; extracting the overlapping feature matrix in the sentence sample to form the overlapping feature matrix; and combining the word vector matrix with the overlapping feature matrix. The eigenvector matrix is used as the input data of the first neural network model, the sentence vectors for the sentence samples are processed and manipulated according to the first neural network model to form a sentence merging vector, and the overlapping eigenvectors formed according to the overlapping features are used as the input data of the second neural network model. The similarity measure is obtained by the two neural network model processing and outputted as the basis for judging the similarity of two sentence samples. The beneficial effect of the above technical scheme is to solve the problems of calculating the quality of word/word vectors which depend on pre-training and unknown words in the prior art.

全部详细技术资料下载

【技术实现步骤摘要】
一种句子相似度判断方法
本专利技术涉及自然语言处理
，尤其涉及一种句子相似度判断方法。
技术介绍
在自然语言处理的
中，对于两个句子之间判断相似度的应用非常广泛。现有技术中通常会采用如图1所示的以下方法来计算两个句子之间的相似度：对于句子1和句子2，首先分别获取两个句子的字词向量矩阵并输入到深度神经网络模型中，通过深度神经网络的处理得到句子向量并进行拼接以作为分类神经网络模型的输入，最后得到两个句子的相似性度量。上述处理方法在计算句子相似度时，由句子中的字词序列映射形成字词向量矩阵，其参数一般都会使用由语言模型预训练形成的字词向量进行初始化，因此参数质量比较依赖预训练的字词向量的质量。并且，若在进行计算时，句子中存在字词向量词典中没有的字或词(即未登录词)，则会将其映射成随机向量进行计算，从而影响模型的度量效果。
技术实现思路
根据现有技术中存在的上述问题，现提供一种句子相似度判断方法的技术方案，旨在解决现有技术中计算句子相似度比较依赖预训练的字/词向量的质量和未登录词的问题，从而改进计算句子相似度的度量方法。上述技术方案具体包括：一种句子相似度判断方法，其中，通过预先训练形成一句子相似度判断模型，所述句子相似度判断模型中包括一用于处理得到句子向量的第一神经网络模型以及一用于处理得到表示句子相似度的相似性度量的第二神经网络模型；所述句子相似度判断方法还包括：步骤S1，根据两个外部输入的句子样本，分别获取每个所述句子样本中的字词向量矩阵；步骤S2,分别提取每个所述句子样本中的重叠特征以形成重叠特征矩阵，并针对每个所述句子样本将对应的所述字词向量矩阵与...

【技术保护点】
1.一种句子相似度判断方法，其特征在于，通过预先训练形成一句子相似度判断模型，所述句子相似度判断模型中包括一用于处理得到句子向量的第一神经网络模型以及一用于处理得到表示句子相似度的相似性度量的第二神经网络模型；所述句子相似度判断方法还包括：步骤S1，根据两个外部输入的句子样本，分别获取每个所述句子样本中的字词向量矩阵；步骤S2,分别提取每个所述句子样本中的重叠特征以形成重叠特征矩阵，并针对每个所述句子样本将对应的所述字词向量矩阵与所述重叠特征矩阵结合作为所述第一神经网络模型的输入数据；步骤S3，根据所述第一神经网络模型分别处理得到针对每个所述句子样本的所述句子向量并进行操作形成一句子合并向量，并与根据所述重叠特征形成的重叠特征向量结合作为所述第二神经网络模型的输入数据；步骤S4，根据所述第二神经网络模型处理得到关联于两个所述句子样本的相似性度量并输出，以作为判断两个所述句子样本的相似度的依据；所述步骤S3中，采用所述句子向量直接相减的操作方式形成所述句子合并向量，或者采用拼接所述句子向量的操作方式形成所述句子合并向量。

【技术特征摘要】
1.一种句子相似度判断方法，其特征在于，通过预先训练形成一句子相似度判断模型，所述句子相似度判断模型中包括一用于处理得到句子向量的第一神经网络模型以及一用于处理得到表示句子相似度的相似性度量的第二神经网络模型；所述句子相似度判断方法还包括：步骤S1，根据两个外部输入的句子样本，分别获取每个所述句子样本中的字词向量矩阵；步骤S2,分别提取每个所述句子样本中的重叠特征以形成重叠特征矩阵，并针对每个所述句子样本将对应的所述字词向量矩阵与所述重叠特征矩阵结合作为所述第一神经网络模型的输入数据；步骤S3，根据所述第一神经网络模型分别处理得到针对每个所述句子样本的所述句子向量并进行操作形成一句子合并向量，并与根据所述重叠特征形成的重叠特征向量结合作为所述第二神经网络模型的输入数据；步骤S4，根据所述第二神经网络模型处理得到关联于两个所述句子样本的相似性度量并输出，以作为判断两个所述句子样本的相似度的依据；所述步骤S3中，采用所述句子向量直接相减的操作方式形成所述句子合并向量，或者采用拼接所述句子向量的操作方式形成所述句子合并向量。2.如权利要求1所述的句子相似度判断方法，其特征在于，所述步骤S1中，每个所述句子样本的字词向量矩阵包括：每个所述句子样本的字向量矩阵；或者每个所述句子样本的词向量矩阵；则所述步骤S1中：将所述句子样本切分成字序列，并将所述字序列映射成所述字向量矩阵；或者将所述句子样本切分成词序列，并将所述词序列映射成所述词向量矩阵...

【专利技术属性】
技术研发人员：沈磊，陈见耸，
申请(专利权)人：芋头科技杭州有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人