一种句子相似度判断方法技术

技术编号:18894494 阅读:20 留言:0更新日期:2018-09-08 10:57
本发明专利技术公开了一种句子相似度判断方法,属于自然语言处理技术领域;方法包括:根据两个外部输入的句子样本,获取句子样本中的字词向量矩阵;提取句子样本中的重叠特征以形成重叠特征矩阵,并将字词向量矩阵与重叠特征矩阵结合作为第一神经网络模型的输入数据;根据第一神经网络模型处理得到针对句子样本的句子向量并进行操作形成一句子合并向量,并与根据重叠特征形成的重叠特征向量结合作为第二神经网络模型的输入数据;根据第二神经网络模型处理得到相似性度量并输出,以作为判断两个句子样本的相似度的依据。上述技术方案的有益效果是:解决现有技术中计算句子相似度比较依赖预训练的字/词向量的质量以及未登录词的问题。

A sentence similarity judgment method

The invention discloses a method for judging sentence similarity, belonging to the field of natural language processing technology; the method comprises: acquiring the word vector matrix in the sentence sample according to two input sentence samples; extracting the overlapping feature matrix in the sentence sample to form the overlapping feature matrix; and combining the word vector matrix with the overlapping feature matrix. The eigenvector matrix is used as the input data of the first neural network model, the sentence vectors for the sentence samples are processed and manipulated according to the first neural network model to form a sentence merging vector, and the overlapping eigenvectors formed according to the overlapping features are used as the input data of the second neural network model. The similarity measure is obtained by the two neural network model processing and outputted as the basis for judging the similarity of two sentence samples. The beneficial effect of the above technical scheme is to solve the problems of calculating the quality of word/word vectors which depend on pre-training and unknown words in the prior art.

【技术实现步骤摘要】
一种句子相似度判断方法
本专利技术涉及自然语言处理
,尤其涉及一种句子相似度判断方法。
技术介绍
在自然语言处理的
中,对于两个句子之间判断相似度的应用非常广泛。现有技术中通常会采用如图1所示的以下方法来计算两个句子之间的相似度:对于句子1和句子2,首先分别获取两个句子的字词向量矩阵并输入到深度神经网络模型中,通过深度神经网络的处理得到句子向量并进行拼接以作为分类神经网络模型的输入,最后得到两个句子的相似性度量。上述处理方法在计算句子相似度时,由句子中的字词序列映射形成字词向量矩阵,其参数一般都会使用由语言模型预训练形成的字词向量进行初始化,因此参数质量比较依赖预训练的字词向量的质量。并且,若在进行计算时,句子中存在字词向量词典中没有的字或词(即未登录词),则会将其映射成随机向量进行计算,从而影响模型的度量效果。
技术实现思路
根据现有技术中存在的上述问题,现提供一种句子相似度判断方法的技术方案,旨在解决现有技术中计算句子相似度比较依赖预训练的字/词向量的质量和未登录词的问题,从而改进计算句子相似度的度量方法。上述技术方案具体包括:一种句子相似度判断方法,其中,通过预先训练形成一句子相似度判断模型,所述句子相似度判断模型中包括一用于处理得到句子向量的第一神经网络模型以及一用于处理得到表示句子相似度的相似性度量的第二神经网络模型;所述句子相似度判断方法还包括:步骤S1,根据两个外部输入的句子样本,分别获取每个所述句子样本中的字词向量矩阵;步骤S2,分别提取每个所述句子样本中的重叠特征以形成重叠特征矩阵,并针对每个所述句子样本将对应的所述字词向量矩阵与所述重叠特征矩阵结合作为所述第一神经网络模型的输入数据;步骤S3,根据所述第一神经网络模型分别处理得到针对每个所述句子样本的所述句子向量并进行操作形成一句子合并向量,并与根据所述重叠特征形成的重叠特征向量结合作为所述第二神经网络模型的输入数据;步骤S4,根据所述第二神经网络模型处理得到关联于两个所述句子样本的相似性度量并输出,以作为判断两个所述句子样本的相似度的依据;所述步骤S3中,采用所述句子向量直接相减的操作方式形成所述句子合并向量,或者采用拼接所述句子向量的操作方式形成所述句子合并向量。优选的,该句子相似度判断方法,其中,所述步骤S1中,每个所述句子样本的字词向量矩阵包括:每个所述句子样本的字向量矩阵;或者每个所述句子样本的词向量矩阵;则所述步骤S1中:将所述句子样本切分成字序列,并将所述字序列映射成所述字向量矩阵;或者将所述句子样本切分成词序列,并将所述词序列映射成所述词向量矩阵。优选的,该句子相似度判断方法,其中,所述步骤S2中,采用下述方式处理形成所述重叠特征矩阵:步骤S21,将所述两个所述句子样本中相互重叠的字或词分别替换成一第一字符;步骤S22,将所述两个句子样本中不相重叠的字或词分别替换成一第二字符;步骤S23,根据所述第一字符和所述第二字符分别形成关联于每个所述句子样本的重叠特征序列;步骤S24,将每个所述重叠特征序列映射成所述重叠特征矩阵;步骤S25,每个所述字词向量矩阵和对应的所述重叠特征矩阵分别结合作为所述第一神经网络模型的所述输入数据。优选的,该句子相似度判断方法,其中,所述步骤S3中,处理得到两个所述句子向量的相似度乘积,随后对两个所述句子向量做相减操作,并与所述相似度乘积以及所述重叠特征向量结合作为所述第二神经网络的所述输入数据。优选的,该句子相似度判断方法,其中,通过计算两个所述句子向量之间的点积得到所述相似度乘积;或者根据一参数矩阵处理得到所述相似度乘积;在预先对所述句子相似度判断模型进行训练的过程中,同时训练得到所述参数矩阵。优选的,该句子相似度判断方法,其中,所述第一神经网络模型为深度神经网络模型。优选的,该句子相似度判断方法,其中,所述第一神经网络模型为卷积神经网络模型或者循环神经网络模型。优选的,该句子相似度判断方法,其中,所述第二神经网络模型为分类神经网络模型。上述技术方案的有益效果是:提供一种句子相似度判断方法,能够解决现有技术中计算句子相似度比较依赖预训练的字/词向量的质量和未登录词的问题,从而改进计算句子相似度的度量方法。附图说明图1是现有技术中,处理得到句子相似度的流程示意图;图2-3是本专利技术的较佳的实施例中,一种句子相似度判断方法的总体流程示意图;图4是本专利技术的较佳的实施例中,形成重叠特征矩阵的具体流程示意图;图5是本专利技术的一个较佳的实施例中,第一神经网络模型的结构示意图;图6是本专利技术的一个较佳的实施例中,第二神经网络模型的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,在不冲突的情况下,本专利技术中的实施例及实施例中的特征可以相互组合。下面结合附图和具体实施例对本专利技术作进一步说明,但不作为本专利技术的限定。根据现有技术中存在的上述问题,现提供一种句子相似度判断方法,该判断方法中,可以通过预先训练形成一句子相似度判断模型,句子相似度判断模型中包括一用于处理得到句子向量的第一神经网络模型以及一用于处理得到表示句子相似度的相似性度量的第二神经网络模型。具体地,上述第一神经网络模型和第二神经网络模型是通过统一训练一体形成的,即首先搭建包括第一神经网络模型和第二神经网络模型的句子相似度判断模型(将第一神经网络模型的输出作为第二神经网络模型的输入),随后通过向第一神经网络模型输入训练样本的方式训练形成整个句子相似度判断模型。则该方法具体如图2所示,包括:步骤S1,根据两个外部输入的句子样本,分别获取每个句子样本中的字词向量矩阵;步骤S2,分别提取每个句子样本中的重叠特征以形成重叠特征矩阵,并针对每个句子样本将对应的字词向量矩阵与重叠特征矩阵结合作为第一神经网络模型的输入数据;步骤S3,根据第一神经网络模型分别处理得到针对每个句子样本的句子向量并进行操作形成一句子合并向量,并与根据重叠特征形成的重叠特征向量结合作为第二神经网络模型的输入数据;步骤S4,根据第二神经网络模型处理得到关联于两个句子样本的相似性度量并输出,以作为判断两个句子样本的相似度的依据。上述步骤S3中,采用句子向量直接相减的操作方式形成句子合并向量,或者采用拼接句子向量的操作方式形成句子合并向量。具体地,本实施例中,对于两个给定的句子样本,首先分别获取每个句子样本中的字词向量矩阵。所谓字词向量矩阵,是指由句子中的字词向量映射形成的矩阵。随后,本实施例中,获取每个句子样本中的重叠特征以形成重叠特征矩阵,该重叠特征为根据两个句子样本中相互重叠的字/词提取到的重叠的字词特征,该重叠特征矩阵为重叠特征按照上述映射形成字词向量矩阵相同的映射方法形成的矩阵。本实施例中,获取到上述字词向量矩阵和重叠特征矩阵后,将关联于同一个句子样本的这两个矩阵结合作为第一神经网络模型的输入数据,随后第一神经网络模型通过处理得到针对每个句子样本的句子向量。本专利技术的一个较佳的实施例中,将两个句子样本的句子向量进行相减操作,该本文档来自技高网...

【技术保护点】
1.一种句子相似度判断方法,其特征在于,通过预先训练形成一句子相似度判断模型,所述句子相似度判断模型中包括一用于处理得到句子向量的第一神经网络模型以及一用于处理得到表示句子相似度的相似性度量的第二神经网络模型;所述句子相似度判断方法还包括:步骤S1,根据两个外部输入的句子样本,分别获取每个所述句子样本中的字词向量矩阵;步骤S2,分别提取每个所述句子样本中的重叠特征以形成重叠特征矩阵,并针对每个所述句子样本将对应的所述字词向量矩阵与所述重叠特征矩阵结合作为所述第一神经网络模型的输入数据;步骤S3,根据所述第一神经网络模型分别处理得到针对每个所述句子样本的所述句子向量并进行操作形成一句子合并向量,并与根据所述重叠特征形成的重叠特征向量结合作为所述第二神经网络模型的输入数据;步骤S4,根据所述第二神经网络模型处理得到关联于两个所述句子样本的相似性度量并输出,以作为判断两个所述句子样本的相似度的依据;所述步骤S3中,采用所述句子向量直接相减的操作方式形成所述句子合并向量,或者采用拼接所述句子向量的操作方式形成所述句子合并向量。

【技术特征摘要】
1.一种句子相似度判断方法,其特征在于,通过预先训练形成一句子相似度判断模型,所述句子相似度判断模型中包括一用于处理得到句子向量的第一神经网络模型以及一用于处理得到表示句子相似度的相似性度量的第二神经网络模型;所述句子相似度判断方法还包括:步骤S1,根据两个外部输入的句子样本,分别获取每个所述句子样本中的字词向量矩阵;步骤S2,分别提取每个所述句子样本中的重叠特征以形成重叠特征矩阵,并针对每个所述句子样本将对应的所述字词向量矩阵与所述重叠特征矩阵结合作为所述第一神经网络模型的输入数据;步骤S3,根据所述第一神经网络模型分别处理得到针对每个所述句子样本的所述句子向量并进行操作形成一句子合并向量,并与根据所述重叠特征形成的重叠特征向量结合作为所述第二神经网络模型的输入数据;步骤S4,根据所述第二神经网络模型处理得到关联于两个所述句子样本的相似性度量并输出,以作为判断两个所述句子样本的相似度的依据;所述步骤S3中,采用所述句子向量直接相减的操作方式形成所述句子合并向量,或者采用拼接所述句子向量的操作方式形成所述句子合并向量。2.如权利要求1所述的句子相似度判断方法,其特征在于,所述步骤S1中,每个所述句子样本的字词向量矩阵包括:每个所述句子样本的字向量矩阵;或者每个所述句子样本的词向量矩阵;则所述步骤S1中:将所述句子样本切分成字序列,并将所述字序列映射成所述字向量矩阵;或者将所述句子样本切分成词序列,并将所述词序列映射成所述词向量矩阵...

【专利技术属性】
技术研发人员:沈磊陈见耸
申请(专利权)人:芋头科技杭州有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1