The invention discloses a method of sentence similarity comparison based on word vectors. The present invention provides a large training corpus based on word vector model, and through the Standford parser will sentence into syntactic tree structure, and then search the word vector model of word vector corresponding sentence tree leaf node, which on this basis, we propose a method of sentence similarity based on word vector, this method firstly, sentence vector tree, then we put forward the soft partial tree kernel function to calculate the final score of sentence similarity. The experimental results show that this method has achieved the best results in more than half of the datasets, and has achieved the most advanced performance in terms of average performance. This shows that this method is a very effective measure of sentence similarity.
【技术实现步骤摘要】
一种基于词向量的句子相似度比较方法
本专利技术涉及一种基于词向量的句子相似度比较方法,属于自然语言处理
背景内容句子相似度比较是自然语言处理的一个基本任务,它广泛应用于很多领域,比如信息检索、机器翻译、文本分类等。只要是需要判断二个句子相似性的场景,都离不开句子相似度判断方法。相似度判断方法越准确,有利于提高各种需要用到此相似度方法的系统的性能。句子相似度测量是自然语言处理中许多应用程序的核心,也是大多数文本相关任务的基础。句子相似度方法研究有很长的历史,有基于向量空间模型的方法,也有将句子通过神经网络嵌入成句子向量的方法,这一类方法最近取得了很大的成功,比如利用DNN(深度神经网络),RNN(循环神经网络),LSTM(长短期记忆网络)等。但是这种将句子表示成向量的做法忽略了句子本身存在的句法信息,会丢失句子的句法信息。
技术实现思路
本专利技术克服现有技术存在的不足,本专利技术公开了一种基于词向量的句子相似度比较方法。本专利技术基于大型语料库训练得到词向量模型,并且通过斯坦福句法分析器将句子表示成句法成分树结构,然后在词向量模型中搜索句子成分树叶子节点所对应的词向量,这此基础上,我们提出了一种基于词向量的句子相似度比较方法,这种方法首先构建句子成分向量树,然后通过我们提出的softpartialtreekernel函数计算最终的句子相似度得分。实验结果表示,这种方法相对于目前性能表现很强的众多神经网络方法,在超过一半数据集上都取得了最好的效果,并且在平均性能上取得了最先进的效果。这说明了这种方法是一种很有效的句子相似度度量方式。这说明了这种方法是 ...
【技术保护点】
一种基于词向量的句子相似度比较方法,其特征在于,包括如下步骤:步骤一、训练得到词向量模型,所述词向量模型包含词和词的向量;步骤二、对于待测试的句子对,分别生成句子的句法成分树结构,每个句子对应的句法成分树结构的叶子节点都为句中的词;步骤三、基于句子的句子成分树结构,构建句子向量树结构;步骤四、将句子向量树结构输入计算,即得到二个句子向量树结构的相似度得分。
【技术特征摘要】
1.一种基于词向量的句子相似度比较方法,其特征在于,包括如下步骤:步骤一、训练得到词向量模型,所述词向量模型包含词和词的向量;步骤二、对于待测试的句子对,分别生成句子的句法成分树结构,每个句子对应的句法成分树结构的叶子节点都为句中的词;步骤三、基于句子的句子成分树结构,构建句子向量树结构;步骤四、将句子向量树结构输入计算,即得到二个句子向量树结构的相似度得分。2.如权利要求1所述的基于词向量的句子相似度比较方法,其特征在于,所述步骤一中,使用维基百科文本作为训练语料,使用word2vec工具训练词向量,得到词向量模型。3.如权利要求1所述的基于词向量的句子相似度比较方法,其特征在于,所述步骤二中,使用斯坦福句法分析器,生成句子的句法成分树结构;若所述句子为中文,则预先进行分词处理。4.如权利要求1所述的基于词向量的句子相似度比较方法,其特征在于,所述步骤三,包括如下步骤:3.1)基于句子成分树结构,构建叶子节点集;3.2)遍历叶子节点集中的每个词,到词向量模型中搜索词所对应的词向量,构建叶子节点词向量集;3.3)遍历句子成分树结构的每一个叶子节点,每个叶子节点都包含在叶子节点集中,按照叶子节点集到叶子节点词向量集的一一对应关系,将叶子节点替换成叶子节点集中所对应的词向量。5.如权利要求1所述的基于词向量的句子相似度比较方法,其特征在于,所述步骤四中,包括如下步骤:4.1)对于步骤三中构建的两个句子向量树结构T1,T2,首先生成句子向量树结构的子树集F1={N1,N2,…,Ni},F2={M1,M2,…,Mj},其中Ni表示T1生成的最后一个子树的根节点,i表示T1生成子树的个数,Mj代表T2生成的最后一个子树的根节点,j代表T2生成子树的个数;4.2)句子成分向量树相似度其中Nl表示F1中任意一个元素,其中Mk表示F2中任意一个元素;Δ(Nl,Mk)表示Nl和Mk的相似度;这个式子表示将F1和F2中所有元素两两成对对比,计算值为Δ(Nl,Mk),然后累加。6.如权利要求5所述的基于词向量的句子相似度比较方法,其特征在于,所述Δ(Nl,Mk)的计算方法如下:4.3)如果Nl和Mk是不相同的并且不同时为叶子节点,则Δ(Ml,Mk)=0;4.4)如果Nl和Mk同时为叶子节点,则Δ(Nl,Mk)=CosiNe(Vec1,Vec2),Vec1表示叶子节点Nl对应的词向量,Vec2表示叶子节点Mk对应的词向量;CosiNe()表示对向量求余...
【专利技术属性】
技术研发人员:全哲,乐雨泉,朱莉,叶婷,林轩,
申请(专利权)人:湖南大学,
类型:发明
国别省市:湖南,43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。