一种句子相似度计算方法技术

技术编号:21141305 阅读:63 留言:0更新日期:2019-05-18 05:13
本发明专利技术请求保护一种句子相似度计算方法,包括以下步骤:步骤(1),获取句子相似度计算的测试集和训练集,并通过词向量模型获取各词语对应的语义向量;步骤(2),基于词语权重的句向量,分别计算测试集中某一测试句子与训练集中每个训练句子的余弦相似度;步骤(3),基于词序的句向量,分别计算上述测试句子和由步骤(2)的结果筛选出的相似度前10的句子的相似度;步骤(4),基于步骤(2)和步骤(3)得到的两种句子向量计算的句子相似度,并采用MRR(平均排序倒数)参数确定方法来调节优化系数β,得出与训练集中句子相似度最大的句子。由于本发明专利技术考虑了影响句子相似度的词语权重和词序因素来计算,大大提高了句子相似度计算的精准度。

【技术实现步骤摘要】
一种句子相似度计算方法
本专利技术属于自然语言处理
,尤其涉及句子相似度计算方法。
技术介绍
句子相似度计算是在计算机被赋予丰富涵义词汇的基础上,通过句子间的特征构建句子相似度计算模型,使计算机能够快速匹配系统中最为相似的句子。句子相似度计算在自然语言处理方面的各个领域都有着广泛的应用。例如在自动问答系统中常问问题库的检索,如何根据用户的提问在知识库中查找到对应的答案,通过计算提问的句子和知识库中对应的句子之间相似度来解决的。在信息过滤技术中,通过句子相似度计算,可自动过滤掉用户可能并不想看到的信息。同样,在机器翻译中、自动文摘中均用到该技术,以获取需要的信息。在现有技术中,句子之间的匹配是没有考虑到除去与句子语义相似度关系不大的最大主成分特征向量,造成在计算句子相似度时包含了一些冗余的成分;此外,一些算法少有考虑到组成句子间的词序问题,这导致对句子的语义的把握不准确,比如“老师叫小明去教室”和“小明叫老师去教室“,如果只按照句子语义计算相似度,那么这两个句子的意思就为一样的了,但显然他们的意思有区别。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种提高句子相似度计本文档来自技高网...

【技术保护点】
1.一种句子相似度计算方法,其特征在于,包括以下步骤:步骤(1)、获取句子相似度计算的测试集和训练集,并通过词向量模型获取测试集和训练集中的各词语对应的语义向量;步骤(2)、基于词语权重的句向量,分别计算测试集中某一测试句子与训练集中每个训练句子的余弦相似度;步骤(3)、基于词序的句向量,分别计算上述测试句子和由步骤(2)的结果筛选出的相似度前10的训练句子的相似度;步骤(4)、基于步骤(2)和步骤(3)得到的两种句子向量计算的句子相似度,并采用MRR平均排序倒数参数确定方法来调节优化系数β,得出与训练集中句子相似度最大的句子。

【技术特征摘要】
1.一种句子相似度计算方法,其特征在于,包括以下步骤:步骤(1)、获取句子相似度计算的测试集和训练集,并通过词向量模型获取测试集和训练集中的各词语对应的语义向量;步骤(2)、基于词语权重的句向量,分别计算测试集中某一测试句子与训练集中每个训练句子的余弦相似度;步骤(3)、基于词序的句向量,分别计算上述测试句子和由步骤(2)的结果筛选出的相似度前10的训练句子的相似度;步骤(4)、基于步骤(2)和步骤(3)得到的两种句子向量计算的句子相似度,并采用MRR平均排序倒数参数确定方法来调节优化系数β,得出与训练集中句子相似度最大的句子。2.根据权利要求1所述的一种句子相似度计算方法,其特征在于,所述步骤(1)获取句子相似度计算的测试集和训练集,并通过词向量模型获取测试集和训练集中的各词语对应的语义向量,具体包括:对自然语言语料通过词向量工具进行训练,以获取各词语对应的向量;将选取的测试句子和训练集中的句子进行分词后,训练得到词向量模型,所述词向量模型包含词向量,每个词语用一个向量来表示,随机选取测试集中第i句子Xi,句子Xi经过分词后得到关于Xi的词语集合为xi={x1,x2,…,xn},n为构成句子Xi的词语个数,将每个词语与对应的语义向量一一匹配,得到句子Xi中每个词语形成的语义向量集合为Vx={vx1,vx2,…vxn},其中vxn表示词语xn对应的语义向量。3.根据权利要求2所述的一种句子相似度计算方法,其特征在于,所述步骤(2)基于词语权重的句向量,分别计算测试集中某一测试句子与训练集中每个训练句子的余弦相似度,具体包括:(11)根据词语在语料库中出现的频率赋予相应的权重,计算句子Xi每个词语的权重ωn,计算公式如下:其中f(xn)为每个词在语料库中的词频,a为常数,取a=0.0001;(12)计算句子Xi的词语权重的句向量Vsxi,计算公式如下:Vsxi=(1-uuT)V′sxi其中,V′sxi为去主成分前的句子向量,u为V′sxi的最大主成分向量;(13)基于词语权重的句向量,计算句子Xi和测试集中每一个句子的余弦相似度,其中,句子Xi和Yj的词语权重的句向量的余弦相似度计算公式如下:其中,Yj为训练集中的第j个句子,Vsyj为句子Yj的词语权重的...

【专利技术属性】
技术研发人员:刘继明谭云丹袁野万晓榆王正强
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1