一种结合同义词词典和词嵌入向量的问句相似度计算方法技术

技术编号:20820194 阅读:38 留言:0更新日期:2019-04-10 06:00
本发明专利技术公开了一种结合同义词词典和词嵌入向量的问句相似度计算方法,包括句子级别的相似度融合方法和词语级别的相似度融合方法;将句子级别的相似度融合方法和词语级别的相似度融合方法进行结合计算,本发明专利技术具有以下优点:相对于单纯使用词向量的方法,该方法充分利用了人工编写的同义词词典,保证了词语相似度计算的准确性;对于词典缺失的流行词和专业词汇,该方法使用词向量方法计算相似度,有效的避免了单一使用词典方法,在词汇缺失的情况下相似度无法计算的问题;该方法融合了同义词词典和词向量两种相似度计算方法,考虑的因素更多,结果更加准确。

【技术实现步骤摘要】
一种结合同义词词典和词嵌入向量的问句相似度计算方法
本专利技术涉及金融领域服务机器人的自动问答,特别是涉及一种结合同义词词典和词嵌入向量的问句相似度计算方法。
技术介绍
随着人工智能技术在金融自助领域的应用不断加深,越来越多的银行使用基于语音交互技术的机器人来辅助工作人员进行业务的咨询、办理。语音交互技术主要是对用户语音进行识别,转换成相应文字,然后在此基础上对文字的语义进行分析,通过搜索银行内部问题库,提取与用户问题最接近问题的答案。最后,将答案通过语音合成技术(TTS)转换为语音信号,发给机器人并通过扬声器发声。这其中,对用户问题的理解,一般表现为用户所提问题与银行内部数据库中预制问题的匹配,是当前技术的一个难点。该问题的难度主要体现在:(1)用户对同一个问题往往有不同的表达方式(句法结构不同)。(2)用户对同一事物采用不同的词语进行表达(同义词替换)。(3)口语一般采用缩略语,如使用“卡”来代替“银行卡”。对于第一种情况,往往使用预制多个问句模板来解决,即定义一个问题的多种句式,分别进行匹配;对于后两种情况,一般通过计算同义词之间的相似度来解决。对于同义词相似度的计算,存在两种本文档来自技高网...

【技术保护点】
1.一种结合同义词词典和词嵌入向量的问句相似度计算方法,其特征在于:包括句子级别的相似度融合方法和词语级别的相似度融合方法;(一)句子级别的相似度融合方法:待计算相似度的两个问句分别为S1、S2,对其进行分词处理,可得

【技术特征摘要】
1.一种结合同义词词典和词嵌入向量的问句相似度计算方法,其特征在于:包括句子级别的相似度融合方法和词语级别的相似度融合方法;(一)句子级别的相似度融合方法:待计算相似度的两个问句分别为S1、S2,对其进行分词处理,可得其中,m、n分别是问句S1、S2所包含词语的数目,表示第p个问句中的第q个词语;第一步,计算问句之间的词典相似度Simdict(S1,S2),对于问句S1、S2中的任意词语对查询同义词词典,计算得出的词典相似度然后将计算结果排列成大小为m*n的词典相似度矩阵Mdict,取Mdict矩阵每一行的最大值和每一列的最大值,相加取平均得出问句S1、S2的词典相似度Simdict(S1,S2);第二步,计算问句之间的词向量相似度,首先使用词向量计算工具计算语料库中所含词语的词向量,对得出的词向量进行归一化处理,然后对问句S1、S2中的每一个词语对计算余弦相似度最后将所有的相似度相加取平均,得到问句S1、S2的词向量相似度Simvec(S1,S2);第三步,融合上述两个相似度,将上述计算结果进行加权平均,计算公式如下:Sim(S1,S2)=ω1Simdict(S1,S2)+ω2Simvec(S1,S2),其中ω1、ω2为权重系数;(二)词语级别的相似度融合方法:其计算步骤如下:第一步,计算问句S1、S2中每个词语的词典相似度生成大小为m*n的词典相似度矩阵Mdict,当或者存在缺失,则值置为-1;第二步,计算问句S1、S2中每个词语的词向量相似度同样生成大小为m*n的相似度矩阵Mvec;第三步,针对Mdict和Mvec的每一个元素,生成融合后的相似性矩阵Mf,计算公式为:其中,Mf(i,j)、Mdict(i,j)和Mvec(i,j)分别为融合相似性矩阵、词典相似性矩阵和词向量相似性矩阵对应的第i行、第j列元素,ω1、ω2为融合权重系数。第四步,取Mf每一行的最大值和每一列的最大值相加,然后取平均,得到问句S1、S2的相似度Sim(S1,S2);将句子级别的相似度融合方法和词语级别的相似度融合方法进行结合计算,步骤如下,步骤1,使用切词工具对要进行相似度计算的问句S1、S2进行分词,得到S1对应的词语集合S2对应的词语集合步骤2,计算问句S1、S2中每...

【专利技术属性】
技术研发人员:张家重赵亚欧王玉奎付宪瑞张金清
申请(专利权)人:苏州浪潮智能软件有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1