一种应用于语音问答系统中的句子相似度识别方法技术方案

技术编号:3044996 阅读:324 留言:1更新日期:2012-04-11 18:40
本发明专利技术公开一种应用于语音问答系统中的句子相似度识别方法,尤其是一种考虑了口语特点和语音识别结果准确性的句子相似度识别方法,它包括首先用关键词组合表示常问问题知识库中的问题,然后在语音识别结果中提取出关键词,与常问问题知识库中的问题匹配得到候选问题集,最后用句子相似度计算公式确定与该识别结果匹配的问题的步骤。本发明专利技术解决了背景技术语音问答系统中用户语音输入具有口语特点和语音识别结果并非完全正确的问题,通过使用本发明专利技术关键词组合的方式表示问题,以及应用恰当的句子相似度计算公式,使得在语音识别结果不是完全正确的情况下仍然能够得到比较准确的句子相似度值,能够较为准确地得到用户意图。

【技术实现步骤摘要】

本专利技术属于属于计算机
,涉及语音问答系统,尤其涉及,特别是一种考虑了口语特点和语音识别结果准确性的句子相似度识别方法。
技术介绍
句子相似度的计算是自动问答系统中一个重要的理论基础。在基于常问问题集(Frequently-Asked Question,简称FAQ)的问答系统中,FAQ知识库作为自动问答系统的一个组成部分,它把用户经常提问的问题和相关答案保存起来。对于用户输入的问题,首先在FAQ知识库中查找答案,如果能够找到相应的问题,就直接将问题所对应的答案返回给用户。其中关键在于计算用户查询和FAQ知识库中问题的相似度,从而找到FAQ知识库中与用户查询最为相似的问题,这是一个句子相似度计算的过程。随着语音识别技术的成熟,用语音作为人机交互的手段成为可能,于是出现了语音问答系统。它和一般的问答系统相比有两个突出的特点(1)语音输入的句子具有口语特点;(2)用户的输入经过语音识别后结果不是百分之百准确,并且语音识别率与周围环境有关,当噪声较大时识别率会显著下降。由于传统的句子相似度计算方法是针对准确的文字输入,没有考虑到以上两个特点,所以有必要设计一种专门针对语音问答系统的句子相似度计算方法。
技术实现思路
为了解决上述
技术介绍
的问题,本专利技术的目的在于考虑了语音问答系统中用户语音输入口语化这一特征,使得对于口语化的句子仍然能够得到比较准确的句子相似度值,为此,本专利技术提供一种应用于语音问答系统中句子相似度的识别方法。本专利技术的又一目的在于提供,它考虑了语音问答系统中语音识别结果不是百分之百准确这一事实,使得在语音识别结果不是完全正确的情况下仍然能够得到比较准确的句子相似度值。本专利技术的目的是这样实现的,它包括首先用关键词组合表示FAQ知识库中的问题,然后在语音识别结果中提取出关键词,与FAQ知识库中的问题匹配得到候选问题集,最后用句子相似度计算公式确定句子相似度与该语音识别结果匹配的问题。所述的用关键词组合表示FAQ知识库中的问题是指从FAQ知识库的问题中提取出最能表达该句意义的一个或者几个词作为关键词,用这些词的组合表示常问问题集知识库中的这一问题。本专利技术的方法考虑到(1)口语表达比较随意,经常会在句子中添加一些没有意义的口语词,这些词对于句子意义的理解没有太大的作用;(2)人类在用语音交流的过程中,并不需要将每一个字都听得很清楚,而只需要听懂句子中最关键的词,就可以理解整句话的意思,所以在很多情况下只要分析语音识别结果中的关键词就可以确定用户的意图,除关键词以外的其它部分识别错误并不会严重影响对于用户意图的判断。所述的从语音识别结果中提取出关键词,与FAQ知识库中的问题匹配得到候选问题集是指设置语音识别结果中共有n个关键词为W1,W2,…,Wn,FAQ知识库中共有m个问题,第i(1≤i≤m)个问题含有ni个关键词为Q1,Q2,…,Qni;从语音识别结果的关键词组合中任选k(1≤k≤n)个词组成序列为Wm1,Wm2,…,Wmj,Wmj+1,…,Wmk,其中1≤j≤k-1,mj<m+1,1≤mj≤n,如果该词序列与第i(1≤i≤m)个问题中的关键词组合序列相同,则把第i个问题认为是与用户当前输入语句相匹配的句子之一,将其加入候选问题集。所述的用句子相似度计算公式确定与该识别结果匹配的问句是指计算语音识别结果与候选问题集中各个问题的相似度,取出最大相似度值所对应的问题,认为是与该语音识别结果匹配的问题;计算句子相似度的公式如下设置语音识别结果W中共有n个关键词(W1、W2、…、Wn),候选问题集中某个问题Q含有k关键词,从识别结果W中取出k(1≤k≤n)个词组成的序列(Wm1,Wm2,…,Wmj,Wmj+1,…,Wmk),其中(1≤j≤k-1,mj<mj+1,1≤mj≤n),与问题Q匹配,则语音识别结果W与问题Q的相似度如下Similarity(W,Q)=0.7(k-0.75Σj=1k-1(mj+1-mj-1))/n+0.3Σj=1kmj/Σm=n-k+1nm]]>这一相似度计算公式遵循以下三条原则(1)“向后”原则“向后”原则是指如果语音识别结果同时与多个问题匹配,此时优先选择与语音识别结果中比较靠后的关键词组合匹配的问题。主要考虑到以下两种情形人们在用口语表达的过程中,因为是边想边说,所以难免会有表达错误或者突然改变意图的时候,此时就可能会出现用语句后面的部分来纠正或替代前面部分的情形。例如你多大,哦不,你叫什么?有一些问句较长,多数情况下,句子的重点是在语句中比较靠后的部分。例如你好,你叫什么名字?(2)“偏多”原则“偏多”原则是指包含关键词较多的问题要优先于包含关键词较少的问题。因为包含关键词较多的问题能够更准确的确定用户的意图。(3)“紧凑”原则 “紧凑”原则是指在语音识别结果的关键词序列中,词间距离较近的关键词组合所匹配的问题要优先于距离较远的关键词组合所匹配的问题。这里的词间距离是指关键词在语音识别结果中所处的位置。例如“你好叫什么名字”中,“你好”和“叫什么”之间的距离比“你好”和“名字”之间的距离要近。设计这一原则是因为,当关键词之间相距过远时,由于它们之间还有别的关键词,所以有时虽然它们的组合能够与某一问题匹配,但是实际上并不是表达该问题所指的意图。另外考虑到语音识别的正确率不是百分之百,可能某一语音识别错误的关键词与距离较远的其它一个或几个关键词组合之后,与系统中某一问题匹配,此时应该对这些候选的问题赋予较低的置信度。公式中前半部分0.7(k-0.75Σj=1k-1(mj+1-mj-1))/n]]>体现了“偏多”原则“紧凑”原则,词间距离越小,Σj=1k-1(mj+1-mj-1)]]>就越小,该公式取值越大,问题中包括的关键词数目越多,k值就越大,该公式取值越大。当语音识别结果W中n个关键词正好与问题Q相匹配时,k=n,Σj=1k-1(mj+1-mj-1)=0,]]>0.7(k-0.75Σj=1k-1(mj+1-mj-1))/n]]>取得最大值0.7;公式中后半部分0.3Σj=1kmj/Σm=n-k+1nm]]>主要体现了“向后”原则,语音识别结果W中与问题Q相匹配的关键词越靠后,Σj=1kmj]]>的值就越大,公式取值越大,当语音识别结果中最后k个连续的关键词组成的序列与问题Q相匹配时,Σj=1kmj=Σm=n-k+1nm,]]>0.3Σj=1kmj/Σm=n-k+1nm]]>取得最大值0.3。从本专利技术的上述技术方案分析可知,这种应用于语音问答系统中的句子相似度计算方法,解决了
技术介绍
语音问答系统中用户语音输入具有口语特点和语音识别结果并非完全正确这一事实,通过使用本专利技术关键词组合的方式表示问题,以及应用恰当的句子相似度计算公式,使得在语音识别结果不是完全正确的情况下仍然能够得到比较准确的句子相似度值,能够较为准确地得到用户意图。附图说明本文档来自技高网
...

【技术保护点】
一种应用于语音问答系统中的句子相似度识别方法,其特征在于:所述方法包括如下步骤:步骤a:用关键词组合表示常问问题集知识库中的问题;步骤b:在语音识别结果中提取出关键词,与常问问题集知识库中的问题匹配得到候选问题集;步骤c:用句子相似度计算公式确定句子相似度与语音识别结果匹配的问题。

【技术特征摘要】
1.一种应用于语音问答系统中的句子相似度识别方法,其特征在于所述方法包括如下步骤步骤a用关键词组合表示常问问题集知识库中的问题;步骤b在语音识别结果中提取出关键词,与常问问题集知识库中的问题匹配得到候选问题集;步骤c用句子相似度计算公式确定句子相似度与语音识别结果匹配的问题。2.根据权利要求1所述的应用于语音问答系统中的句子相似度识别方法,其特征在于,所述步骤a的具体步骤如下从常问问题集知识库的问题中提取出最能表达该句意义的一个或者几个词作为关键词,用这些词的组合表示常问问题集知识库中的问题。3.根据权利要求1所述的应用于语音问答系统中的句子相似度识别方法,其特征在于,所述步骤b确定候选问题集的具体步骤如下设置语音识别结果中有n个关键词为W1,W2,...,Wn;常问问题集知识库中有m个问题,第i个问题含有ni个关键词为Q1,Q2,...,Qni,其中1≤i≤m;从语音识别结果的关键词组合中任选k个词组成序列为Wm1,Wm2,...,Wmj,Wmj+1,...,Wmk,其中1≤k≤n,1≤j≤k-1,mj<mj+1,1≤mj≤n;如果该词序列与第i个问题中的关...

【专利技术属性】
技术研发人员:李成荣高倩倩
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有1条评论
  • 来自[北京市联通] 2015年02月09日 20:17
    句子是语言运用的基本单位,它由词、词组(短语)构成,能表达一个完整的意思,如告诉别人一件事,提出一个问题,表示要求或者制止,表示某种感慨,表示对一段话的延续或省略。句子和句子中间有较大停顿。它的结尾应该用上句号、问号、省略号、或感叹号。
    0
1
相关领域技术
  • 暂无相关专利