声音识别装置及计算机程序制造方法及图纸

技术编号:17102691 阅读:10 留言:0更新日期:2018-01-21 12:44
提供能有效利用神经网络的特性来提高识别精度的声音识别装置。声音识别装置包含:基于RNN(循环神经网络)的声学模型(308),其按每个状态序列算出给出由从声音信号得到的给定的声音特征量构成的观测序列时的状态序列的后验概率;基于S

Sound recognition device and computer program

A sound recognition device that provides an effective use of the characteristics of the neural network to improve the recognition accuracy. The voice recognition device includes: the acoustic model based on RNN (308). It calculates the posterior probability of the state sequence based on the sequence of each state by giving the observed sequence of the given voice characteristic quantity from the sound signal, and based on S.

【技术实现步骤摘要】
【国外来华专利技术】声音识别装置及计算机程序
本专利技术涉及声音识别装置,特别涉及使用神经网络来进行高精度的声音识别的声音识别装置及其计算机程序。
技术介绍
使用基于声音的输入输出来作为人与计算机的接口的装置以及服务不断增加。例如在便携式电话的操作中也利用了基于声音的输入输出。在基于声音的输入输出中,需要尽可能提高构成其基础的声音识别装置的识别精度。作为声音识别,一般的技术使用通过统计学上的机器学习而得到的模型。例如作为声学模型而使用HMM(隐马尔可夫模型)。另外,还使用:用于算出在声音识别的过程中生成的字符串能以何种程度的概率从HMM的状态串中得到的单词发声辞典;以及用于算出某语言的单词串以何种程度的概率出现的语言模型等。为了进行这样的处理,现有的声音识别装置包含:帧化处理部,其将声音信号帧化;特征量生成部,其从各帧算出梅尔频率倒谱系数等特征量,生成多维的特征量矢量的序列;和解码器,其使用该特征量矢量的序列,输出用声学模型和语言模型给出该特征量矢量的序列的似然性最高的单词串,作为声音识别结果。在似然性计算中,来自构成声学模型的HMM的各状态的输出概率和状态过渡概率起到重要作用。这些都能通过机器学习而得到。输出概率用通过学习得到的高斯混合模型算出。参考图1来说明现有的声音识别装置中的声音识别的基本思路。过去,认为单词串30(单词串W)会历经各种噪声的影响而作为观测序列36(观测序列X)被观测到,并输出给出最终的观测序列X的似然性最高那样的单词串作为声音识别的结果。在该过程中,用P(W)表征生成单词串W的概率。将从该单词串W起经过中间生成物即发声串32而生成HMM的状态序列S(状态序列34)的概率设为P(S|W)。进而,将从状态序列S得到观测X的概率用P(X|S)表征。在声音识别的过程中,如图2的第1式所示那样,在给出开头到时刻T的观测序列X1:T时,将给出这样的观测序列的似然性成为最大那样的单词串作为声音识别的结果输出。即,声音识别的结果的单词串~W通过下式求取。另外,数学表达式中标记在字符的正上方的记号“~”在说明书中记载于紧挨字符之前的地方。[数学表达式1]若将该式右边通过贝叶斯式变形,则得到如下数学表达式。[数学表达式2]进而,该式的分子的第1项目能通过HMM如下那样求取。[数学表达式3]在该式中,状态序列S1:T表示HMM的状态序列S1、...、ST。式(3)的右边的第1项表示HMM的输出概率。利用式(1)~式(3),声音识别的结果的单词串~W由下式求取。[数学表达式4]在HMM中,时刻t下的观测值xt仅依赖于状态st。因此,式(4)中的HMM的输出概率P(X1:T|S1:T)能通过下式算出。[数学表达式5]概率P(xt|st)通过高斯混合模型(GMM)算出。式(4)的其他项当中的P(S1:T|W)通过HMM的状态过渡概率与单词的发声概率之积算出,P(W)通过语言模型算出。分母的P(X1:T)是对于各假设都共同的值,因此在argmax运算的执行时能够忽视。最近,研究了不是通过GMM而是通过深度神经网络(DNN)算出HMM中的输出概率这样被称作DNN-HMM混合方式的框架。通过DNN-HMM混合方式达成了比利用GMM的声学模型高的精度,因而受到关注。这时,原本是DNN的输出表征后验概率P(St|Xt),因此并不直接适合于利用了使用输出概率P(Xt|St)的HMM的现有的机制。为了解决该问题,对DNN输出的后验概率P(St|Xt)应用贝叶斯法则,变形成使用输出概率P(Xt|St)的形式来使用。现有技术文献非专利文献非专利文献1:C.Weng,D.Yu,S.Watanabe,andB.-H.F.Juang,“Recurrentdeepneuralnetworksforrobustspeechrecognition,”inAcoustics,SpeechandSignalProcessing(ICASSP),2014IEEEInternationalConferenceon.IEEE,2014,pp.5532-5536.
技术实现思路
专利技术要解决的课题最近,作为应用于声学模型的神经网络,循环神经网络(RNN)受到关注。所谓RNN,是如下结构的神经网络:不仅包含从输入层侧向输出层侧的一个方向的节点间的结合,还包含了从输出侧的层向相邻的输入侧的层的节点间的结合、相同层内的节点间的结合、以及自回归结合等。由于该结构,RNN具备了能表征依赖于时间的信息这样的通常的神经网络中没有的特性。声音是典型的作为依赖于时间的信息。因此,认为RNN适于声学模型。但是,在现有的研究中,利用RNN的声音识别装置的性能不太高。在非专利文献1中,报告了通过用将误差逆传播法改良后的学习方法进行学习的RNN,使用Sigmoid型判别函数,相比过去得到4~7%的精度的提高。但是,非专利文献1公开的RNN的性能提高是与更小规模的DNN之间的比较,在与相同程度规模的DNN的比较中能得到怎样的结果,并不明确。另一方面,若并不限于RNN,对DNN也能用同样的手法来提高精度,则更加优选。因此,本专利技术的目的在于,提供一种能有效利用神经网络的特性来提高声音识别精度的声音识别装置。用于解决课题的手段本专利技术的第1局面所涉及的声音识别装置包含:第1后验概率算出单元,其按每个状态序列算出给出由从声音信号得到的给定的声音特征量构成的观测序列时的状态序列的后验概率;第2后验概率算出单元,其针对各单词串算出给出状态序列时的单词串的后验概率;和用于以下处理的单元,即,使用针对输入观测序列由第1后验概率算出单元以及第2后验概率算出单元分别算出的后验概率,基于按与声音信号对应的单词串的每个假设算出的评分来进行针对声音信号的声音识别。也可以,第2后验概率算出单元包含用于以下处理的单元,即,根据基于语言模型的单词串的发生概率、构成声学模型的HMM的状态过渡概率、和由第1后验概率算出单元算出的状态序列的发生概率,针对与声音信号对应的单词串的各假设算出后验概率。优选地,构成状态序列的各状态是构成声学模型的HMM的状态。更优选地,第1后验概率算出单元包含:神经网络,其是将观测序列作为输入并算出产生该观测序列的状态的后验概率那样的学习完毕的神经网络;和第1概率算出单元,其用于通过利用神经网络算出的后验概率的序列算出状态序列所发生的概率。进一步优选地,神经网络是RNN或DNN。本专利技术的第2局面所涉及的计算机程序使计算机作为上述任意的声音识别装置的全部单元起作用。附图说明图1是表示现有的声音识别的思路的图。图2是表示构成现有的声音识别的基础的数学表达式的图。图3是示意表示通常的DNN的构成的图。图4是示意表示RNN的构成和不同时刻的RNN的节点间的结合的示例的图。图5是表示本专利技术的1个实施方式中的声音识别的思路的图。图6是表示构成本专利技术的1个实施方式中的声音识别的基础的数学表达式的图。图7是表示本专利技术的1个实施方式所涉及的声音识别装置的构成的框图。图8是表示实现本专利技术的1个实施方式所涉及的声音识别装置的计算机的外观的图。图9是表示图8所示的计算机的硬件构成的框图。具体实施方式在以下的说明以及附图中,对同一部件标注同一参考编号。因此,不再重复对它们的详细说明。最初,说明DNN与RNN的不同。参考图3,本文档来自技高网
...
声音识别装置及计算机程序

【技术保护点】
一种声音识别装置,包含:第1后验概率算出单元,其按每个状态序列算出给出由从声音信号得到的给定的声音特征量构成的观测序列时的状态序列的后验概率;第2后验概率算出单元,其针对各单词串算出给出状态序列时的单词串的后验概率;和用于以下处理的单元,即,使用针对输入观测序列由所述第1后验概率算出单元以及所述第2后验概率算出单元分别算出的后验概率,基于按与所述声音信号对应的单词串的每个假设算出的评分来进行针对所述声音信号的声音识别。

【技术特征摘要】
【国外来华专利技术】2015.05.22 JP 2015-1043361.一种声音识别装置,包含:第1后验概率算出单元,其按每个状态序列算出给出由从声音信号得到的给定的声音特征量构成的观测序列时的状态序列的后验概率;第2后验概率算出单元,其针对各单词串算出给出状态序列时的单词串的后验概率;和用于以下处理的单元,即,使用针对输入观测序列由所述第1后验概率算出单元以及所述第2后验概率算出单元分别算出的后验概率,基于按与所述声音信号对应的单词串的每个假设算出的评分来进行针对所述声音信号的声音识别。2.根据权利要求1所述的声音识别装置,其中,所述第2后验概率算出单元包含:用于以下处理的单元,即,根据基于语言模型的单词串的发生概率、构成声学模...

【专利技术属性】
技术研发人员:神田直之
申请(专利权)人:国立研究开发法人情报通信研究机构
类型:发明
国别省市:日本,JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1