使用声学建模的语音识别设备和方法技术

技术编号:15159629 阅读:105 留言:0更新日期:2017-04-12 11:24
提供使用声学建模的语音识别设备和方法。提供了一种语音识别设备。所述设备包括:预处理器,被配置为从用户的第一语音的全部帧提取选择帧;以及分数计算器,被配置为:通过使用基于深度神经网络(DNN)的声学模型来计算由提取的选择帧构成的第二语音的声学分数,并且基于计算的第二语音的声学分数,来计算第一语音中除了选择帧之外的帧的声学分数。

【技术实现步骤摘要】
本申请要求于2015年10月6日提交到韩国知识产权局的第10-2015-0140646号韩国专利申请的权益,该韩国专利申请的全部公开出于各种目的通过引用包含于此。
以下描述总体上涉及使用声学建模的语音识别的技术,更具体地说,涉及使用声学建模的语音识别设备和方法。
技术介绍
语音识别引擎一般是实现声学模型、语言模型和解码器的硬件装置。声学模型可计算输入语音信号的每帧的发音概率,语言模型可提供关于特定的单词、短语或句子的使用频率或特定的单词、短语或句子之间的连接性的信息。解码器可基于考虑由声学模型和语言模型提供的各个信息,来计算并输出输入语音信号与特定的单词或句子的相似度。在此,因为这样的自动语音识别通过计算机或处理器技术来实现,所以相应的问题发生在这样的计算机或处理器技术中。这样的自动语音识别背后的技术由于说话者在他们的话语、短语、方言、语言或个人习语方面使用的自由度的变化而具有挑战性,并且由于底层硬件和硬件能力的技术缺陷而具有挑战性,诸如,在可能无法完全地识别对应的语音的情况下,能够以足够的正确性和速度识别语音的技术问题。高斯混合模型(GMM)方法通常被用于实现声学模型中的这种概率确定,但是最近,深度神经网络(DNN)方法已经被实现为计算声学模型中的概率确定,DNN具有比执行GMM方法的声学建模的语音识别性能明显提高的语音识别性能。此外,双向循环深度神经网络(BRDNN)方法也被用于对随时间的改变的数据(诸如,语音)进行建模。例如,BRDNN方法可通过考虑双向信息(即,关于之前的帧和后续的帧的信息),来提高计算语音信号的每帧的发音概率的准确性。然而,因为提供给DNN的额外帧信息以及由DNN所进行的时间考虑,所以用于计算与各个语音单元对应的发音概率所需的时间可能增加,尤其是随着这样的语音单元的长度增加而增加。因此,在自动语音识别系统中存在技术问题。
技术实现思路
提供该
技术实现思路
用于以简化的形式介绍对在以下的具体实施方式中进一步描述的构思的选择。该
技术实现思路
不意在标识要求保护的主题的关键特征或必要特征,也不意在用于帮助确定要求保护的主题的范围。在一个总体方面,一种语音识别设备包括:预处理器,被配置为从用户的第一语音的全部帧提取选择帧;分数计算器,被配置为:通过使用基于深度神经网络(DNN)的声学模型来计算由提取的选择帧构成的第二语音的声学分数,并且基于计算的第二语音的声学分数,来计算第一语音中除了选择帧之外的帧的声学分数。分数计算器可在不使用声学模型执行除了选择帧之外的帧的声学建模的情况下,计算除了选择帧之外的帧的声学分数。声学模型可以是基于双向循环深度神经网络(BRDNN)的声学模型。预处理器可根据用于从第一语音分别间断地提取选择帧的一个或多个预定间隔来提取选择帧,并且使用提取的选择帧作为连接的语音来生成第二语音,其中,分数计算器可将提取的选择帧作为第二语音中的连接的语音共同地提供给声学模型。所述设备还可包括:包括预处理器和分数计算器的处理器,被配置为:提取选择帧并且生成第二语音;计算第二语音的声学分数;基于计算的第二语音的声学分数,来计算除了选择帧之外的帧的声学分数;基于由声学模型提供的计算的第二语音的帧的声学分数以及计算的除了选择帧之外的帧的声学分数,来识别第一语音。处理器还可被配置为:通过使用由处理器从训练数据的时间上连续的语音帧提取的第一时间上不连续的语音帧的集合训练声学模型,来生成声学模型。处理器还可被配置为:通过使用由处理器从训练数据的时间上连续的语音帧提取的第二时间上不连续的语音帧的集合进一步训练声学模型,来生成声学模型,第一时间上不连续的语音帧的集合具有与第二时间上不连续的语音帧的集合不同的一个或多个语音帧。预处理器可根据预定的均匀间隔从第一语音的全部帧提取选择帧,将第一语音的全部帧划分为两个或更多个组并且从每个组提取一个或多个帧,或者根据基于第一语音的帧的确定的信号强度的间隔,从第一语音的全部帧提取选择帧。预处理器可从第一语音的全部N个帧,根据m×K+i来提取选择帧,其中,i是根据1≤i≤K的任意整数,K是根据2≤K≤N的任意整数,m是使得i≤m×K+i≤N的一个或多个整数,从而提取第一语音的各个第m×K+i帧。在K和i被保持的情况下,可通过随着m在0与K-1之间增大而提取第一语音的各个第m×K+i帧,来生成第二语音。分数计算器可将通过声学模型计算的第二语音的帧的声学分数用作与第二语音的帧对应的第一语音的各个帧的确定的声学分数,并且基于第二语音的帧的一个或多个声学分数和/或第一语音的各个帧的确定的声学分数中的一个或多个,来获得除了选择帧之外的帧中的一个帧的声学分数,其中,所述除了选择帧之外的帧中的一个帧作为相邻帧并且与第一语音的各个帧中的一个或多个帧相邻。分数计算器可基于相邻帧与第一语音中的提取的选择帧中的时间上位于相邻帧的两侧的两个帧之间的确定的时间距离,使用两个帧中的任意一个帧的确定的声学分数,或者使用计算的第二语音的两个对应的帧中的任意一个帧的声学分数,作为相邻帧的声学分数。分数计算器可使用基于第一语音中的提取的选择帧中的时间上位于相邻帧的两侧的两个帧的确定的声学分数的统计值,或者使用基于计算的与第一语音的两个帧对应的第二语音的两个帧的声学分数的统计值,作为相邻帧的声学分数,或者分数计算器可使用通过基于相邻帧与第一语音的两个帧之间的各个确定的时间距离,将权重值施加到第一语音的两个帧的各自的确定的声学分数或者施加到第二语音的两个帧的各自的计算的声学分数而获得的统计值,作为相邻帧的声学分数。可通过使用基于从同一第一训练语音不同地提取的帧集合分别生成的一个或多个第二训练语音,来训练声学模型。预处理器可被配置为:从第一训练语音提取帧集合;通过分别使用提取的帧集合来生成一个或多个第二训练语音;通过使用生成的一个或多个第二训练语音来训练声学模型。在一个总体方面,一种语音识别方法包括:接收将被识别的第一语音的输入;从第一语音的全部帧提取一些帧;通过使用提取的帧来生成第二语音;通过使用基于深度神经网络(DNN)的声学模型来计算第二语音的声学分数;基于计算的第二语音的声学分数来计算第一语音的声学分数。声学模型可以是基于双向循环深度神经网络(BRDNN)的声学模型。提取一些帧的步骤可包括:根据预定的均匀间隔从第一语音的全部帧提取选择帧,将第一语音的全部帧划分为两个或更多个组,并且从每个组提取一个或多个选择帧,或者根据基于第一语音的帧的确定的信号强度间隔来提取选择帧。计算第一语音的声学分数的步骤可包括:将第二语音的两个帧的声学分数用作与第二语音的两个帧对应的第一语音的两个帧的声学分数,并且将第二语音的两个帧的至少一个声学分数用于第一语音中的与第一语音的两个帧相邻的相邻帧的声学分数。计算第一语音的声学分数的步骤可包括:基于相邻帧与第一语音中的时间上位于相邻帧的两侧的两个帧之间的确定的时间距离,使用第一语音的两个帧中的一个帧或第二语音的两个帧中的一个帧的声学分数,作为相邻帧的声学分数。计算第一语音的声学分数的步骤可包括:使用第一语音的两个帧的声学分数或者第二语音的两个帧的声学分数的统计值,或者使用通过基于相邻帧与第一语音的两个帧之间的确定的时间距离,将权重值施加到第一语音的两个帧的声学分数或者施本文档来自技高网
...
使用声学建模的语音识别设备和方法

【技术保护点】
一种语音识别设备,所述语音识别设备包括:预处理器,被配置为从用户的第一语音的全部帧提取选择帧;分数计算器,被配置为:通过使用基于深度神经网络(DNN)的声学模型来计算由提取的选择帧构成的第二语音的声学分数,并且基于计算的第二语音的声学分数,来计算第一语音中除了选择帧之外的帧的声学分数。

【技术特征摘要】
2015.10.06 KR 10-2015-01406461.一种语音识别设备,所述语音识别设备包括:预处理器,被配置为从用户的第一语音的全部帧提取选择帧;分数计算器,被配置为:通过使用基于深度神经网络(DNN)的声学模型来计算由提取的选择帧构成的第二语音的声学分数,并且基于计算的第二语音的声学分数,来计算第一语音中除了选择帧之外的帧的声学分数。2.如权利要求1所述的语音识别设备,其中,分数计算器在不使用声学模型执行除了选择帧之外的帧的声学建模的情况下,计算除了选择帧之外的帧的声学分数。3.如权利要求1所述的语音识别设备,其中,声学模型是基于双向循环深度神经网络(BRDNN)的声学模型。4.如权利要求1所述的语音识别设备,其中,预处理器根据用于从第一语音分别间断地提取选择帧的一个或多个预定间隔来提取选择帧,并且使用提取的选择帧作为连接的语音来生成第二语音,其中,分数计算器将提取的选择帧作为第二语音中的连接的语音共同地提供给声学模型。5.如权利要求4所述的语音识别设备,还包括:包括预处理器和分数计算器的处理器,被配置为:提取选择帧并且生成第二语音;计算第二语音的声学分数;基于计算的第二语音的声学分数,来计算除了选择帧之外的帧的声学分数;基于由声学模型提供的计算的第二语音的帧的声学分数以及计算的除了选择帧之外的帧的声学分数,来识别第一语音。6.如权利要求5所述的语音识别设备,其中,处理器还被配置为:通过使用由处理器从训练数据的时间上连续的语音帧提取的第一时间上不连续的语音帧的集合训练声学模型,来生成声学模型。7.如权利要求6所述的语音识别设备,其中,处理器还被配置为:通过使用由处理器从训练数据的时间上连续的语音帧提取的第二时间上不连续的语音帧的集合进一步训练声学模型,来生成声学模型,第一时间上不连续的语音帧的集合具有与第二时间上不连续的语音帧的集合不同的一个或多个语音帧。8.如权利要求1所述的语音识别设备,其中,预处理器根据预定的均匀间隔从第一语音的全部帧提取选择帧,将第一语音的全部帧划分为两个或更多个组并且从每个组提取一个或多个帧,或者根据基于第一语音的帧信号强度的确定的间隔,从第一语音的全部帧提取选择帧。9.如权利要求8所述的语音识别设备,其中,预处理器从第一语音的全部N个帧,根据m×K+i来提取选择帧,其中,i是根据1≤i≤K的任意整数,K是根据2≤K≤N的任意整数,m是使得i≤m×K+i≤N的一个或多个整数,从而提取第一语音的各个第m×K+i帧。10.如权利要求9所述的语音识别设备,其中,在K和i被保持的情况下,通过随着m在0与K-1之间增大而提取第一语音的各个第m×K+i帧,来生成第二语音。11.如权利要求1所述的语音识别设备,其中,分数计算器将通过声学模型计算的第二语音的帧的声学分数用作与第二语音的帧对应的第一语音的各个帧的确定的声学分数,并且基于第二语音的帧的一个或多个声学分数和/或第一语音的各个帧的确定的声学分数中的一个或多个,来获得除了选择帧之外的帧中的一个帧的声学分数,其中,所述除了选择帧之外的帧中的一个帧作为相邻帧并且与第一语音的各个帧中的一个或多个帧相邻。12.如权利要求11所述的语音识别设备,其中,分数计算器基于相邻帧与第一语音中的提取的选择帧中的时间上位于相邻帧的两侧的两个帧之间的确定的时间距离,使用两个帧中的任意一个帧的确定的声学分数,或者使用第二语音的两个对应的帧中的任意一个帧的计算的声学分数,作为相邻帧的声学分数。13.如权利要求11所述的语音识别设备,其中,分数计算器使用基于第一语音中的提取的选择帧中的时间上位于相邻帧的两侧的两个帧的确定的声学分数的统计值,或者使用基于计算的与第一语音的两个帧对应的第二语音的两个帧的声学分数的统计值,作为相邻帧的声学分数,或者分数计算器使用通过基于相邻帧与第一语音的两个帧之间的各个确定的时间距离,将权重值施加到第一语音的两个帧的各自的确定的声学分数或者施加到第二语音的两个帧的各自的计算的声学分数而获得的统计值,作为相邻帧的声学分数。14.如权利要求1所述的语音识别设备,其中,通过使用基于从同一第一训练语音不同地提取的帧集合分别生成的一个或多个第二训练语音,来训练声学模型。15.如权利要求14所述的语音识别设备,其中,预处理器被配置为:从第一训练语音提取帧集合;通过分别使用提取的帧集合来生成一个或多个第二训练语音;通过使用生成的一个或多个第二训练语音来训练声学模型。16.一种语音识别方法,所述语音识别方法包括:接收将被识别的第一语音的输入;从第一语音的全部帧提取一些帧;通过使用提取的帧来生成第二语音;通过使用基于深度神经网络(DNN)的声学模型来计算第二语音的声学分数;基于计算的第二语音的声学分数来计算第一语音的声学分数。17.如权利要求16所述的语音识别方法,其中,声学模型是基于双向循环深度神经网络(BRDNN)的声学模型。18.如权利要求16所述的语音识别方法,其中,提取一些帧的步骤包括:根据预定的均匀间隔从第一语音的全部帧提取选择帧,将第一语音的全部帧划分为两个或更多个组,并且从每个组提取一个或多个选择帧,或者根据基于第一语音的帧的信号强度确定的间隔来提取选择帧。19.如权利要求16所述的语音识别方法,其中,计算第一语音的声学分数的步骤包括:将第二语音的两个帧的声学分数用作与第二语音的两个帧对应的第一语音的两个帧的声学分数,并且将第二语音的两个帧的至少一个声学分数用于第一语音中的与第一语音的两个帧相邻的相邻帧的声学分数。20.如权利要求19所述的语音识别方法,其中...

【专利技术属性】
技术研发人员:宋仁哲
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:韩国;KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1