生成声学模型的设备和方法和用于语音识别的设备和方法技术

技术编号:14944644 阅读:65 留言:0更新日期:2017-04-01 11:10
描述的是生成声学模型的设备和方法和用于语音识别的设备和方法。所述设备和方法包括:处理器,被配置为通过使用噪音模型计算代表噪音数据的噪音表现,并通过使用包括语音数据和噪音数据的训练带噪语音数据、与语音数据对应的音素串和噪音表现进行训练,生成声学模型。

【技术实现步骤摘要】
本申请要求于2015年9月10日提交到韩国知识产权局的第10-2015-0128456号韩国专利申请的权益,该申请的全部公开出于所有目的通过引用包含于此。
下面的描述涉及语音识别技术,更具体地讲,涉及一种用于生成声学模型的设备和方法,和用于语音识别的设备和方法。
技术介绍
对语音识别技术存在很大的兴趣,因为语音识别使得用户能够以更方便和容易的方式从互联网、电子商务和各种普遍存在的环境中访问信息。例如,在用户的双手忙于驾驶车辆或进行其他活动的情况下,语音识别使得用户能够访问互联网、搜索、拨号、进行电话呼叫或者进行其他活动或工作,因此,满足用户的各种需要。语音识别的一个重点在于有效地移除环境条件产生的噪音。训练环境和真实的语音识别环境之间的由这样的噪音引起的差异是系统的语音识别性能下降的主要因素之一。因此,存在对这样的技术的需要:可生成声学模型以在电子设备(诸如,手机)中将语音识别系统训练为具有鲁棒性并且不受或不显著受噪音影响,并且可被用于存在各种噪音的真实的语音识别环境。
技术实现思路
提供
技术实现思路
从而以简化的形式介绍构思的选择,其将在下面的具体实施方式中将被进一步描述。
技术实现思路
不意在确定所要求保护主题的关键特征或必要特征,也不意在用于辅助确定所要求保护的主题的范围。提供了一种用于生成对噪音具有鲁棒性的声学模型的设备和方法,和一种用于通过使用对噪音具有鲁棒性的声学模型进行语音识别的设备和方法。根据一个实施例,提供一种用于生成声学模型的设备,所述设备包括:处理器,被配置为:通过使用噪音模型计算代表噪音数据的噪音表现,以及通过使用也可包括语音数据和噪音数据的训练带噪语音数据、与语音数据对应的音素串和噪音表现进行训练,生成声学模型。该设备还可包括:被配置为存储指令的存储器,其中,处理器还可被配置为执行指令以配置处理器,来通过使用噪音模型计算代表噪音数据的噪音表现,并通过使用也可包括语音数据和噪音数据的训练带噪语音数据、与语音数据对应的音素串和噪音表现进行训练,生成声学模型。处理器还可包括:噪音表现计算器,被配置为通过使用噪音模型计算代表噪音数据的噪音表现;声学模型生成器,被配置为通过使用也可包括语音数据和噪音数据的训练带噪语音数据、与语音数据对应的音素串和噪音表现进行训练,生成声学模型。噪音表现计算器也可包括:特征提取器,被配置为提取噪音数据的特征;噪音建模器,被配置为通过使用噪音模型基于提取的特征计算代表噪音数据的噪音表现。可使用训练噪音数据通过自动编码器预先生成噪音模型。生成的声学模型可以是基于神经网络的声学模型。处理器可被配置为通过使用多任务学习方法来生成声学模型。处理器通过使用从第一目标函数和第二目标函数的加权和得到的第三目标函数,生成声学模型,其中,第一目标函数可用于估计音素概率,第二目标函数可用于估计噪音表现。声学模型生成器也可包括:组合器,被配置为组合语音数据和噪音数据以生成训练带噪语音数据;特征提取器,被配置为提取生成的训练带噪语音数据的特征;声学模型训练器,被配置为用提取的特征、与语音数据对应的音素串和噪音表现,训练声学模型。根据另一实施例,提供一种生成声学模型的方法,该方法包括:通过使用噪音模型计算噪音数据的噪音表现;通过使用也可包括语音数据和噪音数据的训练带噪语音数据、与语音数据对应的音素串和噪音表现进行训练,生成声学模型。计算噪音表现的步骤也可包括:提取噪音数据的特征;通过使用噪音模型基于提取的噪音数据的特征计算噪音表现。可使用训练噪音数据通过自动编码器预先生成噪音模型。生成的声学模型可以是基于神经网络的声学模型。生成声学模型的步骤也可包括:通过使用多任务学习方法生成声学模型。生成声学模型的步骤也可包括:通过使用从第一目标函数和第二目标函数的加权和得到的第三目标函数,生成声学模型,其中,第一目标函数可用于估计音素概率,第二目标函数可用于估计噪音表现。生成声学模型的步骤也可包括:组合语音数据和噪音数据以生成训练带噪语音数据;提取生成的训练带噪语音模型的特征;用提取的特征、与语音数据对应的音素串和噪音表现,训练声学模型。根据一个实施例,提供一种语音识别设备,包括:存储器,被配置为存储声学模型;计算器,被配置通过使用存储的声学模型计算输入的带噪语音数据的音素概率,其中,可通过使用包括语音数据和噪音数据的组合的训练带噪语音数据、与语音数据对应的音素串和代表噪音数据的噪音表现进行训练,生成声学模型。计算器也可包括:特征提取器,被配置为提取输入的带噪语音数据的特征;音素概率计算器,被配置为使用声学模型计算与提取的特征对应的音素概率。可通过使用噪音模型计算噪音表现。可使用训练噪音数据通过自动编码器预先生成噪音模型。声学模型可以是基于神经网络的声学模型。可通过使用多任务学习方法生成声学模型。可通过使用从第一目标函数和第二目标函数的加权和得到的第三目标函数,生成声学模型,其中,第一目标函数可用于估计音素概率,以及第二目标函数可用于估计噪音表现。可用定义为输入数据的训练带噪语音数据和定义为目标数据的与语音数据对应的音素串和噪音表现,生成声学模型。根据进一步的实施例,提供一种语音识别方法,包括:提取输入的带噪语音数据的特征;通过使用声学模型计算与提取的特征相应的音素概率,其中,可通过使用包括语音数据和噪音数据的组合的训练带噪语音数据、与语音数据对应的音素串以及代表噪音数据的噪音表现进行训练,生成声学模型。可通过使用噪音模型计算噪音表现。可使用训练噪音数据通过自动编码器预先生成噪音模型。声学模型可以是基于神经网络的声学模型。可通过使用多任务学习方法生成声学模型。可通过使用从第一目标函数和第二目标函数的加权和得到的第三目标函数,生成声学模型,其中,第一目标函数可用于估计音素概率,以及第二目标函数可用于估计噪音表现。可用定义为输入数据的训练带噪语音数据和定义为目标数据的与语音数据对应的音素串和噪音表现,生成声学模型。根据另一实施例,提供一种用于生成声学模型的设备,包括:组合器,被配置为组合语音数据和噪音数据以生成训练带噪语音数据;特征提取器,被配置为通过将用于声学模型训练的带噪语音数据与其他噪音数据区别开来,从带噪语音数据提取特征;声学模型训练器,被配置为用来自带噪语音数据、与语音数据对应的音素串和噪音表现的特征,训练声学模型,其中,同时执行音素的分类和噪音表现的提取。该设备还可包括:自动编码器,被配置为接收特征的输入以基于接收的训练语音数据的输入计算输入表现,并基于输入表现重构最相似于输入的输出。自动编码器使用训练噪音数据预先生成噪音模型。生成的声学模型可以是基于神经网络的声学模型。其他特征和方面从下面的具体实施方式、附图和权利要求将是清楚的。附图说明图1是示出根据实施例的用于生成声学模型的设备的框图。图2是解释根据实施例的生成噪音模型的示例的示图。图3是解释根据实施例的生成声学模型的示例的示图。图4是示出根据实施例的语音识别设备的框图。图5是示出根据另一实施例的生成声学模型的方法的流程图。图6是示出在图5中示出的噪音表现的计算的示例的流程图。图7是示出在图5中示出的声学模型的生成的示例的流程图。图8是示出根据实施例的语音识别方法的流程图。图9是示出根据实施例的用于生成噪音模型的设备的框图。图10是示本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/21/201610803609.html" title="生成声学模型的设备和方法和用于语音识别的设备和方法原文来自X技术">生成声学模型的设备和方法和用于语音识别的设备和方法</a>

【技术保护点】
一种用于生成声学模型的设备,所述设备包括:处理器,被配置为:通过使用噪音模型计算代表噪音数据的噪音表现;通过使用包括语音数据和噪音数据的训练带噪语音数据、与语音数据对应的音素串和噪音表现进行训练,生成声学模型。

【技术特征摘要】
2015.09.10 KR 10-2015-01284561.一种用于生成声学模型的设备,所述设备包括:处理器,被配置为:通过使用噪音模型计算代表噪音数据的噪音表现;通过使用包括语音数据和噪音数据的训练带噪语音数据、与语音数据对应的音素串和噪音表现进行训练,生成声学模型。2.如权利要求1所述设备,还包括:存储器,被配置为存储指令,其中,处理器还被配置为执行所述指令以配置处理器,来通过使用噪音模型计算代表噪音数据的噪音表现,并通过使用包括语音数据和噪音数据的训练带噪语音数据、与语音数据对应的音素串和噪音表现进行训练来生成声学模型。3.如权利要求1所述设备,其中,处理器包括:噪音表现计算器,被配置为通过使用噪音模型,计算代表噪音数据的噪音表现;声学模型生成器,被配置为通过使用包括语音数据和噪音数据的训练带噪语音数据、与语音数据对应的音素串和噪音表现进行训练,生成声学模型。4.如权利要求3所述设备,其中,噪音表现计算器包括:特征提取器,被配置为提取噪音数据的特征;噪音建模器,被配置为通过使用噪音模型基于提取的特征,计算代表噪音数据的噪音表现。5.如权利要求1所述设备,其中,使用训练噪音数据通过自动编码器预先生成噪音模型。6.如权利要求3所述设备,其中,生成的声学模型是基于神经网络的声学模型。7.如权利要求1所述设备,其中,处理器被配置为:通过使用多任务学习方法生成声学模型。8.如权利要求1所述设备,其中,处理器通过使用从第一目标函数和第二目标函数的加权和得到的第三目标函数,生成声学模型,其中,第一目标函数用于估计音素概率,第二目标函数用于估计噪音表现。9.如权利要求3所述设备,其中,声学模型生成器包括:组合器,被配置为组合语音数据和噪音数据以生成训练带噪语音数据;特征提取器,被配置为提取生成的训练带噪语音数据的特征;声学模型训练器,被配置为用提取的特征、与语音数据对应的音素串以及噪音表现,训练声学模型。10.一种生成声学模型的方法,所述方法包括:通过使用噪音模型计算噪音数据的噪音表现;使用包括语音数据和噪音数据的训练带噪语音数据、与语音数据对应的音素串和噪音表现,生成声学模型。11.如权利要求10所述方法,其中,计算噪音表现的步骤包括:提取噪音数据的特征;通过使用噪音模型基于提取的噪音数据的特征计算噪音表现。12.如权利要求10所述方法,其中,通过自动编码器使用训练噪音数据预先生成噪音模型。13.如权利要求10所述方法,其中,生成的声学模型是基于神经网络的声学模型。14.如权利要求10所述方法,其中,生成声学模型的步骤包括:通过使用多任务学习方法生成声学模型。15.如权利要求14所述方法,其中,生成声学模型的步骤包括:通过使用从第一目标函数和第二目标函数的加权和得到的第三目标函数,生成声学模型,其中,第一目标函数用于估计音素概率,第二目标函数用于估计噪音表现。16.如权利要求10所述方法,其中,生成声学模型的步骤包括:组合语音数据和噪音数据以生成训练带噪语音数据;提取生成的训练带噪语音模型的特征;用提取...

【专利技术属性】
技术研发人员:李镐式崔喜烈
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:韩国;KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1