声音识别装置及声音识别方法制造方法及图纸

技术编号:13377876 阅读:50 留言:0更新日期:2016-07-21 04:12
声音获取部(1)获取用户自由说话的原声音。声音数据加工部(7)对原声音信号进行加工以生成加工声音信号。音响模型切换部(4)基于声音识别部(5)利用各语言的音响模型(3‑1~3‑x)对加工声音信号的音响特征的时间序列数据进行识别处理而计算出的每一语言的识别分数,从多个音响模型(3‑1~3‑x)中决定1个音响模型。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及识别用户说话的声音的声音识别装置及声音识别方法
技术介绍
近年的声音识别装置可识别多种语言。这种声音识别装置中,为了提高识别率,需要使用与用户所使用的语言相适合的音响模型来进行识别处理。例如,即使是相同的英语,母语为德语的用户和母语为法语的用户的发音不同,因此,需要使用适合各自的音响模型。以往,作为多种语言的切换方法,例如有专利文献1所记载的电子词典装置的使用语言切换方法。该电子词典装置构成为包括对每一语言登记单词的登记单元、判定用户说话的声音和登记在登记单元中的单词是否一致的判定单元、以及切换到与一致的单词对应的语言的词典的切换单元。用户需要预先将与各语言对应的单词登记在登记单元中,在切换到要使用的语言的词典时,进行与该语言对应的单词的发音。现有技术文献专利文献专利文献1:日本专利特开2001-282788号公报
技术实现思路
专利技术所要解决的技术问题在上述声音识别装置中,为了切换到与用户使用的语言相适合的音响模型而利用例如专利文献1那样的方法时,存在如下问题:要求用户进行单词的登记及说话,对用户而言,这种的操作较为麻烦。本专利技术是为了解决上述问题而完成的,其目的在于提供一种不要求用户进行单词的登记及说话之类的特别操作、而自动切换到适当的音响模型的声音识别装置及声音识别方法。解决技术问题的技术方案本专利技术的声音识别装置包括:声音获取部,该声音获取部获取声音并作为原声音信号输出;声音数据加工部,该声音数据加工部对原声音信号进行加工以生成加工声音信号;音响分析部,该音响分析部对原声音信号及加工声音信号进行分析以生成音响特征的时间序列数据;与作为识别对象的多种语言相对应的多个音响模型;声音识别部,该声音识别部利用各语言的音响模型,将原声音信号的音响特征的时间序列数据转换成各语言的声音标签串,生成各语言的判定用词典,并利用各语言的音响模型和判定用词典,对加工声音信号的音响特征的时间序列数据进行识别处理并对每一语言计算识别分数;以及音响模型切换部,该音响模型切换部基于声音识别部计算出的每一语言的识别分数,从多个音响模型中决定一个音响模型。本专利技术的声音识别方法包括:声音数据加工步骤,该声音数据加工步骤中,对数字信号化后的声音即原声音信号进行加工以生成加工声音信号;音响分析步骤,该音响分析步骤中,对原声音信号及加工声音信号进行分析以生成音响特征的时间序列数据;判定词典生成步骤,该判定词典生成步骤中,利用与作为识别对象的多种语言相对应的多个音响模型,将原声音信号的音响特征的时间序列数据转换成各语言的声音标签串,生成各语言的判定用词典;识别分数计算步骤,该识别分数计算步骤中,利用各语言的音响模型和判定用词典,对加工声音信号的音响特征的时间序列数据进行识别处理并对每一语言计算识别分数;以及音响模型决定步骤,该音响模型决定步骤中,基于每一语言的识别分数,从多个所述音响模型中决定一个音响模型。专利技术效果根据本专利技术,使用用户自由说话的声音来决定音响模型,因此,用户无需为了切换音响模型而进行单词的登记及说话等特别操作。因此,能够消除操作的复杂性。此外,通过对原声音信号施加重叠环境噪音等加工,可考虑环境噪音等来决定音响模型,可防止切换到不合适的音响模型。附图说明图1是表示本专利技术实施方式1的声音识别装置的基本概念的框图。图2是表示实施方式1的声音识别装置中决定适合用户的音响模型的处理的流程图。图3是表示图2的步骤ST4的处理细节的流程图。图4是表示图2的步骤ST5的处理细节的流程图。图5是表示图2的步骤ST5的处理中求出的识别分数的一个示例的表。图6是表示本专利技术实施方式2的声音识别装置的结构例的框图。具体实施方式以下,为了更详细地对本专利技术进行说明,根据附图对用于实施本专利技术的方式进行说明。实施方式1图1是表示本专利技术实施方式1的声音识别装置的基本概念的框图。该声音识别装置包括声音获取部1、音响分析部2、按每一语言而准备的音响模型3-1~3-x(x为任意数)、音响模型切换部4、声音识别部5、声音数据存储部6、声音数据加工部7、词典生成部8、按每一语言而生成的判定用词典9-1~9-x。声音获取部1利用例如PCM(PulseCodeModulation:脉冲编码调制)将从未图示的麦克风输入的用户说话的声音(以下记为原声音)进行A/D(Analog/Digital:模拟/数字)转换,进行数字信号化。另外,在以下的说明中,将对原声音进行数字信号化后的声音信号记为原声音信号。声音数据存储部6存储由声音获取部1输出的原声音信号。声音数据加工部7从声音数据存储部6获取原声音信号,对该原声音信号进行加工,新生成1个模式以上的声音信号。另外,在以下的说明中,将经加工后的声音信号记为加工声音信号。作为加工方法,例如可举出在使用声音识别装置的环境下而假设的环境噪音的重叠、音量的变更、速度的变更等或它们的组合,只要是不会消除用户说话的特征的加工方法即可。另一方面,避免人声混入的声音的重叠及频率的变更。音响分析部2对由声音获取部1进行数字信号化后的原声音信号及由声音数据加工部7生成的加工声音信号进行分析,转换成音响特征的时间序列数据。该音响分析部2例如以一定时间间隔对声音信号进行分析,并输出表示声音的特征的音响特征的时间序列数据(音响特征量矢量)。音响模型3-1~3-x为与第1~第x语言各自的声音标签(例如音素标签)对应的标准的音响特征,该音响特征例如由HMM(HiddenMarkovModel:隐马尔可夫模型)等进行模型化。例如,将以英语为母语的用户说话的英语设为第1语言,为该第1语言准备音响模型3-1及后述的判定用词典9-1。另一方面,将以德语为母语的用户说话的英语设为第2语言,为该第2语言准备音响模型3-2及后述的判定用词典9-2。声音识别部5在决定适合用户的音响模型时,将由音响分析部2输出的音响特征的时间序列数据作为输入,与音响模型3-1~3-x分别进行对照,求解并输出所对应的声音标签串(例如音素标签串)。在决定适合用户的音响模型时,声音识别部5将由音响分析部2输出的音响特征的时间序列数据作为输入,利用音响模型3-1~3-x和判定用词典9-1~9-x来执行对音响特征的时间序列的声音识别处理,输出识别分数来作为识别结果本文档来自技高网...

【技术保护点】
一种声音识别装置,其特征在于,包括:声音获取部,该声音获取部获取声音并作为原声音信号输出;声音数据加工部,该声音数据加工部对所述原声音信号进行加工以生成加工声音信号;音响分析部,该音响分析部对所述原声音信号及所述加工声音信号进行分析以生成音响特征的时间序列数据;与作为识别对象的多种语言相对应的多个音响模型;声音识别部,该声音识别部利用各语言的所述音响模型,将所述原声音信号的音响特征的时间序列数据转换成各语言的声音标签串,生成各语言的判定用词典,并利用各语言的所述音响模型和所述判定用词典,对所述加工声音信号的音响特征的时间序列数据进行识别处理并对每一语言计算识别分数;以及音响模型切换部,该音响模型切换部基于所述声音识别部计算出的每一所述语言的识别分数,从多个所述音响模型中决定一个音响模型。

【技术特征摘要】
【国外来华专利技术】1.一种声音识别装置,其特征在于,包括:
声音获取部,该声音获取部获取声音并作为原声音信号输出;
声音数据加工部,该声音数据加工部对所述原声音信号进行加工以生
成加工声音信号;
音响分析部,该音响分析部对所述原声音信号及所述加工声音信号进
行分析以生成音响特征的时间序列数据;
与作为识别对象的多种语言相对应的多个音响模型;
声音识别部,该声音识别部利用各语言的所述音响模型,将所述原声
音信号的音响特征的时间序列数据转换成各语言的声音标签串,生成各语
言的判定用词典,并利用各语言的所述音响模型和所述判定用词典,对所
述加工声音信号的音响特征的时间序列数据进行识别处理并对每一语言计
算识别分数;以及
音响模型切换部,该音响模型切换部基于所述声音识别部计算出的每
一所述语言的识别分数,从多个所述音响模型中决定一个音响模型。
2.如权利要求1所述的声音识别装置,其特征在于,
所述声音数据加工部对一个原声音信号生成多个加工声音信号,
所述音响模型切换部对每一语言计算与多个所述加工声音信号对应的
多个识别分数的平均值,决定该平均值最大的语言的音响模型。
3.如权利要求1所述的声音识别装置,其特征在于,
所述声音数据加工部对一个原声音信号生成多个加工声音信号,
所述音响模型切换部对每一语言计算与多个所述加工声音信号对应的
多个识别分数和阈值,决定该阈值以上的识别分数个数最多的语言的音响
模型。
4.如权利要求2所述的声音识别装置,其特征在于,
所述音响模型切换部对每一语言,根据所述声音获取部获取原声音信
号的时期,对所述识别分数进行加权。
5.如权利要求3所述的声音识别装置,其特征在于,
所述音响模型切换部根据所述声音获取部获取原声音...

【专利技术属性】
技术研发人员:濑户祐介
申请(专利权)人:三菱电机株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1