声音识别装置及声音识别方法制造方法及图纸

技术编号：13377876 阅读：50 留言：0更新日期：2016-07-21 04:12

声音获取部(1)获取用户自由说话的原声音。声音数据加工部(7)对原声音信号进行加工以生成加工声音信号。音响模型切换部(4)基于声音识别部(5)利用各语言的音响模型(3‑1～3‑x)对加工声音信号的音响特征的时间序列数据进行识别处理而计算出的每一语言的识别分数，从多个音响模型(3‑1～3‑x)中决定1个音响模型。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及识别用户说话的声音的声音识别装置及声音识别方法。
技术介绍
近年的声音识别装置可识别多种语言。这种声音识别装置中，为了提高识别率，需要使用与用户所使用的语言相适合的音响模型来进行识别处理。例如，即使是相同的英语，母语为德语的用户和母语为法语的用户的发音不同，因此，需要使用适合各自的音响模型。以往，作为多种语言的切换方法，例如有专利文献1所记载的电子词典装置的使用语言切换方法。该电子词典装置构成为包括对每一语言登记单词的登记单元、判定用户说话的声音和登记在登记单元中的单词是否一致的判定单元、以及切换到与一致的单词对应的语言的词典的切换单元。用户需要预先将与各语言对应的单词登记在登记单元中，在切换到要使用的语言的词典时，进行与该语言对应的单词的发音。现有技术文献专利文献专利文献1：日本专利特开2001-282788号公报
技术实现思路
专利技术所要解决的技术问题在上述声音识别装置中，为了切换到与用户使用的语言相适合的音响模型而利用例如专利文献1那样的方法时，存在如下问题：要求用户进行单词的登记及说话，对用户而言，这种的操作较为麻烦。本专利技术是为了解决上述问题而完成的，其目的在于提供一种不要求用户进行单词的登记及说话之类的特别操作、而自动切换到适当的音响模型的声音识别装置及声音识别方法。解决技术问题的技术方案本专利技术的声音识别装置包括：声音获...

【技术保护点】
一种声音识别装置，其特征在于，包括：声音获取部，该声音获取部获取声音并作为原声音信号输出；声音数据加工部，该声音数据加工部对所述原声音信号进行加工以生成加工声音信号；音响分析部，该音响分析部对所述原声音信号及所述加工声音信号进行分析以生成音响特征的时间序列数据；与作为识别对象的多种语言相对应的多个音响模型；声音识别部，该声音识别部利用各语言的所述音响模型，将所述原声音信号的音响特征的时间序列数据转换成各语言的声音标签串，生成各语言的判定用词典，并利用各语言的所述音响模型和所述判定用词典，对所述加工声音信号的音响特征的时间序列数据进行识别处理并对每一语言计算识别分数；以及音响模型切换部，该音响模型切换部基于所述声音识别部计算出的每一所述语言的识别分数，从多个所述音响模型中决定一个音响模型。

【技术特征摘要】
【国外来华专利技术】1.一种声音识别装置，其特征在于，包括：
声音获取部，该声音获取部获取声音并作为原声音信号输出；
声音数据加工部，该声音数据加工部对所述原声音信号进行加工以生
成加工声音信号；
音响分析部，该音响分析部对所述原声音信号及所述加工声音信号进
行分析以生成音响特征的时间序列数据；
与作为识别对象的多种语言相对应的多个音响模型；
声音识别部，该声音识别部利用各语言的所述音响模型，将所述原声
音信号的音响特征的时间序列数据转换成各语言的声音标签串，生成各语
言的判定用词典，并利用各语言的所述音响模型和所述判定用词典，对所
述加工声音信号的音响特征的时间序列数据进行识别处理并对每一语言计
算识别分数；以及
音响模型切换部，该音响模型切换部基于所述声音识别部计算出的每
一所述语言的识别分数，从多个所述音响模型中决定一个音响模型。
2.如权利要求1所述的声音识别装置，其特征在于，
所述声音数据加工部对一个原声音信号生成多个加工声音信号，
所述音响模型切换部对每一语言计算与多个所述加工声音信号对应的
多个识别分数的平均值，决定该平均值最大的语言的音响模型。
3.如权利要求1所述的声音识别装置，其特征在于，
所述声音数据加工部对一个原声音信号生成多个加工声音信号，
所述音响模型切换部对每一语言计算与多个所述加工声音信号对应的
多个识别分数和阈值，决定该阈值以上的识别分数个数最多的语言的音响
模型。
4.如权利要求2所述的声音识别装置，其特征在于，
所述音响模型切换部对每一语言，根据所述声音获取部获取原声音信
号的时期，对所述识别分数进行加权。
5.如权利要求3所述的声音识别装置，其特征在于，
所述音响模型切换部根据所述声音获取部获取原声音...

【专利技术属性】
技术研发人员：濑户祐介，
申请(专利权)人：三菱电机株式会社，
类型：发明
国别省市：日本;JP

全部详细技术资料下载我是这个专利的主人