语音识别装置和语音识别方法制造方法及图纸

技术编号:5383465 阅读:165 留言:0更新日期:2012-04-11 18:40
距离计算单元(16)获取输入语音的特征量和每个音素模型之间的声音距离。单词搜索单元(17)基于声音距离以及包括单词的音素和韵律标记的语言模型来执行单词搜索,并且输出单词假说以及表示该单词假说的似然度的第一分数。单词搜索单元(17)还输出当假设输入语音的识别结果为该单词假说时,语音中的元音间隔及其音调标记。音调识别单元(21)基于与从单词搜索单元(17)输出的元音间隔相对应的特征量,输出表示从单词搜索单元(17)输出的音调标记的似然度的第二分数。重判单元(22)利用从音调识别单元(21)输出的第二分数来校正从单词搜索单元(17)输出的单词假说的第一分数。这使得能够提高音调语音的语音识别精度。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及语音识别技术,并且更具体地涉及用于使用诸如音调(tone)(语调, voice tone)之类的韵律的语言的语音识别技术。
技术介绍
存在使用韵律的各种语言。例如,汉语使用称为音调的韵律。音调是用来在含义 之间进行区分的音高(sound pitch)模式,并且主要地,元音(vowel)具有诸如升调和降调 之类的特有音调。因此,对于汉语语音识别,识别出音调是很重要的。 在日本专利No. 3162994(参考文献1)中公开的技术被称为使用音调的语音识别 技术。在参考文献1中描述的汉语语音识别技术将音节(syllable)划分为第一半部分和 第二半部分,仅将音节的第二半部分与音调相关联,并且利用经关联的音调来识别语音。由 于语音识别是利用音调来执行的,因此,与未使用音调的技术相比,这种技术可以使语调语 音识别更准确。
技术实现思路
本专利技术解决的问题 然而,参考文献1的技术简单地将音节划分为第一半部分和第二半部分,并且第二半部分可以包括辅音(consonant)。因此,即使对于没有语调的辅音也可以进行音调识别。在此情况中,音调识别结果可能不准确,并且语音识别精度可能降低。 本专利技术的一个示例性目的是提高对于具有诸如音调之类的韵律的语言的语音识别精度。 解决问题的手段 根据本专利技术一个示例性方面的语音识别装置包括单词搜索装置,用于基于音素 模型与输入语音的特征量之间的声音距离以及包括单词的音素和韵律标记的语言模型中 的单词的音素来执行单词搜索,将单词假说和表示所述单词假说的似然度(likelihood) 的第一分数输出为单词搜索结果,并且在假设所述输入语音的识别结果为所述单词假说 时,输出所述输入语音中的韵律间隔以及所述韵律间隔的韵律标记;韵律识别装置,用于基 于所述输入语音的特征量中与从所述单词搜索装置输出的所述韵律间隔相对应的一个特 征量,来输出表示从所述单词搜索装置输出的所述韵律标记的似然度的第二分数;以及重 判装置,用于利用从所述韵律识别装置输出的所述第二分数来校正从所述单词搜索装置输 出的所述单词假说的第一分数。 根据本专利技术另一示例性方面的语音识别方法包括以下步骤基于音素模型与输入 语音的特征量之间的声音距离以及包括单词的音素和韵律标记的语言模型中的单词的音 素来执行单词搜索,将单词假说和表示所述单词假说的似然度的第一分数输出为单词搜索 结果,并且在假设所述输入语音的识别结果为所述单词假说时,输出所述输入语音中的韵 律间隔以及所述韵律间隔的韵律标记;基于所述输入语音的特征量中与所输出的韵律间隔相对应的一个特征量,来输出表示所输出的韵律标记的似然度的第二分数;并且利用所输 出的第二分数来校正所输出的单词假说的第一分数。 本专利技术的效果 根据本专利技术,能够提高对具有诸如音调之类的韵律的语言的语音识别精度。 附图说明 图1是示出根据本专利技术第一示例性实施例的语音识别装置的总体布置示例的框 图; 图2是图示出根据第一示例性实施例的操作示例的流程图; 图3是示出第一示例性实施例的示例的框图; 图4A和图4B是示出单词的示例的示图; 图5是示出词典的内容示例的示图; 图6是用于说明第一示例性实施例的示例的操作的示图; 图7是用于说明音调建模方法的曲线图; 图8是根据本专利技术第二示例性实施例的语音识别装置的框图; 图9是示出第二示例性实施例的示例的总体布置的示例的框图; 图10A和图10B是示出连续单词的示例的示图; 图11是用于说明第二示例性实施例的示例的操作的示图;以及 图12是根据本专利技术第三示例性实施例的语音识别装置的框图。具体实施例方式现在将参考附图详细描述本专利技术的示例性实施例。 将描述根据本专利技术第一示例性实施例的语音识别装置。 图1是示出根据本专利技术第一示例性实施例的语音识别装置的总体布置的示例的 框图。 参考图l,语音识别装置1包括三种模型存储单元,即,对通过建模音素形成的音 素模型进行登记的音素模型(phonetic model)存储单元11、对包括单词的音素和音调标 记的语言模型进行登记的语言模型存储单元12,以及对通过建模音调的声音特征而形成的 音调模型进行登记的音调模型存储单元13。 语音识别装置1还包括输入单元14、声音分析单元15、距离计算单元16、单词搜索 单元17、音调识别单元21、重判(rescore)单元22以及输出单元23,所述音调识别单元21 用作韵律识别部件。 输入单元14具有输入语音的功能。声音分析单元15具有从声学上分析从输入单 元14输入的语音并输出输入语音的特征量的功能。距离计算单元16具有计算作为声音 分析结果的特征量与登记在音素模型存储单元11中的每个音素模型之间的声音距离的功 能。 单词搜索单元17具有如下功能基于由距离计算单元16获得的声音距离以及登6记在语言模型存储单元12中的语言模型来执行单词搜索,并且向重判单元22输出包括多 种单词假说(识别结果候选者)以及表示单词假说的似然度的第一分数的单词搜索结果。 本示例性实施例的单词搜索单元17还具有如下功能在假定多种单词假说中的每种是输 入语音识别结果时,输出输入语音中的元音间隔及其音调标记。 为了实现此功能,单词搜索单元17包括单词假说标识单元18、音素假说标识单元 19以及元音间隔标识单元20。单词假说标识单元18标识通过单词搜索获得的每个单词假 说。音素假说标识单元19标识每个单词假说中的音素。元音间隔标识单元20基于标识出 的音素以及用于单词搜索的音素与输入语音之间的对应关系,针对每个单词假说标识输入 语音中的元音间隔。 音调识别单元21具有如下功能针对每种单词假说,基于与从单词搜索单元17输 出的元音间隔相对应的特征量以及登记在音调模型存储单元13中的音调模型来获取第二 分数,并且将第二分数输出给重判单元22,每个所述第二分数表示单词假说的音调标记的 似然度。 重判单元22具有利用从音调识别单元21输出的每个单词假说的第二分数来校正 从单词搜索单元17输出的相应单词假说的第一分数的功能。输出单元23具有如下功能 基于经校正的第一分数从通过单词搜索获得的多种单词假说中选择性地输出识别结果。 注意,语音识别装置1可以由计算机以例如下面的方式来实现。准备记录有使得 计算机用作语音识别装置1的程序的盘、半导体存储器或者任何其它记录介质,并且计算 机读出程序。计算机基于读出的程 序控制其操作,从而在计算机上实现声音分析单元15、距 离计算单元16、单词搜索单元17、音调识别单元21、重判单元22以及输出单元23。 接下来参考图1和2详细描述本示例性实施例的操作。 当从输入单元14接收到用户发出的语音时(图2中的步骤S100),声音分析单元 15从声学上分析输入语音以获得语音的特征量(步骤SIOI)。此后,距离计算单元16计算 在步骤SIOI中获得的特征量与登记在音素模型存储单元11中的每个音素模型之间的声音 距离(声音距离表示每个音素的声音似然度)(步骤S102)。 在距离计算单元16计算出了特征量与每个音素模型之间的声音距离之后,单词 搜索单元17基于声音距离以及登记在语言模型存储单元12中的语言模型来执行单词搜 索,并且向重判单元22输出包括多种单词假说以本文档来自技高网...

【技术保护点】
一种语音识别装置,包括:单词搜索装置,用于基于音素模型与输入语音的特征量之间的声音距离以及包括单词的音素和韵律标记的语言模型中的单词的音素来执行单词搜索,将单词假说和表示所述单词假说的似然度的第一分数输出为单词搜索结果,并且在假设所述输入语音的识别结果为所述单词假说时,输出所述输入语音中的韵律间隔以及所述韵律间隔的韵律标记;韵律识别装置,用于基于所述输入语音的特征量中与从所述单词搜索装置输出的所述韵律间隔相对应的一个特征量,来输出表示从所述单词搜索装置输出的所述韵律标记的似然度的第二分数;以及重判装置,用于利用从所述韵律识别装置输出的所述第二分数来校正从所述单词搜索装置输出的所述单词假说的第一分数。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:花泽健
申请(专利权)人:日本电气株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利