语音识别装置及语音识别方法制造方法及图纸

技术编号:3048440 阅读:204 留言:0更新日期:2012-04-11 18:40
本发明专利技术的语音识别装置(1)包括:无用信息声音模型保存部(110),预先保存从无用词的集合学习到的声音模型-无用信息声音模型;特征量计算部(101),对每个声音分析的单位-帧的包含非语言声音的未知输入语音进行声音分析,计算识别所需的特征参数;无用信息声音得分计算部(111),对每个帧对照特征参数和无用信息声音模型,计算无用信息声音得分;无用信息声音得分校正部(113),对输入了非语言声音的帧进行校正以提高无用信息声音得分计算部(111)算出的无用信息声音得分;以及识别结果输出部(105),将语言得分、单词声音得分、以及无用信息声音得分校正机构校正过的无用信息声音得分的累计得分最高的单词串作为未知输入语音的识别结果来输出。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及容许意义上无需区别的无用词、进行连续单词语音识别的。
技术介绍
以往,有一种单词语音识别装置,用预先从无用词的集合学习到的声音模型——无用信息声音模型来应对意义上无需区别的无用词(例如请参照(日本)井ノ上直己等2人,“ガ一ベジHMMを用いた自由発話文中の不要語処理手法(使用无用信息HMM的自然语音句中的无用词处理手法)”,電子情報通信学会論文誌A,Vol.J77-A,No.2,pp.215-222,1994年2月)。图1是表示现有的语音识别装置的结构图。如图1所示,语音识别装置由特征量计算部1201、网络词典保存部1202、路径计算部1203、候选路径保存部1204、识别结果输出部1205、语言模型保存部1206、语言得分计算部1207、单词声音模型保存部1208、单词声音得分计算部1209、无用信息声音模型保存部1210及无用信息声音得分计算部1211组成。特征量计算部1201对输入的未知输入语音进行声音分析,计算识别所需的特征参数。网络词典保存部1202保存记述语音识别装置能够受理的单词串的网络词典。路径计算部1203用该网络词典的记述来计算路径的累计得分以便求未知输入语音的最佳单词序列。候选路径保存部1204保存该候选路径的信息。识别结果输出部1205将最终得分最高的单词序列作为识别结果来输出。此外,语言模型保存部1206预先保存预先通过统计性学习了单词出现的概率的语言模型。语言得分计算部1207计算从前一单词链接的单词的出现概率——语言得分。单词声音模型保存部1208预先保存与待识别词汇对应的单词的声音模型——单词声音模型。单词声音得分计算部1209对照特征参数和单词声音模型,计算单词声音得分。此外,无用信息声音模型保存部1210预先保存从“え一と(eeto)”、“う一ん(uun)”等意义上无需区别的无用词的集合学习到的声音模型——无用信息声音模型。无用信息声音得分计算部1211对照特征参数和无用信息声音模型,计算无用词——无用信息模型的发生概率——无用信息声音得分。接着,说明现有的语音识别装置的各部分进行的工作。首先,用户发出的未知输入语音被输入到特征量计算部1201,特征量计算部1201对每个声音分析的时间单元——帧进行声音分析,计算特征参数。这里设帧长为10ms。接着,路径计算部1203参照网络词典保存部1202中保存的记述能够受理的单词连接的网络词典,计算到当前帧为止的候选路径的累计得分,将候选路径信息登记到候选路径保存部1204中。图2是输入语音为“それは、だ、だれ(sorewa,da,dare)”的情况下的候选路径图。具体地说,图2(a)示出了输入语音,显示了单词的切分位置。此外,图2(b)示出了输入帧为t-1时的候选路径。此外,图2(c)示出了输入帧为t时的候选路径。其中,横轴示出了帧。这里,“だれ(dare)”的(口)吃音——无用词“だ”被识别为无用信息模型。此外,无用信息模型与1个单词同样被提供了路径。这里,路径511、512、513、52是单词途中的最佳路径以外的路径,路径521、522是到达单词末端的最佳路径,路径531、532是到达单词末端的最佳路径以外的路径,路径54是单词途中的最佳路径。此外,路径计算部1203从前一帧中的候选路径延伸路径,对各路径计算累计得分。图2(b)示出了当前帧t的前一帧——第t-1帧中的候选路径,该候选路径信息被保存在候选路径保存部1204中。如当前帧t所示,从这些候选路径如图2(c)所示来延伸路径。有前帧的候选路径中的单词进一步延伸的路径,和单词结束、能够连接在该单词上的单词重新开始的路径。这里,能够连接的单词是网络词典所记述了的单词。在图2(b)中,在帧t-1中,有单词途中的最佳路径以外的路径511的单词“绵(wada)”、和到达单词末端的最佳路径521的单词“绵(wada)”,在帧t——图2(c)中,单词途中的最佳路径以外的路径511的单词“绵(wada)”进一步延伸,在到达单词末端的最佳路径521的单词“绵(wada)”上,连接着单词途中的最佳路径54的单词“种(dane)”、和单词途中的最佳路径以外的路径512的单词“菓子(gashi)”。接着,对延伸了的候选路径分别计算语言得分和声音得分。语言得分由语言得分计算部1207用语言模型保存部1206中保存的语言模型来求得。作为语言得分,采用从前一单词链接的单词的概率——二元语法(バイグラム)概率的对数值。这里,在到达单词末端的最佳路径522“それ(sore)”之后连接“绵(wada)”的路径中,采用在“それ(sore)”之后出现“绵(wada)”的概率。提供它的定时可以是每个单词1次。对当前帧的输入特征参数矢量,如果当前候选路径是单词,则声音得分由单词声音得分计算部1209用单词声音模型保存部1208中保存的单词声音模型来计算;如果当前候选路径是无用词——无用信息模型,则声音得分由无用信息声音得分计算部1211用无用信息声音模型保存部1210中保存的无用信息声音模型来计算。例如,在图2(b)中,求帧t-1中的声音得分的路径有4个路径,采用单词声音模型的路径是路径522“それ(sore)”上连接的路径511“绵(wada)”、路径522“それ(sore)”上连接的连接521“绵(wada)”及路径531“は(wa)”上连接的路径513“だれ(dare)”,采用无用信息声音模型的路径是路径531“は(wa)”上连接的路径532“无用信息模型”。作为声音模型,一般采用将声音特征以概率方式模型化了的隐马尔可夫模型(HMM)等。将表示单词的声音特征的HMM称为单词声音模型,将用1个模型来归纳表示“え一と(eeto)”、“う一ん(uun)”等意义上无需区别的无用词的声音特征的HMM称为无用信息声音模型。单词声音得分及无用信息声音得分是从HMM得到的概率的对数值,表示单词及无用信息模型的发生概率。将这样得到的语言得分和声音得分相加作为对照得分,用Viterbi(维特比)算法来求各路径的累计得分(例如请参照(日本)中川聖一著,“確率モデルによる音声認識(基于概率模型的语音识别)”,电子情报通信学会编,pp.44-46,1998年初版发行)。但是,单纯地记录所有延伸了的候选路径,会导致计算量和存储容量的急剧增加,所以不理想。因此,采用对每个帧按累计得分从高到低的顺序只保留K个(K是自然数)的定向搜索。将该当前帧中的K个候选路径的信息登记到候选路径保存部1204中。逐次前进1帧来对输入帧重复进行以上处理。最后,所有帧的处理结束后,识别结果输出部1205在最后一帧中将候选路径保存部1204中保存的候选路径中累计得分最高的候选路径的单词串作为识别结果来输出。然而,在上述现有例中有下述问题如果在待识别词汇中存在与(口)吃音等非语言声音在声音上类似的单词序列,则会错误识别。这里,所谓(口)吃音,是说口语时第一音或途中的音堵塞、多次重复同一音、拉长音、不能流畅地说出的发音。此外,在图2(c)中,各个单词的上部在括号内标记的数值是每个单词的对照得分。在图2(c)中,未知输入语音的吃音部分“だ(da)”的区间通过无用信息模型,在其后连接“だれ(dare)”的路径52在时刻t为最佳路径是正本文档来自技高网...

【技术保护点】
一种语音识别装置,对每个路径计算语言得分、单词声音得分、以及无用信息声音得分的累计得分,并将累计得分最高的单词串作为包含非语言声音的未知输入语音的识别结果来输出,其特征在于,包括:无用信息声音模型保存机构,预先保存从无用词的集合学习 到的声音模型的无用信息声音模型;特征量计算机构,针对每个声音分析的单位的帧对上述未知输入语音进行声音分析,计算识别所需的特征参数;无用信息声音得分计算机构,针对每个上述帧对照上述特征参数和上述无用信息声音模型,计算上述无用信 息声音得分;无用信息声音得分校正机构,对输入了上述非语言声音的帧进行校正以提高上述无用信息声音得分计算机构算出的无用信息声音得分;以及识别结果输出机构,将上述语言得分、上述单词声音得分、以及上述无用信息声音得分校正机构校正过 的无用信息声音得分的累计得分最高的单词串作为上述未知输入语音的识别结果来输出。

【技术特征摘要】
【国外来华专利技术】JP 2003-2-19 041129/2003;JP 2003-7-29 281625/20031.一种语音识别装置,对每个路径计算语言得分、单词声音得分、以及无用信息声音得分的累计得分,并将累计得分最高的单词串作为包含非语言声音的未知输入语音的识别结果来输出,其特征在于,包括无用信息声音模型保存机构,预先保存从无用词的集合学习到的声音模型的无用信息声音模型;特征量计算机构,针对每个声音分析的单位的帧对上述未知输入语音进行声音分析,计算识别所需的特征参数;无用信息声音得分计算机构,针对每个上述帧对照上述特征参数和上述无用信息声音模型,计算上述无用信息声音得分;无用信息声音得分校正机构,对输入了上述非语言声音的帧进行校正以提高上述无用信息声音得分计算机构算出的无用信息声音得分;以及识别结果输出机构,将上述语言得分、上述单词声音得分、以及上述无用信息声音得分校正机构校正过的无用信息声音得分的累计得分最高的单词串作为上述未知输入语音的识别结果来输出。2.如权利要求1所述的语音识别装置,其特征在于,上述语音识别装置还包括非语言声音推断机构,对每个上述帧用非语言声音估算函数来计算表示上述非语言声音的像非语言的程度的估算值;上述无用信息声音得分校正机构用上述非语言声音推断机构算出的输入了非语言声音的帧中的估算值,来进行校正以提高无用信息声音得分。3.如权利要求2所述的语音识别装置,其特征在于,上述非语言声音推断机构根据上述特征量计算机构算出的每个帧的特征参数,在上述未知输入语音的频谱为重复图案的部分中计算出值大的估算值。4.如权利要求2所述的语音识别装置,其特征在于,上述语音识别装置还包括非语言推断用特征量计算机构,对每个上述帧计算推断上述非语言声音所需的非语言推断用特征参数;和非语言声音模型保存机构,预先保存将非语言的特征模型化了的声音模型的非语言声音模型;上述非语言声音推断机构通过对每个上述帧对照上述非语言推断用特征参数和上述非语言声音模型来计算非语言对照得分作为上述估算值。5.如权利要求4所述的语音识别装置,其特征在于,上述语音识别装置还包括高频功率持续帧数计算机构,根据上述非语言推断用特征量计算机构计算出的上述非语言推断用特征参数,来计算高频功率持续帧数;上述非语言声音推断机构计算对照了上述非语言推断用特征参数和上述非语言声音模型的非语言对照得分,根据上述非语言对照得分和上述高频功率持续帧数来计算表示像非语言的程度的估算值。6.如权利要求5所述的语音识别装置,其特征在于,上述高频功率持续帧数计算机构在上述非语言推断用特征量计算机构得到的高频功率高于预定的阈值的情况下看作是高频功率高的帧。7.如权利要求2所述的语音识别装置,其特征在于,上述语音识别装置还包括非语言对应字符插入机构,根据上述非语言声音推断机构推断出的估算值,选择与上述非语言声音对应的表意字符及情感图标中的至少一方,将选择出的表意字符及情感图标中的至少一方插入到上述识别结果输出机构的识别结果中。8.如权利要求2所述的语音识别装置,其特征在于,上述语音识别装置还包括智能体控制机构,根据上述非语言声音推断机构推断出的估算值及上述识别结果输出机构的识别结果,来控制所显示的智能体的动作及该智能体所发出的合成音。9.如权利要求1所述的语音识别装置,其特征在于,上述语音识别装置还包括非语言现象推断机构,根据与非语言声音联动的用户信息,来计算与该非语言声音关联的非语言现象的估算值;上述无用信息声音得分校正机构用上述非语言现象推断机构算出的输入了非语言现象的帧中的估算值,来进行校...

【专利技术属性】
技术研发人员:山田麻纪西崎诚中藤良久芳泽伸一
申请(专利权)人:松下电器产业株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1