语音识别装置及语音识别方法制造方法及图纸

技术编号：3048440 阅读：204 留言：0更新日期：2012-04-11 18:40

本发明专利技术的语音识别装置（１）包括：无用信息声音模型保存部（１１０），预先保存从无用词的集合学习到的声音模型－无用信息声音模型；特征量计算部（１０１），对每个声音分析的单位－帧的包含非语言声音的未知输入语音进行声音分析，计算识别所需的特征参数；无用信息声音得分计算部（１１１），对每个帧对照特征参数和无用信息声音模型，计算无用信息声音得分；无用信息声音得分校正部（１１３），对输入了非语言声音的帧进行校正以提高无用信息声音得分计算部（１１１）算出的无用信息声音得分；以及识别结果输出部（１０５），将语言得分、单词声音得分、以及无用信息声音得分校正机构校正过的无用信息声音得分的累计得分最高的单词串作为未知输入语音的识别结果来输出。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及容许意义上无需区别的无用词、进行连续单词语音识别的。
技术介绍
以往，有一种单词语音识别装置，用预先从无用词的集合学习到的声音模型——无用信息声音模型来应对意义上无需区别的无用词(例如请参照(日本)井ノ上直己等2人，“ガ一ベジHMMを用いた自由発話文中の不要語処理手法(使用无用信息HMM的自然语音句中的无用词处理手法)”，電子情報通信学会論文誌A，Vol.J77-A，No.2，pp.215-222，1994年2月)。图1是表示现有的语音识别装置的结构图。如图1所示，语音识别装置由特征量计算部1201、网络词典保存部1202、路径计算部1203、候选路径保存部1204、识别结果输出部1205、语言模型保存部1206、语言得分计算部1207、单词声音模型保存部1208、单词声音得分计算部1209、无用信息声音模型保存部1210及无用信息声音得分计算部1211组成。特征量计算部1201对输入的未知输入语音进行声音分析，计算识别所需的特征参数。网络词典保存部1202保存记述语音识别装置能够受理的单词串的网络词典。路径计算部1203用该网络词典的记述来计算路径的累计得分以便求未知输入语音的最佳单词序列。候选路径保存部1204保存该候选路径的信息。识别结果输出部1205将最终得分最高的单词序列作为识别结果来输出。此外，语言模型保存部1206预先保存预先通过统计性学习了单词出现的概率的语言模型。语言得分计算部1207计算从前一单词链接的单词的出现概率——语言得分。单词声音模型保存部1208预先保存与待识别词汇对应的单词的声音模型——单词声音模型。单词声...

【技术保护点】
一种语音识别装置，对每个路径计算语言得分、单词声音得分、以及无用信息声音得分的累计得分，并将累计得分最高的单词串作为包含非语言声音的未知输入语音的识别结果来输出，其特征在于，包括：无用信息声音模型保存机构，预先保存从无用词的集合学习到的声音模型的无用信息声音模型；特征量计算机构，针对每个声音分析的单位的帧对上述未知输入语音进行声音分析，计算识别所需的特征参数；无用信息声音得分计算机构，针对每个上述帧对照上述特征参数和上述无用信息声音模型，计算上述无用信息声音得分；无用信息声音得分校正机构，对输入了上述非语言声音的帧进行校正以提高上述无用信息声音得分计算机构算出的无用信息声音得分；以及识别结果输出机构，将上述语言得分、上述单词声音得分、以及上述无用信息声音得分校正机构校正过的无用信息声音得分的累计得分最高的单词串作为上述未知输入语音的识别结果来输出。

【技术特征摘要】
【国外来华专利技术】JP 2003-2-19 041129/2003;JP 2003-7-29 281625/20031.一种语音识别装置，对每个路径计算语言得分、单词声音得分、以及无用信息声音得分的累计得分，并将累计得分最高的单词串作为包含非语言声音的未知输入语音的识别结果来输出，其特征在于，包括无用信息声音模型保存机构，预先保存从无用词的集合学习到的声音模型的无用信息声音模型；特征量计算机构，针对每个声音分析的单位的帧对上述未知输入语音进行声音分析，计算识别所需的特征参数；无用信息声音得分计算机构，针对每个上述帧对照上述特征参数和上述无用信息声音模型，计算上述无用信息声音得分；无用信息声音得分校正机构，对输入了上述非语言声音的帧进行校正以提高上述无用信息声音得分计算机构算出的无用信息声音得分；以及识别结果输出机构，将上述语言得分、上述单词声音得分、以及上述无用信息声音得分校正机构校正过的无用信息声音得分的累计得分最高的单词串作为上述未知输入语音的识别结果来输出。2.如权利要求1所述的语音识别装置，其特征在于，上述语音识别装置还包括非语言声音推断机构，对每个上述帧用非语言声音估算函数来计算表示上述非语言声音的像非语言的程度的估算值；上述无用信息声音得分校正机构用上述非语言声音推断机构算出的输入了非语言声音的帧中的估算值，来进行校正以提高无用信息声音得分。3.如权利要求2所述的语音识别装置，其特征在于，上述非语言声音推断机构根据上述特征量计算机构算出的每个帧的特征参数，在上述未知输入语音的频谱为重复图案的部分中计算出值大的估算值。4.如权利要求2所述的语音识别装置，其特征在于，上述语音识别装置还包括非语言推断用特征量计算机构，对每个上述帧计算推断上述非语言声音所需的非语言推断用特征参数；和非语言声音模型保存机构，预先保存将非语言的特征模型化了的声音模型的非语言声音模型；上述非语言声音推断机构通过对每个上述帧对照上述非语言推断用特征参数和上述非语言声音模型来计算非语言对照得分作为上述估算值。5.如权利要求4所述的语音识别装置，其特征在于，上述语音识别装置还包括高频功率持续帧数计算机构，根据上述非语言推断用特征量计算机构计算出的上述非语言推断用特征参数，来计算高频功率持续帧数；上述非语言声音推断机构计算对照了上述非语言推断用特征参数和上述非语言声音模型的非语言对照得分，根据上述非语言对照得分和上述高频功率持续帧数来计算表示像非语言的程度的估算值。6.如权利要求5所述的语音识别装置，其特征在于，上述高频功率持续帧数计算机构在上述非语言推断用特征量计算机构得到的高频功率高于预定的阈值的情况下看作是高频功率高的帧。7.如权利要求2所述的语音识别装置，其特征在于，上述语音识别装置还包括非语言对应字符插入机构，根据上述非语言声音推断机构推断出的估算值，选择与上述非语言声音对应的表意字符及情感图标中的至少一方，将选择出的表意字符及情感图标中的至少一方插入到上述识别结果输出机构的识别结果中。8.如权利要求2所述的语音识别装置，其特征在于，上述语音识别装置还包括智能体控制机构，根据上述非语言声音推断机构推断出的估算值及上述识别结果输出机构的识别结果，来控制所显示的智能体的动作及该智能体所发出的合成音。9.如权利要求1所述的语音识别装置，其特征在于，上述语音识别装置还包括非语言现象推断机构，根据与非语言声音联动的用户信息，来计算与该非语言声音关联的非语言现象的估算值；上述无用信息声音得分校正机构用上述非语言现象推断机构算出的输入了非语言现象的帧中的估算值，来进行校...

【专利技术属性】
技术研发人员：山田麻纪，西崎诚，中藤良久，芳泽伸一，
申请(专利权)人：松下电器产业株式会社，
类型：发明
国别省市：JP[日本]

全部详细技术资料下载我是这个专利的主人