语音识别装置、方法以及程序制造方法及图纸

技术编号:35979610 阅读:56 留言:0更新日期:2022-12-17 22:49
本发明专利技术的实施方式涉及语音识别装置、方法以及程序。提供能够提高语音识别性能的语音识别装置、方法以及程序。一个实施方式所涉及的语音识别装置具备数据扩展部、声音得分计算部、调整部、声音得分合并部、网格生成部以及搜索部。数据扩展部基于输入语音数据生成多个扩展语音数据。声音得分计算部基于多个扩展语音数据的各个扩展语音数据和声音模型生成多个声音得分。调整部通过对多个声音得分分别进行重采样来生成多个已调整声音得分。声音得分合并部通过将多个已调整声音得分进行合并来生成已合并声音得分。网格生成部基于已合并声音得分、发音词典以及语言模型生成已合并网格。搜索部从已合并网格中搜索似然度最高的语音识别结果。识别结果。识别结果。

【技术实现步骤摘要】
语音识别装置、方法以及程序
[0001]本申请以日本专利申请2021

091236(申请日:2021年5月31日)为基础,基于该申请享有优先权益。本申请通过参照该申请来包括该申请的内容的全部。


[0002]本专利技术的实施方式涉及一种语音识别装置、方法以及程序。

技术介绍

[0003]存在使用利用大量的通用语音数据预先学习的声音模型来识别说话语音的技术。作为说话语音的识别性能下降的主要原因,例如考虑以下四个。
[0004](主要原因1)说的话中混入环境噪音的情况。
[0005](主要原因2)语速显著不同于通用语音数据的情况。设为识别对象的说的话显著快或慢的情况。
[0006](主要原因3)说话者的特征显著不同于通用语音数据的情况。例如,通用语音数据由大人的话音构成,而识别对象是小孩说的话的情况。
[0007](主要原因4)输入的语音的振幅显著不同于通用语音数据的情况。例如,将收集说话语音的麦克风的增益设定得显著小的情况。
[0008]只要以上4个主要原因中的任何一个发生,就会导本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音识别装置,具备:数据扩展部,基于输入语音数据生成多个扩展语音数据;声音得分计算部,基于所述多个扩展语音数据的各个扩展语音数据和声音模型生成多个声音得分;调整部,通过对所述多个声音得分分别进行重采样来生成多个已调整声音得分;声音得分合并部,通过将所述多个已调整声音得分进行合并来生成已合并声音得分;网格生成部,基于所述已合并声音得分、发音词典以及语言模型生成已合并网格;以及搜索部,从所述已合并网格中搜索似然度最高的语音识别结果。2.根据权利要求1所述的语音识别装置,其中,所述调整部通过以使与所述多个声音得分分别相对应的时间帧数与所述输入语音数据的时间帧数一致的方式对所述多个声音得分分别进行重采样来生成所述多个已调整声音得分。3.根据权利要求1或2所述的语音识别装置,其中,所述声音得分合并部通过计算所述多个已调整声音得分的平均值、中央值以及最大值中的至少一个来生成所述已合并声音得分。4.根据权利要求1至3中的任一项所述的语音识别装置,其中,所述已合并网格是将基于语音识别的候选单词设为节点并将所述候选单词的似然度设为边的单词网格。5.一种语音识别装置,具备:数据扩展部,基于输入语音数据生成多个扩展语音数据;声音得分计算部,基于所述多个扩展语音数据的各个扩展语音数据和声音模型生成多个声音得分;网格生成部,基于所述多个声音得分的各个声音得分、发音词典以及语言模型生成多个网格;网格合并部,通过将所述多个网格进行合并来生成已合并网格;以及搜索部,从所述已合并网格中搜索似然度最高的语音识别结果。6.根据权利要求5所述的语音识别装置,其中,所述多个网格分别是将基于语音识别的候选单词设为节点并将所述候选单词的似然度设为边的单词网格。7.根据权利要求6所述的语音识别装置,其中,所述网格合并部将所述多个网格各自的起点彼此与终点彼此进行连接,将所述候选单词的共同部分进行合并,由此生成所述已合并网格。8.根据权利要求1至6中的任一项所述的语音识别装置,其中,所述数据扩展部通过对所述输入语音数据执行语速变换、音量变换以及音质变换中的至少一个变换处理来生成所述多个扩展语音数据中的至少一个。9.根据权利要求8所述的语音识别装置,其中,还具备参数自动决定部,该参数自动决定部基于所述输入语音数据来自动决定与所述变换处理有关的变换参数。...

【专利技术属性】
技术研发人员:早川大智笼岛岳彦
申请(专利权)人:株式会社东芝
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1