语音识别中的诊断服务制造技术

技术编号:38896740 阅读:32 留言:0更新日期:2023-09-22 14:18
提供了一种用于标识目标数据集的系统和方法,其被配置成促进包括在自动语音识别系统中的声学模型的准确度的改进。系统获得测试数据集,该测试数据集包括(i)具有自然语音话语的音频数据和(ii)该自然语音话语的转录。系统基于自然语音话语的转录来生成包括具有合成语音话语的音频数据的文本转语音数据集。系统将测试数据集和文本转语音数据集应用于声学模型以分别获得第一声学模型输出和第二声学模型输出。系统标识第一声学模型输出中的第一错误集和第二声学模型输出中的第二错误集。最终,声学模型错误率基于比较第一错误集和第二错误集被生成。错误集被生成。错误集被生成。

【技术实现步骤摘要】
【国外来华专利技术】语音识别中的诊断服务

技术介绍

[0001]语音识别是指实体识别音频数据中的语音话语的能力。由计算机执行的语音识别通常被称为自动语音识别(ASR)或计算机语音识别。自动语音识别系统通常采用一个或多个机器学习模型,作为语音识别过程的一部分,这些模型已经针对特定任务进行了训练。例如,一些自动语音识别系统具有声学模型,该声学模型被训练成理解音频信号与构成语音的音素之间的关系。
[0002]声学模型通常根据一组干净或嘈杂的音频信号以及由人类抄写员转录的相应转录进行训练。一些自动语音识别模型还具有语言模型,该语言模型被配置成确定给定单词序列出现在句子中的概率。声学模型和语言模型被串联使用,使得当声学模型识别音频信号中的一个或多个音素时,通过语言模型将音素组合成预测的单词和短语的形成。在一些实例中,自动语音识别模型进一步使用词典或字典,该词典或字典被配置成存储的单词和发音的数据库。
[0003]语音识别模型的一种应用是语音转文本的生成,其中包括一个或多个可识别的语音话语的音频被识别,并然后被转录成文本转录。相反,文本转语音系统将文本转录作为输入,并然后基于文本转录中本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种被配置成标识目标数据集的计算系统,所述目标数据集被配置成促进包括在自动语音识别系统中的声学模型的准确度的改进,藉此所述自动语音识别系统的整体准确度被改进,所述计算系统包括:一个或多个处理器;以及存储一个或多个计算机可执行指令的一个或多个硬件存储设备,所述一个或多个计算机可执行指令由所述一个或多个处理器执行以配置所述计算系统来:获得测试数据集,所述测试数据集包括(i)具有多个自然语音话语的音频数据和(ii)所述多个自然语音话语的转录;基于所述多个自然语音话语的所述转录来生成包括具有多个合成语音话语的音频数据的文本转语音数据集;将所述测试数据集和所述文本转语音数据集应用于所述自动语音识别系统,来获得与所述测试数据集对应的第一模型输出和与所述文本转语音数据集对应的第二模型输出;标识所述第一模型输出中的第一错误集和所述第二模型输出中的第二错误集;以及基于比较所述第一错误集和所述第二错误集来生成声学模型错误率;以及使用所述声学模型错误率来标识要被应用于所述自动语音识别系统的一个或多个附加数据集的特征集,以便在将一个或多个经标识的附加数据集的至少一者应用于所述自动语音识别系统时促进所述声学模型错误率的改进。2.如权利要求1所述的计算系统,其特征在于,所述一个或多个计算机可执行指令可进一步由所述一个或多个处理器执行以进一步配置所述计算系统来:基于一组属性和对应声学模型错误率来在被配置成应用于所述自动语音识别系统的所述一个或多个经标识的附加数据集之间进行区分,以从所述一个或多个经标识的附加数据集中标识并选择目标数据集来作为训练数据应用于所述自动语音识别系统,以促进所述自动语音识别系统的所述声学模型错误率的改进。3.如权利要求2所述的计算系统,其特征在于,所述一个或多个计算机可执行指令可进一步由所述一个或多个处理器执行以进一步配置所述计算系统来:用所述目标数据集训练所述自动语音识别系统来修改所述自动语音识别系统以生成与第一模型输出相比与更少错误相关联的经完善的输出;以及基于分析所述经完善的输出来确定所述声学模型具有经改进的声学模型错误率。4.如权利要求2所述的计算系统,其特征在于,所述一个或多个计算机可执行指令可进一步由所述一个或多个处理器执行以进一步配置所述计算系统来:标识与所述测试数据集相关联的一个或多个特征,其中基于所述目标数据集与所述一个或多个特征相对应来从所述一个或多个附加数据集选择所述目标数据集。5.如权利要求4所述的计算系统,其特征在于,所述一个或多个特征是从以下各项标识的:特定说话场景或特定背景噪声集。6.如权利要求4所述的计算系统,其特征在于,所述一个或多个特征与特定企业域相关联。7.一种被配置成标识目标数据集的计算系统,所述目标数据集被用于促进包括在自动语音识别系统中的语言模型和词典的准确度的改进,所述计算系统包括:一个或多个处理器;以及
存储一个或多个计算机可执行指令的一个或多个硬件存储设备,所述一个或多个计算机可执行指令可由所述一个或多个处理器执行以配置所述计算系统来:将测试数据集作为输入应用,所述测试数据集包括(i)文本转录和(ii)具有使用文本转语音系统基于所述文本转录生成的多个合成语音话语的音频数据;基于所述测试数据集来获得与所述词典相对应的第一输出;标识所述第一输出中的第一错误集,并根据与所述词典相关联的不同类型的错误来在包括在所述第一错误集中的一个或多个错误之间进行区分;基于所述测试数据集来获得与所述语言模型相对应的第二输出;标识所述第二输出中的第二错误集,并根据与所述语言模型相关联的不同类型的错误来在所述第二错误集中的一个或多个错误之间进行区分;生成所述语言模型的语言模型错误率和所述词典的词典错误率;以及基于所述第一错误集和所述第二错误集来在被配置成应用于所述语言模型和所述词典的一个或多个附加数据集之间进行标识和区分,以促进所述自动语音识别系统的改进。8.如权利要求7所述的计算系统,其特征在于,所述一个或多个计算机可执行指令可进一步由所述一个或多个处理器执行以进一步配置所述计算系统...

【专利技术属性】
技术研发人员:李昊轩蒋瑞刘阳林恒慷孙雷赵澈
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1