声学模型构建方法及系统、语音识别方法、设备和介质技术方案

技术编号:33351990 阅读:84 留言:0更新日期:2022-05-08 09:59
一种声学模型构建方法及系统、语音识别方法、设备和存储介质,构建方法包括:获取无标签训练数据和带标签训练数据;构建声学模型,声学模型用于获得音素对应的条件概率;声学模型包括音频表征模型,音频表征模型用于基于输入的语音获得表征矢量;利用训练语音集,基于帧与帧之间的相关性,对音频表征模型进行预训练;在对音频表征模型进行预训练之后,利用带标签训练数据,基于标注文本、标注文本中词之间的相关性、以及词与语音数据对应的表征矢量之间的相关性,对声学模型进行训练。本发明专利技术实施例提高对声学模型的训练效果。施例提高对声学模型的训练效果。施例提高对声学模型的训练效果。

【技术实现步骤摘要】
声学模型构建方法及系统、语音识别方法、设备和介质


[0001]本专利技术实施例涉及语音处理领域,尤其涉及一种声学模型构建方法及系统、语音识别方法、设备和存储介质。

技术介绍

[0002]声学模型(Acoustic Model,AM)是语音识别/评测系统中最为重要的部分之一,其性能极大的影响了评测系统的准确性。目前的主流系统多采用隐马尔科夫模型进行建模。对于语音识别/评测系统,声学模型的输出值通常就是从各个帧计算而得的声学特征。
[0003]但是,目前构建的声学模型的性能仍有待提高。

技术实现思路

[0004]本专利技术实施例解决的问题是提供一种声学模型构建方法和系统、语音识别方法、设备和存储介质,提升了声学模型的语音识别性能,并且降低了对语言模型的依赖性。
[0005]为解决上述问题,本专利技术实施例提供一种声学模型构建方法,包括:获取无标签训练数据和带标签训练数据,所述带标签训练数据包括语音数据和对应的标注文本,所述无标签训练数据和所述语音数据构成训练语音集;构建声学模型,所述声学模型用于获得音素对应的条件概率本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种声学模型构建方法,其特征在于,包括:获取无标签训练数据和带标签训练数据,所述带标签训练数据包括语音数据和对应的标注文本,所述无标签训练数据和所述语音数据构成训练语音集;构建声学模型,所述声学模型用于获得音素对应的条件概率;所述声学模型包括音频表征模型,所述音频表征模型用于基于输入的语音获得表征矢量;利用所述训练语音集,基于帧与帧之间的相关性,对所述音频表征模型进行预训练;在对所述音频表征模型进行预训练之后,利用所述带标签训练数据,基于所述标注文本、标注文本中词之间的相关性、以及词与语音数据对应的表征矢量之间的相关性,对所述声学模型进行训练。2.如权利要求1所述的声学模型构建方法,其特征在于,所述声学模型应用于口语评测领域;所述带标签训练数据包括第二语言学习者发音数据;利用第二语言学习者发音数据,对所述声学模型进行训练。3.如权利要求2所述的声学模型构建方法,其特征在于,所述带标签训练语音数据还包括:目标语言母语使用者发音数据、以及第二语言学习者母语发音数据;对所述声学模型进行训练包括:基于目标语言母语使用者发音数据和第二语言学习者母语发音数据,对所述声学模型进行第一子训练;在第一子训练之后,基于第二语言学习者发音数据,对所述声学模型进行第二子训练;或者,基于目标语言母语使用者发音数据、第二语言学习者发音数据、以及第二语言学习者母语发音数据,对所述声学模型进行训练。4.如权利要求1所述的声学模型构建方法,其特征在于,所述声学模型构建方法还包括:在构建声学模型之前,获得音素集,所述音素集包括标准音素和偏误音素;基于所述音素集,构建声学模型,所述声学模型用于获得标准音素对应的条件概率以及偏误音素对应的条件概率。5.如权利要求1所述的声学模型构建方法,其特征在于,利用所述训练语音集,基于帧与帧之间的相关性,对所述音频表征模型进行预训练的步骤包括:对所述训练语音集中的语音进行卷积处理,获得隐层表征;对所述隐层表征进行量化处理,获得当前帧对应的量化表征;基于各帧的隐层表征与预设范围内帧的隐层表征之间的相关性,获得音频上下文表征;基于所述量化表征和所述音频上下文表征,获得损失函数;根据所述损失函数调整所述音频表征模型的参数;其中,所述音频表征模型用于对所述量化表征和所述音频上下文表征进行数据融合,输出各帧对应的表征矢量。6.如权利要求5所述的声学模型构建方法,其特征在于,对所述训练语音集中的语音进行卷积处理包括:将所述训练语音集中的语音输入至卷积神经网络进行卷积处理,获得所述隐层表征。7.如权利要求5所述的声学模型构建方法,其特征在于,获得音频上下文表征包括进行一次或多次依次进行的转换处理;
所述转换处理的步骤包括:计算当前帧的隐层表征和预设范围内帧的隐层表征之间的权重关系,并输出所述权重与当前帧的隐层表征叠加后的加权隐层表征;对所述加权隐层表征进行第一归一化处理,输出第一归一化表征;将第一归一化表征输入至前馈网络进行处理;将所述前馈网络的输出与所述第一归一化表征进行叠加;将所述前馈...

【专利技术属性】
技术研发人员:刘根军
申请(专利权)人:上海流利说信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1