【技术实现步骤摘要】
语音识别模型的训练方法、装置、设备以及存储介质
[0001]本专利技术实施例涉及计算机
,尤其涉及一种语音识别模型的训练方法、装置、设备以及存储介质。
技术介绍
[0002]语音识别是一种将输入的语音数据流转换为对应的文字内容的计算机技术,传统的语音识别系统通常包含声学模型、语言模型和词典。
[0003]声学模型将输入的语音转换成较小的建模单位(如音素),再通过词典组合成不同的词汇,最后通过语言模型输出句子。词典通过人工构造的方式产生,而声学模型和语言模型通常需要大量的数据分别进行模型训练。在传统的深度神经网络
‑
隐马尔科夫模型(DNN
‑
HMM)的混合模型中,声学模型的训练需要先通过另一个模型(通常是高斯混合模型
‑
隐马尔科夫模型,GMM
‑
HMM)将输入的语音进行对齐,得到每一帧对应的输出标签,在进行训练,比如常用的无需词图的最大交叉熵方法。但是,上述方法无法利用训练数据的文本信息进行语言模型的联合训练,需要与另一个独立训练的语言模型一 ...
【技术保护点】
【技术特征摘要】
1.一种语音识别模型的训练方法,其特征在于,包括:将样本语音特征输入至初始模型的编码网络,得到声学编码特征,并根据所述声学编码特征和样本语音特征的特征监督数据,确定编码损失;将所述声学编码特征输入至所述初始模型的解码网络,得到语音识别内容,并根据所述语音识别内容、样本语音特征的内容监督数据、以及所述声学编码特征,确定识别损失;根据所述编码损失和所述识别损失,确定所述初始模型的总损失;根据所述总损失,对所述初始模型进行训练,得到目标语音识别模型。2.根据权利要求1所述的方法,其特征在于,所述根据所述声学编码特征和样本语音特征的特征监督数据,确定编码损失,包括:将所述声学编码特征采用深度神经网络进行处理,得到对齐损失;根据所述声学编码特征和样本语音特征的特征监督数据,确定互信息损失;根据所述对齐损失和所述互信息损失,确定编码损失。3.根据权利要求2所述的方法,其特征在于,所述根据所述语音识别内容、样本语音特征的内容监督数据、以及所述声学编码特征,确定识别损失,包括:基于注意力机制,根据述语音识别内容、样本语音特征的内容监督数据、以及所述声学编码特征,确定识别损失。4.根据权利要求1所述的方法,其特征在于,所述根据所述编码损失和所述识别损失,确定所述初始模型的总损失,包括:对所述编码损失和所述识别损失进行加权处理,得到所述初始模型的总损失。5.根据权利要求1所述的方法,其特征在于,还包括:对语音样本数据进行梅尔倒谱分析处理,得到样本语音特征。6.根据权利要求5所述的方法,其特征在于,还包括:对原始语音数据进行清洗和/或增强处理,得到语音样...
【专利技术属性】
技术研发人员:叶万余,江嘉铭,阮国恒,钟业荣,阮伟聪,彭泽武,陈韵,余恒奇,郭惜,
申请(专利权)人:广东电网有限责任公司清远供电局,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。