一种声学模型的训练方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:24097231 阅读:28 留言:0更新日期:2020-05-09 11:00
本发明专利技术实施例公开了一种声学模型的训练方法、装置、计算机设备和存储介质,该声学模型包括编码器、注意力模型、解码器与CTC模型,编码器包括第一卷积神经网络与循环神经网络,该方法包括:确定本次训练的样本语音信号,样本语音信号用于表示样本文字;计算第一卷积神经网络对样本语音信号进行编码的第一损失值;计算声学模型预测样本语音信号为样本文字的第二损失值;结合第一损失值与第二损失值计算总损失值;判断总损失值是否满足预设的条件;若是,则确定完成训练声学模型;若否,则在训练声学模型时,执行第一训练操作、第二训练操作。本实施例实现了半监督训练,可以避免损失值可能存在梯度消失,保证一定深度的神经网络可训练。

An acoustic model training method, device, computer equipment and storage medium

【技术实现步骤摘要】
一种声学模型的训练方法、装置、计算机设备和存储介质
本专利技术实施例涉及声学技术,尤其涉及一种声学模型的训练方法、装置、计算机设备和存储介质。
技术介绍
在直播等业务中,常常需要对海量的音视频内容进行监管,包括图像和声音,其中,声音为用户(如主播)说出的语音。对于语音内容的监管,常用的一个方法就是对于语音进行识别,转换成文字,然后对文字进行甄别。对于语音识别的过程中,目前多使用端到端的神经网络实现声学模型,对切分过的一小段一小段的语音进行建模,对语音进行编码,对编码后的语音进行结算,得到文字的概率矩阵,通过一定的搜索算法在文字的概率矩阵得到文字串。在神经网络的训练过程中,使用标注的文字与文字的概率矩阵对比,得到损失值,从而使用该损失值反向传播一层一层训练整个神经网络。但是,声学模型应用的神经网络的层数较多,反向传播的路径远,反向传播从浅层开始传播,从浅层到深层,神经网络训练所依赖的损失值可能存在梯度消失,导致一定的深度的神经网络不可训练。此时,可能需要手动对声学模型中的模型参数进行优化,使得声学模型的精确本文档来自技高网...

【技术保护点】
1.一种声学模型的训练方法,其特征在于,所述声学模型包括编码器、注意力模型、解码器与CTC模型,所述编码器包括第一卷积神经网络与循环神经网络,所述方法包括:/n确定本次训练的样本语音信号,所述样本语音信号用于表示样本文字;/n计算所述第一卷积神经网络对所述样本语音信号进行编码的第一损失值;/n计算所述声学模型预测所述样本语音信号为所述样本文字的第二损失值;/n结合所述第一损失值与所述第二损失值计算总损失值;/n判断所述总损失值是否满足预设的条件;/n若是,则确定完成训练所述声学模型;/n若否,则在训练所述声学模型时,执行第一训练操作、第二训练操作,返回执行所述确定本次训练的样本语音信号,其中,...

【技术特征摘要】
1.一种声学模型的训练方法,其特征在于,所述声学模型包括编码器、注意力模型、解码器与CTC模型,所述编码器包括第一卷积神经网络与循环神经网络,所述方法包括:
确定本次训练的样本语音信号,所述样本语音信号用于表示样本文字;
计算所述第一卷积神经网络对所述样本语音信号进行编码的第一损失值;
计算所述声学模型预测所述样本语音信号为所述样本文字的第二损失值;
结合所述第一损失值与所述第二损失值计算总损失值;
判断所述总损失值是否满足预设的条件;
若是,则确定完成训练所述声学模型;
若否,则在训练所述声学模型时,执行第一训练操作、第二训练操作,返回执行所述确定本次训练的样本语音信号,其中,所述第一训练操作用于对所述第一卷积神经网络进行训练,所述第二训练操作用于对所述循环神经网络、所述注意力模型、所述解码器与所述CTC模型进行训练。


2.根据权利要求1所述的方法,其特征在于,所述计算所述第一卷积神经网络对所述样本语音信号进行编码的第一损失值,包括:
确定所述第一卷积神经网络对所述样本语音信号进行编码获得的编码信号;
在预设的第二卷积神经网络中对所述编码信号进行解码,获得预估语音信号;
基于所述样本语音信号与所述预估语音信号计算第一损失值。


3.根据权利要求2所述的方法,其特征在于,所述第一卷积神经网络的结构与所述第二卷积神经网络的结构相反。


4.根据权利要求2所述的方法,其特征在于,所述基于所述样本语音信号与所述预估语音信号计算第一损失值,包括:
计算每帧所述样本语音信号与每帧所述预估语音信号之间的信号差值;
计算所述信号差值的平方;
计算所有平方的和值,作为第一损失值。


5.根据权利要求2所述的方法,其特征在于,所述执行第一训练操作、第二训练操作,包括:
依次对所述第一卷积神经网络与所述第二卷积神经网络进行第一反向传播。


6.根据权利要求1所述的方法,其特征在于,所述计算所述声学模型预测所述样本语音信号为所述样本文字的第二损失值,包括:
确定所述第一卷积神经网络对所述样本语音信号进行编码获得的编码信号;
在所述循环神经网络中,对所述编码信号进行编码,获得隐含特征信号;
在所述CTC模型中,将所述隐含特征信号映射为第一目标文字;
基于所述第一目标文字与所述样本文字计算第一子损失值;
在所述注意力模型中,将所述隐含特征信号进行加权处理,获得加权隐含特征信号;
在所述解码器中,对所述加权隐含特征信号进行解码,以映射为第二目标文字;
基于所述第二目标文字与所述样本文字计算第二子损失值;
结合所述第一子损失值与所述第二子损失值计算第二损失值。


7.根据权利要求6所述的方法,其特征在于,所述结合所述第一子损失值与所述第二子损失值计算第二损失值,包括:
确定预设的第一超参数;
在所述第一超参数与所述第一子损失值之间乘积的基础上,加上所述第二子损失值,获得第二损失值。


8.根据权利要求6所...

【专利技术属性】
技术研发人员:唐浩雨
申请(专利权)人:广州市百果园信息技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1