【技术实现步骤摘要】
一种声学模型的训练方法、装置、电子设备及存储介质
本公开实施例涉及语音识别
,具体涉及一种声学模型的训练方法、装置、电子设备及存储介质。
技术介绍
语音识别技术是机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。现有的语音识别模型由声学模型和语言模型合并得到,其中声学模型通过神经网络模型对语音信号进行特征提取并训练得到,训练方式例如为端到端的训练方式或HMM-DMMhybrid的训练方式等。现有的神经网络模型包含对时序特征建模的模型结构,比如tdnn,lstm等。本申请专利技术人发现:对于语音数据和语音特征,尤其在神经网络模型的底层,数据序列中的每一个向量中,各个维度代表着信号处理中的各个信道。在进行神经网络模型的设计以及训练的过程中,并没有针对各个信道做建模。上述对问题的发现过程的描述,仅用于辅助理解本公开的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
为了解决现有技术存在的至少一个问题,本公开的至少一个实施例提供了一种声学模型的训练方法、装置、电子设备及存储介质。 ...
【技术保护点】
1.一种声学模型的训练方法,其特征在于,所述声学模型由神经网络模型训练得到,所述神经网络模型包括用于时序处理的多层第一神经网络和用于输出状态的第二神经网络,所述方法包括:/n获取语音数据;/n提取所述语音数据的特征,得到多帧特征数据,其中,每帧特征数据包括多维度;/n基于所述多帧特征数据确定训练样本数据;/n基于所述训练样本数据训练所述多层第一神经网络和所述第二神经网络,得到声学模型;/n其中,至少一层所述第一神经网络的输出为带有权重的输出,所述权重为信道注意力,所述信道为每帧特征数据的维度。/n
【技术特征摘要】
1.一种声学模型的训练方法,其特征在于,所述声学模型由神经网络模型训练得到,所述神经网络模型包括用于时序处理的多层第一神经网络和用于输出状态的第二神经网络,所述方法包括:
获取语音数据;
提取所述语音数据的特征,得到多帧特征数据,其中,每帧特征数据包括多维度;
基于所述多帧特征数据确定训练样本数据;
基于所述训练样本数据训练所述多层第一神经网络和所述第二神经网络,得到声学模型;
其中,至少一层所述第一神经网络的输出为带有权重的输出,所述权重为信道注意力,所述信道为每帧特征数据的维度。
2.根据权利要求1所述的方法,其特征在于,提取所述语音数据的特征包括:
对所述语音数据进行采样,得到多个采样数据;
基于预设时间窗,以预设时间间隔滑动,对每个时间窗内的所有采样数据进行特征提取。
3.根据权利要求1所述的方法,其特征在于,基于所述多帧特征数据确定训练样本数据包括:
基于所述多帧特征数据对所述语音数据进行对齐标注训练,得到对齐标注结果;
基于所述对齐标注结果确定训练样本数据。
4.根据权利要求1所述的方法,其特征在于,基于所述训练样本数据训练所述多层第一神经网络和所述第二神经网络包括:
将所述训练样本数据输入第一层第一神经网络;
将至少一层第一神经网络的原始输出进行权重计算,得到带有权重的输出;
将最后一层第一神经网络的输出转换为一维数据;
将所述一维数据输入所述第二神经网络。
5.根据权利要求4所述的方法,其特征在于,将至少一层第一神经网络的原始输出进行权重计算,得到带有权重的输出包括:
以所述原始输出的每一帧的维度为信道,将所述原始输出的每个信道的数据进行池化处理,得到信道向量;...
【专利技术属性】
技术研发人员:王靖淞,涂威威,
申请(专利权)人:第四范式北京技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。