语音识别模型的训练方法、装置、设备及存储介质制造方法及图纸

技术编号:31088276 阅读:31 留言:0更新日期:2021-12-01 12:46
本申请实施例提供一种语音识别模型的训练方法、装置、设备及存储介质,获取多个样本语音数据;根据关键词对应的声学特征中的信号帧进行建模,得到初始声学模型,每个声学特征包含多个信号帧;利用多个样本语音数据对初始声学模型进行训练,得到目标声学模型;根据目标声学模型构建语音识别模型。本申请通过关键词对应的帧级别的声学特征来构建声学模型,无需对样本语音数据进行对齐处理,训练过程相对简单,可以提升训练效率。可以提升训练效率。可以提升训练效率。

【技术实现步骤摘要】
语音识别模型的训练方法、装置、设备及存储介质


[0001]本申请实施例涉及人工智能
,尤其涉及一种语音识别模型的训练方法、装置、设备及存储介质。

技术介绍

[0002]随着科技的不断发展,语音识别技术日趋完善,使得智能语音交互被广泛应用于各个领域,例如智能家居唤醒、号码状态检测等。
[0003]相关技术中,可以通过语音识别模型进行检测来检测语音中的关键词,从而实现智能语音交互。然而,目前的语音识别模型中,在对语音识别模型中的声学模型进行训练时,需要将已标注的语音信号中的每一帧信号都进行标注,从而获得帧级别的对齐数据,再通过对齐数据对声学模型进行训练。因此,通过上述技术训练语音识别模型时,还需要单独训练对齐模型以得到帧级别的对齐数据,此过程相对繁琐。

技术实现思路

[0004]本申请的实施例提供一种语音识别模型的训练方法、装置、设备及存储介质,以简化语音识别模型的训练过程,提高模型训练效率。
[0005]第一方面,本申请的实施例提供一种语音识别模型的训练方法,包括:
[0006]获取多个样本语音数据,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音识别模型的训练方法,其特征在于,包括:获取多个样本语音数据,所述样本语音数据为包含一种关键词的语音数据;根据关键词对应的声学特征中的信号帧进行建模,得到初始声学模型,每个声学特征包含多个信号帧;利用所述多个样本语音数据对所述初始声学模型进行训练,得到目标声学模型;根据所述目标声学模型构建语音识别模型,所述语音识别模型用于识别待识别语音数据中的目标关键词。2.根据权利要求1所述的训练方法,其特征在于,所述根据关键词对应的声学特征中的信号帧进行建模,得到初始声学模型,包括:通过N状态HMM对关键词对应的声学特征中信号帧进行建模,得到初始声学模型,其中,N为大于等于5的整数。3.根据权利要求2所述的训练方法,其特征在于,所述利用所述多个样本语音数据对所述初始声学模型进行训练,得到目标声学模型,包括:利用所述多个样本语音数据对所述初始声学模型进行迭代训练,得到每次训练的输出结果;根据所述输出结果,获得当前声学模型的损失值;根据所述损失值,确定是否对当前声学模型的模型参数进行更新;若是,则对当前声学模型的模型参数更新;若否,则确定当前声学模型为目标声学模型。4.根据权利要求3所述的训练方法,其特征在于,所述输出结果包括所述各关键词中每个信号帧对应的N个目标后验概率,其中,每个目标后验概率为所述信号帧对应每个状态的后验概率,所述根据所述输出结果,获得当前声学模型的损失值,包括:根据每个关键词对应的目标后验概率,确定第一概率,所述第一概率为根据所述目标后验概率获得的路径为正确路径的概率,所述正确路径中包含所述关键词;根据各关键词对应的目标后验概率,确定第二概率,所述第二概率为各关键词对应的正确路径的概率之和;根据所述第一概率和所述第二概率,确定当前声学模型的损失值。5.根据权利要求1至4中任一项所述的训练方法,其特征在于,所述根据所述目标声学模型构建语音识别模型,包括:将音素模型和语音模型进行融合,获得目标解码网络;根据所述目标声学模型和所述目标解码网络,构建所述语音识别模型。6.根据权利要求1至4中任一项所述的训练方法,其特征在于,所述样本语音数据还包括:包含非关键词的语音数据,所述训练方法还包括:根据关键词和非关键词对应的声学特征中的信号帧进行建模,得到初始声学模型。7.一种语音识别方法,其特征在于,包括:获取待识别语音数据;基于语音识别模型对所述待识别语音数据进行识别,获取所述待识别语音...

【专利技术属性】
技术研发人员:杨斌吴海英刘敏蒋宁王洪斌
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1