语音识别模型的训练方法及装置、存储介质、电子装置制造方法及图纸

技术编号:22755967 阅读:20 留言:0更新日期:2019-12-07 04:21
本发明专利技术提供了一种语音识别模型的训练方法及装置、存储介质、电子装置,其中,上述方法包括:获取以下至少之一数据:获取目标对象在有噪声的目标场景下的第一语音数据、不同目标场景的噪声数据、将所述噪声数据混合到无噪声的所述目标场景下的第二语音数据、将所述噪声数据混合到所述第一语音数据的第三语音数据;使用所述第一语音数据,所述噪声数据,所述第二语音数据和所述第三语音数据对语音识别模型进行训练,采用上述技术方案,解决了相关技术中在不同的背景噪声场景下,语音识别模型识别正常语音的准确率低等问题,提高了语音识别模型抗不同背景噪声的鲁棒性。

Training method, device, storage medium and electronic device of speech recognition model

The invention provides a training method and device, a storage medium and an electronic device for a speech recognition model, wherein the method comprises: acquiring at least one of the following data: acquiring the first speech data of a target object in a noisy target scene, the noise data of different target scenes, mixing the noise data to the second speech in a noiseless target scene Data, mixing the noise data with the third speech data of the first speech data; using the first speech data, the noise data, the second speech data and the third speech data to train the speech recognition model, adopting the above technical scheme, solving the problem that the speech recognition model recognizes the normal speech in different background noise scenarios in the related technology The problem of low accuracy of speech improves the robustness of speech recognition model against different background noise.

【技术实现步骤摘要】
语音识别模型的训练方法及装置、存储介质、电子装置
本专利技术涉及通信领域,具体而言,涉及一种语音识别模型的训练方法及装置、存储介质、电子装置。
技术介绍
连锁餐厅为了提高服务员的服务规范,要求服务员按照餐厅指定的话术为顾客服务。通过佩戴录音设备,语音模型识别出服务员是否按照要求的话术进行服务,在当前主流的语音识别模型中,安静场景下能达到很高的识别准确性,但是真实环境的语音识别场景中,由于环境比较嘈杂,如连锁餐厅的环境,涉及到餐厅的不同背景噪声,如餐厅播放的背景音乐、服务员佩戴录音设备过程中产生的设备的摩擦噪声等,使得识别效果的准确率大大下降。针对相关技术中,在不同的背景噪声场景下,语音识别模型识别正常语音的准确率低等问题,尚未提出有效的技术方案。
技术实现思路
本专利技术实施例提供了一种语音识别模型的训练方法及装置、存储介质、电子装置,以至少解决相关技术中在不同的背景噪声场景下,语音识别模型识别正常语音的准确率低等问题。根据本专利技术的一个实施例,提供了一种语音识别模型的训练方法,包括:获取以下至少之一数据:获取目标对象在有噪声的目标场景下的第一语音数据、不同目标场景的噪声数据、将所述噪声数据混合到无噪声的所述目标场景下的第二语音数据、将所述噪声数据混合到所述第一语音数据的第三语音数据;使用所述第一语音数据,所述噪声数据,所述第二语音数据和所述第三语音数据对语音识别模型进行训练。在本专利技术实施例中,使用所述第一语音数据,所述噪声数据,所述第二语音数据和所述第三语音数据对语音识别模型进行训练之后,所述方法还包括:使用训练后的语音识别模型对有噪声的所述目标场景下的目标对象的语音进行识别,得到语音识别结果。在本专利技术实施例中,使用所述第一语音数据,所述噪声数据,所述第二语音数据和所述第三语音数据对语音识别模型进行训练,包括:对至少由所述第一语音数据,所述噪声数据,所述第二语音数据和所述第三语音数据组成的集合按照预定比例划分为三个子集,其中,所述子集包括:训练集,测试集,验证集;使用所述训练集对所述语音识别模型进行训练。在本专利技术实施例中,所述预定比例包括:7:2:1,8:1:1。在本专利技术实施例中,使用所述训练集对所述语音识别模型进行训练之后,所述方法还包括:使用所述测试集对训练后的语音识别模型进行测试,以测试所述训练后的语音识别模型是否正确;和/或使用所述验证集对训练后的语音识别模型进行验证,以测试所述训练后的语音识别模型是否正确。根据本专利技术的另一个实施例,还提供了一种语音识别模型的训练装置,包括:获取模块,用于获取以下至少之一数据:获取目标对象在有噪声的目标场景下的第一语音数据、不同目标场景的噪声数据、将所述噪声数据混合到无噪声的所述目标场景下的第二语音数据、将所述噪声数据混合到所述第一语音数据的第三语音数据;处理模块,用于使用所述第一语音数据,所述噪声数据,所述第二语音数据和所述第三语音数据对语音识别模型进行训练。在本专利技术实施例中,所述处理模块,还用于使用训练后的语音识别模型对有噪声的所述目标场景下的目标对象的语音进行识别,得到语音识别结果。在本专利技术实施例中,所述处理模块,用于对至少由所述第一语音数据,所述噪声数据,所述第二语音数据和所述第三语音数据组成的集合按照预定比例划分为三个子集,其中,所述子集包括:训练集,测试集,验证集;使用所述训练集对所述语音识别模型进行训练。在本专利技术实施例中,所述预定比例包括:7:2:1,8:1:1。根据本专利技术的另一个实施例,还提供了一种计算机可读的存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。根据本专利技术的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。通过本专利技术,获取以下至少之一数据:获取目标对象在有噪声的目标场景下的第一语音数据、不同目标场景的噪声数据、将所述噪声数据混合到无噪声的所述目标场景下的第二语音数据、将所述噪声数据混合到所述第一语音数据的第三语音数据;使用所述第一语音数据,所述噪声数据,所述第二语音数据和所述第三语音数据对语音识别模型进行训练,采用上述技术方案,解决了相关技术中在不同的背景噪声场景下,语音识别模型识别正常语音的准确率低等问题,进而提供了一种语音识别准确率高的语音识别模型,也提高了语音识别模型抗不同背景噪声的鲁棒性。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的语音识别模型的训练方法的流程图;图2是根据本专利技术实施例的语音识别模型的训练装置的结构框图;图3是根据本专利技术优选实施例的语音识别模型的训练示意图。具体实施方式下文中将参考附图并结合实施例来详细说明本专利技术。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。本专利技术实施例提供了一种语音识别模型的训练方法,图1是根据本专利技术实施例的语音识别模型的训练方法的流程图,如图1所示,该流程包括如下步骤:步骤S102,获取以下至少之一数据:获取目标对象在有噪声的目标场景下的第一语音数据、不同目标场景的噪声数据、将所述噪声数据混合到无噪声的所述目标场景下的第二语音数据、将所述噪声数据混合到所述第一语音数据的第三语音数据;步骤S104,使用所述第一语音数据,所述噪声数据,所述第二语音数据和所述第三语音数据对语音识别模型进行训练。通过本专利技术,获取以下至少之一数据:获取目标对象在有噪声的目标场景下的第一语音数据、不同目标场景的噪声数据、将所述噪声数据混合到无噪声的所述目标场景下的第二语音数据、将所述噪声数据混合到所述第一语音数据的第三语音数据;使用所述第一语音数据,所述噪声数据,所述第二语音数据和所述第三语音数据对语音识别模型进行训练,采用上述技术方案,解决了相关技术中在不同的背景噪声场景下,语音识别模型识别正常语音的准确率低等问题,进而提供了一种语音识别准确率高的语音识别模型,也提高了语音识别模型抗不同背景噪声的鲁棒性。在本专利技术实施例中,使用所述第一语音数据,所述噪声数据,所述第二语音数据和所述第三语音数据对语音识别模型进行训练之后,所述方法还包括:使用训练后的语音识别模型对有噪声的所述目标场景下的目标对象的语音进行识别,得到语音识别结果。在本专利技术实施例中,使用所述第一语音数据,所述噪声数据,所述第二语音数据和所述第三语音数据对语音识别模型进行训练,包括:对至少由所述第一语音数据,所述噪声数据,所述第二语音数据和所述第三语音数据组成的集合按照预定比例划分为三个子集,其中,本文档来自技高网...

【技术保护点】
1.一种语音识别模型的训练方法,其特征在于,包括:/n获取以下至少之一数据:获取目标对象在有噪声的目标场景下的第一语音数据、不同目标场景的噪声数据、将所述噪声数据混合到无噪声的所述目标场景下的第二语音数据、将所述噪声数据混合到所述第一语音数据的第三语音数据;/n使用所述第一语音数据,所述噪声数据,所述第二语音数据和所述第三语音数据对语音识别模型进行训练。/n

【技术特征摘要】
1.一种语音识别模型的训练方法,其特征在于,包括:
获取以下至少之一数据:获取目标对象在有噪声的目标场景下的第一语音数据、不同目标场景的噪声数据、将所述噪声数据混合到无噪声的所述目标场景下的第二语音数据、将所述噪声数据混合到所述第一语音数据的第三语音数据;
使用所述第一语音数据,所述噪声数据,所述第二语音数据和所述第三语音数据对语音识别模型进行训练。


2.根据权利要求1所述的方法,其特征在于,使用所述第一语音数据,所述噪声数据,所述第二语音数据和所述第三语音数据对语音识别模型进行训练之后,所述方法还包括:
使用训练后的语音识别模型对有噪声的所述目标场景下的目标对象的语音进行识别,得到语音识别结果。


3.根据权利要求1所述的方法,其特征在于,使用所述第一语音数据,所述噪声数据,所述第二语音数据和所述第三语音数据对语音识别模型进行训练,包括:
对至少由所述第一语音数据,所述噪声数据,所述第二语音数据和所述第三语音数据组成的集合按照预定比例划分为三个子集,其中,所述子集包括:训练集,测试集,验证集;
使用所述训练集对所述语音识别模型进行训练。


4.根据权利要求3所述的方法,其特征在于,所述预定比例包括:7:2:1,8:1:1。


5.一种语音识别模型的训练装置,其特征在于,包括:
获取模块,用于获取以下至...

【专利技术属性】
技术研发人员:刘洋唐大闰
申请(专利权)人:秒针信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1