一种说话角色判别方法及装置制造方法及图纸

技术编号:39724172 阅读:6 留言:0更新日期:2023-12-17 23:29
本申请实施例公开了一种说话角色判别方法及装置

【技术实现步骤摘要】
一种说话角色判别方法及装置、存储介质


[0001]本申请实施例涉及语音识别技术,涉及但不限于一种说话角色判别方法及装置

存储介质


技术介绍

[0002]由于每个人的语音音频具有独有的声纹特征,可通过说话角色判别技术提取语音音频的声纹特征,并自动判别出语音音频中不同的说话角色

目前说话角色判别技术已广泛应用于智能终端的身份认证识别,安全监控系统的角色标签标注,语音通信等场景

[0003]然而,现有说话角色判别技术易受噪声和采样率的影响,跨信道的判别也存在较大误差,严重影响了说话角色判别结果的准确率,尤其在声纹特征差异不明显的情况下,无法准确地判别说话角色

因此,如何提高说话角色判别结果的准确率是一个亟待解决的问题


技术实现思路

[0004]有鉴于此,本申请实施例提供的一种说话角色判别方法及装置

存储介质,本申请实施例提供的一种说话角色判别方法及装置

存储介质是这样实现的:
[0005]本申请实施例提供的一种说话角色判别方法,包括:
[0006]将获取的原始音频数据进行预处理,得到处理后的目标音频数据;
[0007]将所述目标音频数据输入到目标神经网络模型,得到说话角色判别结果,所述目标神经网络模型是根据音频训练样本数据对预设神经网络模型进行两个阶段的训练得到的,每一阶段的训练所采用的训练模型和损失函数不同

[0008]本申请实施例,能够提高说话角色判别结果的准确率,在声纹特征差异不明显的情况下也可以准确地判别说话角色,解决了现有技术难以满足通信场景下的说话角色判别要求的技术问题

[0009]在一些实施例中,在所述根据音频训练样本数据对预设神经网络模型进行两个阶段的训练之前,所述方法还包括:
[0010]将所述音频训练样本数据进行预处理,得到处理后的第一音频训练样本数据,所述预处理包括音频重采样

噪音回声去除

静音切除

频谱特征转换中的至少一种;
[0011]将所述第一音频训练样本数据进行切分

拼接和加载,得到第二音频训练样本数据;
[0012]所述目标神经网络模型是根据音频训练样本数据对预设神经网络模型进行两个阶段的训练得到的,包括:
[0013]将所述第二音频训练样本数据输入到所述预设神经网络模型中进行两个阶段的训练,得到所述目标神经网络模型

[0014]该实施例中,降低了神经网络模型训练的数据量和计算量,还降低了噪音和回声等干扰因素对神经网络模型的影响,提高了神经网络模型的训练效率和训练效果

[0015]在一些实施例中,所述两个阶段的训练包括第一阶段预训练以及第二阶段联合训练,所述预设神经网络模型包括编码器模型

语音识别模型以及说话角色预测模型,所述第一阶段预训练采用所述编码器模型和所述语音识别模型,所述第二阶段联合训练采用所述编码器模型和所述说话角色预测模型

[0016]该实施例中,提高了神经网络模型的学习能力和预测能力,有助于提高神经网络模型在说话角色判别时的准确率

[0017]在一些实施例中,所述将所述第二音频训练样本数据输入到所述预设神经网络模型中进行两个阶段的训练,得到所述目标神经网络模型,包括:
[0018]将所述第二音频训练样本数据输入到所述编码器模型,得到所述音频训练样本数据的音频特征;
[0019]将所述第二音频训练样本数据以及所述音频特征输入到所述语音识别模型,得到语音识别结果;
[0020]将所述第二音频训练样本数据以及所述音频特征输入到所述说话角色预测模型,得到说话角色预测结果;
[0021]根据所述语音识别结果以及所述说话角色预测结果,确定所述预设神经网络模型的说话角色判别结果;
[0022]当所述说话角色判别结果与所述音频训练样本数据对应的样本结果相同时,得到所述目标神经网络模型

[0023]该实施例中,能够从不同维度提高了神经网络模型对音频数据的理解和处理能力,提高了神经网络模型说话角色判别结果的准确率

[0024]在一些实施例中,所述第一阶段预训练采用自监督损失函数

语音识别损失函数和第一阶段混合损失函数,所述第二阶段联合训练采用语音识别损失函数

说话角色损失函数和第二阶段联合学习损失函数

[0025]该实施例中,提高了神经网络模型的学习能力和预测能力,有助于提高神经网络模型在说话角色判别时的准确率

[0026]在一些实施例中,所述将所述第二音频训练样本数据输入到所述编码器模型,得到所述音频训练样本数据的音频特征之后,所述方法还包括:
[0027]将所述第二音频训练样本数据以及所述音频特征输入到所述自监督损失函数,得到自监督损失参数

[0028]该实施例中,通过自监督损失函数能够提高神经网络模型的训练效果,提升神经网络模型在说话角色判别时的准确率

[0029]在一些实施例中,所述将所述第二音频训练样本数据以及所述音频特征输入到所述语音识别模型,得到语音识别结果之后,所述方法还包括:
[0030]将所述语音识别结果输入到所述语音识别损失函数,得到语音识别损失参数

[0031]该实施例中,通过语音识别损失函数可以帮助神经网络模型更好的学习语音数据中的特征和模式,提升神经网络模型在说话角色判别时的准确率

[0032]在一些实施例中,在所述得到自监督损失参数以及所述得到语音识别损失参数之后,所述方法还包括:
[0033]将所述自监督损失参数以及所述语音识别损失参数输入到所述第一阶段混合损
失函数,得到第一阶段预训练损失参数,所述第一阶段预训练损失参数反映了所述预设神经网络模型在所述第一阶段预训练的误差;
[0034]判断所述第一阶段预训练损失参数是否符合预设神经网络参数;
[0035]在所述第一阶段预训练损失参数符合所述预设神经网络参数的情况下,停止所述第一阶段预训练,所述符合所述预设神经网络参数指所述第一阶段预训练损失参数不再降低

[0036]该实施例中,通过第一阶段预训练能够提高神经网络模型的语音识别能力和识别准确率,促使神经网络模型生成准确的说话角色判别结果

[0037]在一些实施例中,所述将所述第二音频训练样本数据以及所述音频特征输入到所述说话角色预测模型,得到说话角色预测结果之后,所述方法还包括:
[0038]将所述说话角色预测结果输入到所述说话角色损失函数,得到说话角色预测损失参数

[0039]该实施例中,通过说话角色损失函数可以帮助本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种说话角色判别方法,其特征在于,所述方法包括:将获取的原始音频数据进行预处理,得到处理后的目标音频数据;将所述目标音频数据输入到目标神经网络模型,得到说话角色判别结果,所述目标神经网络模型是根据音频训练样本数据对预设神经网络模型进行两个阶段的训练得到的,每一阶段的训练所采用的训练模型和损失函数不同
。2.
根据权利要求1所述的方法,其特征在于,在所述根据音频训练样本数据对预设神经网络模型进行两个阶段的训练之前,所述方法还包括:将所述音频训练样本数据进行预处理,得到处理后的第一音频训练样本数据,所述预处理包括音频重采样

噪音回声去除

静音切除

频谱特征转换中的至少一种;将所述第一音频训练样本数据进行切分

拼接和加载,得到第二音频训练样本数据;所述目标神经网络模型是根据音频训练样本数据对预设神经网络模型进行两个阶段的训练得到的,包括:将所述第二音频训练样本数据输入到所述预设神经网络模型中进行两个阶段的训练,得到所述目标神经网络模型
。3.
根据权利要求2所述的方法,其特征在于,所述两个阶段的训练包括第一阶段预训练以及第二阶段联合训练,所述预设神经网络模型包括编码器模型

语音识别模型以及说话角色预测模型,所述第一阶段预训练采用所述编码器模型和所述语音识别模型,所述第二阶段联合训练采用所述编码器模型和所述说话角色预测模型
。4.
根据权利要求3所述的方法,其特征在于,所述将所述第二音频训练样本数据输入到所述预设神经网络模型中进行两个阶段的训练,得到所述目标神经网络模型,包括:将所述第二音频训练样本数据输入到所述编码器模型,得到所述音频训练样本数据的音频特征;将所述第二音频训练样本数据以及所述音频特征输入到所述语音识别模型,得到语音识别结果;将所述第二音频训练样本数据以及所述音频特征输入到所述说话角色预测模型,得到说话角色预测结果;根据所述语音识别结果以及所述说话角色预测结果,确定所述预设神经网络模型的说话角色判别结果;当所述说话角色判别结果与所述音频训练样本数据对应的样本结果相同时,得到所述目标神经网络模型
。5.
根据权利要求4所述的方法,其特征在于,所述第一阶段预训练采用自监督损失函数

语音识别损失函数和第一阶段混合损失函数,所述第二阶段联合训练采用语音识别损失函数

说话角色损失函数和第二阶段联合学习损失函数
。6.
根据权利要求5所述的方法,其特征在于,所述将所述第二音频训练样本数据输入到所述编码器模型,得到所述音频训练样本数据的音频特征之后,所述方法还包括:将所述第二音频训练样本数据以及所述音频特征输...

【专利技术属性】
技术研发人员:吕召彪赵文博肖清许程冲
申请(专利权)人:联通广东产业互联网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1