【技术实现步骤摘要】
一种说话角色判别方法及装置、存储介质
[0001]本申请实施例涉及语音识别技术,涉及但不限于一种说话角色判别方法及装置
、
存储介质
。
技术介绍
[0002]由于每个人的语音音频具有独有的声纹特征,可通过说话角色判别技术提取语音音频的声纹特征,并自动判别出语音音频中不同的说话角色
。
目前说话角色判别技术已广泛应用于智能终端的身份认证识别,安全监控系统的角色标签标注,语音通信等场景
。
[0003]然而,现有说话角色判别技术易受噪声和采样率的影响,跨信道的判别也存在较大误差,严重影响了说话角色判别结果的准确率,尤其在声纹特征差异不明显的情况下,无法准确地判别说话角色
。
因此,如何提高说话角色判别结果的准确率是一个亟待解决的问题
。
技术实现思路
[0004]有鉴于此,本申请实施例提供的一种说话角色判别方法及装置
、
存储介质,本申请实施例提供的一种说话角色判别方法及装置
、
存储介质是这样实现的:
[0005]本申请实施例提供的一种说话角色判别方法,包括:
[0006]将获取的原始音频数据进行预处理,得到处理后的目标音频数据;
[0007]将所述目标音频数据输入到目标神经网络模型,得到说话角色判别结果,所述目标神经网络模型是根据音频训练样本数据对预设神经网络模型进行两个阶段的训练得到的,每一阶段的训练所采用的训练模型和损失函数不同
。
[0008] ...
【技术保护点】
【技术特征摘要】
1.
一种说话角色判别方法,其特征在于,所述方法包括:将获取的原始音频数据进行预处理,得到处理后的目标音频数据;将所述目标音频数据输入到目标神经网络模型,得到说话角色判别结果,所述目标神经网络模型是根据音频训练样本数据对预设神经网络模型进行两个阶段的训练得到的,每一阶段的训练所采用的训练模型和损失函数不同
。2.
根据权利要求1所述的方法,其特征在于,在所述根据音频训练样本数据对预设神经网络模型进行两个阶段的训练之前,所述方法还包括:将所述音频训练样本数据进行预处理,得到处理后的第一音频训练样本数据,所述预处理包括音频重采样
、
噪音回声去除
、
静音切除
、
频谱特征转换中的至少一种;将所述第一音频训练样本数据进行切分
、
拼接和加载,得到第二音频训练样本数据;所述目标神经网络模型是根据音频训练样本数据对预设神经网络模型进行两个阶段的训练得到的,包括:将所述第二音频训练样本数据输入到所述预设神经网络模型中进行两个阶段的训练,得到所述目标神经网络模型
。3.
根据权利要求2所述的方法,其特征在于,所述两个阶段的训练包括第一阶段预训练以及第二阶段联合训练,所述预设神经网络模型包括编码器模型
、
语音识别模型以及说话角色预测模型,所述第一阶段预训练采用所述编码器模型和所述语音识别模型,所述第二阶段联合训练采用所述编码器模型和所述说话角色预测模型
。4.
根据权利要求3所述的方法,其特征在于,所述将所述第二音频训练样本数据输入到所述预设神经网络模型中进行两个阶段的训练,得到所述目标神经网络模型,包括:将所述第二音频训练样本数据输入到所述编码器模型,得到所述音频训练样本数据的音频特征;将所述第二音频训练样本数据以及所述音频特征输入到所述语音识别模型,得到语音识别结果;将所述第二音频训练样本数据以及所述音频特征输入到所述说话角色预测模型,得到说话角色预测结果;根据所述语音识别结果以及所述说话角色预测结果,确定所述预设神经网络模型的说话角色判别结果;当所述说话角色判别结果与所述音频训练样本数据对应的样本结果相同时,得到所述目标神经网络模型
。5.
根据权利要求4所述的方法,其特征在于,所述第一阶段预训练采用自监督损失函数
、
语音识别损失函数和第一阶段混合损失函数,所述第二阶段联合训练采用语音识别损失函数
、
说话角色损失函数和第二阶段联合学习损失函数
。6.
根据权利要求5所述的方法,其特征在于,所述将所述第二音频训练样本数据输入到所述编码器模型,得到所述音频训练样本数据的音频特征之后,所述方法还包括:将所述第二音频训练样本数据以及所述音频特征输...
【专利技术属性】
技术研发人员:吕召彪,赵文博,肖清,许程冲,
申请(专利权)人:联通广东产业互联网有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。