话者识别的方法、装置、设备、存储介质以及程序产品制造方法及图纸

技术编号:28041886 阅读:29 留言:0更新日期:2021-04-09 23:25
本公开提供了话者识别的方法、装置、设备、存储介质及程序产品,涉及人工智能领域,具体涉及语音识别、深度学习、大数据以及云计算等领域。具体实现方案为:获取初始模型,初始模型包括特征提取网络;获取源域样本音频和目标域样本音频的样本特征,源域样本音频包括话者标签和领域标签,目标域样本音频包括领域标签;基于特征提取网络对源域样本音频和目标域样本音频的样本特征逐帧提取,得到源域子句特征和目标域子句特征;利用源域子句特征和目标域子句特征,训练初始模型,以生成话者识别模型,话者识别模型用于识别目标域待识别音频的说话者。根据本公开的技术,可以提高话者识别模型的训练效率、减少训练周期。

【技术实现步骤摘要】
话者识别的方法、装置、设备、存储介质以及程序产品
本公开涉及人工智能
,尤其涉及语音识别、大数据、深度学习以及云计算领域。
技术介绍
相关技术中,在话者识别模型针对不同领域的应用中,由于不同领域的数据特点存在差异,例如数据编码、数据内容、数据信道以及数据维度等特点存在差异,因此话者识别模型在跨领域应用中存在识别效果不佳的问题。基于此,需要对话者识别模型进行优化,通常需要收集大量目标领域相关业务的标注数据,重新训练模型并进行验证,存在训练周期长、人工成本高等缺陷。
技术实现思路
本公开提供了一种用于话者识别的方法、装置、设备、存储介质以及程序产品。根据本公开的一方面,提供了一种话者识别模型的生成方法,包括:获取初始模型,初始模型包括特征提取网络;获取源域样本音频和目标域样本音频的样本特征,源域样本音频包括话者标签和领域标签,目标域样本音频包括领域标签;基于特征提取网络对源域样本音频和目标域样本音频的样本特征逐帧提取,得到源域子句特征和目标域子句特征;利用源域子句特征和目标域本文档来自技高网...

【技术保护点】
1.一种话者识别模型的生成方法,包括:/n获取初始模型,所述初始模型包括特征提取网络;/n获取源域样本音频和目标域样本音频的样本特征,所述源域样本音频包括话者标签和领域标签,所述目标域样本音频包括领域标签;/n基于所述特征提取网络对所述源域样本音频和所述目标域样本音频的样本特征逐帧提取,得到源域子句特征和目标域子句特征;/n利用所述源域子句特征和所述目标域子句特征,训练所述初始模型,以生成话者识别模型,所述话者识别模型用于识别目标域待识别音频的说话者。/n

【技术特征摘要】
1.一种话者识别模型的生成方法,包括:
获取初始模型,所述初始模型包括特征提取网络;
获取源域样本音频和目标域样本音频的样本特征,所述源域样本音频包括话者标签和领域标签,所述目标域样本音频包括领域标签;
基于所述特征提取网络对所述源域样本音频和所述目标域样本音频的样本特征逐帧提取,得到源域子句特征和目标域子句特征;
利用所述源域子句特征和所述目标域子句特征,训练所述初始模型,以生成话者识别模型,所述话者识别模型用于识别目标域待识别音频的说话者。


2.根据权利要求1所述的方法,所述特征提取网络包括第一门控循环单元、帧级别注意力层和统计池化层,其中,基于所述特征提取网络对所述源域样本音频和所述目标域样本音频的样本特征逐帧提取,得到源域子句特征和目标域子句特征,包括:
利用所述第一门控循环单元对所述源域样本音频和所述目标域样本音频的样本特征进行分帧处理得到多个帧级别数据,并将多个所述帧级别数据映射至所述帧级别注意力层;
利用所述帧级别注意力层从多个所述帧级别数据中提取重点帧级别数据,并输出至所述统计池化层;
利用所述统计池化层根据所述重点帧级别数据输出所述源域样本音频的子句特征和所述目标域样本音频的子句特征。


3.根据权利要求1所述的方法,所述初始模型还包括话者识别网络和领域识别网络,其中,利用所述源域子句特征和所述目标域子句特征,训练所述初始模型,包括:
利用所述源域子句特征和所述目标域子句特征训练所述领域识别网络;
利用所述源域子句特征训练所述话者识别网络;
利用所述领域识别网络训练过程中的第一损失函数值和所述话者识别网络训练过程中的第二损失函数值,根据梯度下降算法对所述特征提取网络进行训练。


4.根据权利要求3所述的方法,所述领域识别网络包括第二门控循环单元、子句级别注意力层和特征表示层,其中,利用所述源域子句特征和所述目标域子句特征训练所述领域识别网络,包括:
利用所述第二门控循环单元将所述源域子句特征和所述目标域子句特征映射至所述子句级别注意力层;
利用所述子句级别注意力层从所述源域子句特征和所述目标域子句特征中分别提取重点子句特征,并输出至所述特征表示层;
利用所述特征表示层基于所述重点子句特征输出源域识别结果和目标域识别结果;
计算所述源域识别结果与所述目标域识别结果的Wasserstein距离和第一损失函数值,基于所述Wasserstein距离和所述第一损失函数值调整所述领域识别网络,直至所述领域识别网络收敛。


5.根据权利要求3所述的方法,所述话者识别网络包括第三门控循环单元、子句级别注意力层和特征表示层,其中,利用所述源域子句特征训练所述话者识别网络,包括:
利用所述第三门控循环单元将所述源域子句特征映射至所述子句级别注意力层;
利用所述子句级别注意力层从所述源域子句特征中提取重点子句特征,并输出至所述特征表示层;
利用所述特征表示层基于所述重点子句特征输出所述话者识别结果;
计算所述话者识别结果与所述话者标签的所述第二损失函数值,基于所述第二损失函数值调整所述话者识别网络,直至所述话者识别网络收敛。


6.根据权利要求3所述的方法,其中,生成话者识别模型,包括:
在将话者识别网络训练至收敛的情况下,得到目标话者识别网络;
在将所述特征提取网络训练至收敛的情况下,得到目标特征提取网络;
基于所述目标话者识别网络和所述目标特征提取网络,生成所述话者识别模型。


7.根据权利要求1所述的方法,其中,获取源域样本音频和目标域样本音频的样本特征,包括:
对所述源域样本音频和目标域样本音频进行分帧处理,得到多个帧级别数据;
根据周期图法估算出多个所述帧级别数据的功率谱;
利用多个滤波器对所述功率谱进行滤波,对各所述滤波器的能量进行DCT变换,将得到的所述源域样本音频的MFCC特征作为所述源域样本音频的样本特征,以及将得到的所述目标域样本音频的MFCC特征作为所述目标域样本音频的样本特征。


8.一种话者识别方法,包括:
获取目标域待识别音频的特征;
将所述目标域待识别音频的特征输入话者识别模型,以识别所述目标域待识别音频的说话者,其中,所述话者识别模型为根据权利要求1至7任一项所述的方法生成。


9.根据权利要求8所述的话者识别方法,其中,获取所述目标域待识别音频的特征,包括:
对所述目标域待识别音频进行分帧处理,得到多个帧级别数据;
根据周期图法估算出多个所述帧级别数据的功率谱;
利用多个滤波器对所述功率谱进行滤波,对各所述滤波器的能量进行DCT变换,将得到的MFCC特征作为所述目标域待识别音频的特征。


10.一种话者识别模型的生成装置,包括:
初始模型获取模块,用于获取初始模型,所述初始模型包括特征提取网络;
样本特征获取模块,用于获取源域样本音频和目标域样本音频的样本特征,所述源域样本音频包括话者标签和领域标签,所述目标域样本音频包括领域标签;
子句特征提取模块,用于基于所述特征提取网络对所述源域样本音频和所述目标域样本音频的样本特征逐帧提取,得到源域子句特征和目标域子句特征;
话者识别模型生成模块,...

【专利技术属性】
技术研发人员:赵情恩曾新贵熊新雷陈蓉肖岩
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1