一种声纹识别模型训练的方法、装置以及存储介质制造方法及图纸

技术编号:33283911 阅读:31 留言:0更新日期:2022-04-30 23:46
本发明专利技术公开了一种声纹识别模型训练的方法、装置以及存储介质。所述方法包括:获取音频训练集;对音频训练集中的至少部分音频数据进行音频反向操作,得到反向音频数据,将反向音频数据作为音频数据加入到音频训练集中;提取加入了反向音频数据的音频训练集中的所有音频数据的音频特征;使用所提取的音频数据的音频特征对预先构建的声纹识别模型进行训练;其中,声纹识别模型的输出为音频数据的嵌入特征序列。本发明专利技术的一种声纹识别模型训练的方法和装置,能够增加音频数据的数量及多样性,提升了声纹识别模型的识别效果及抗干扰性即鲁棒性。性。性。

【技术实现步骤摘要】
一种声纹识别模型训练的方法、装置以及存储介质


[0001]本专利技术涉及声纹识别
,尤其涉及一种声纹识别模型训练的方法、装置以及存储介质。

技术介绍

[0002]在声纹识别领域,普遍存在着实际应用场景和标准数据集录音环境的差异,为了减轻这种差异对识别效果的影响,在训练声纹识别模型时,会采用加噪、加混响、加快/减慢速度、谱增强等多种数据增强方法对音频数据进行处理。通过上述的数据增强方法,使标准录音环境下采集到的音频的质量接近实际应用场景采集到的音频的质量。但现有的数据增强方法需要保持音频的时序性,限制了所能获取的音频数据的数量及多样性。

技术实现思路

[0003]为了克服如上所述的技术问题,本专利技术提出一种声纹识别模型训练的方法,所述方法的技术方案如下:
[0004]S1,获取音频训练集;
[0005]S2,对所述音频训练集中的至少部分音频数据进行音频反向操作,得到反向音频数据,将所述反向音频数据作为音频数据加入到所述音频训练集中;
[0006]S3,提取所述加入了反向音频数据的音频训练集中的所有音本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种声纹识别模型训练的方法,其特征在于,包括:S1,获取音频训练集;S2,对所述音频训练集中的至少部分音频数据进行音频反向操作,得到反向音频数据,将所述反向音频数据作为音频数据加入到所述音频训练集中;S3,提取所述加入了反向音频数据的音频训练集中的所有音频数据的音频特征;S4,使用所提取的所述音频数据的音频特征对预先构建的声纹识别模型进行训练;其中,所述声纹识别模型的输出为所述音频数据的嵌入特征序列。2.根据权利要求1所述的方法,其特征在于,所述音频反向操作包括:将所述音频数据的采样点在时间上完全倒过来。3.根据权利要求2所述的方法,其特征在于,所述将所述音频数据的采样点在时间上完全倒过来包括:计算所述音频数据的采样点数及各个采样点的值,然后以中心点作为对称轴,互换两个对称的采样点对应的值,生成反向音频数据。4.根据权利要求1所述的方法,其特征在于,在对所述音频训练集中的至少部分音频数据进行音频反向操作之前还包括对所述音频训练集中的至少部分音频数据进行随机拼接操作。5.根据权利要求4所述的方法,其特征在于,所述音频数据包含说话人信息,所述随机拼接操作具体是将所述音频数据按预设时间长度进行切割,得到所述音频数据的切割片段,对同一说话人信息的所述音频数据的切割片段进行随机拼接得到拼接音频数据,将所述音频数据和所述拼接音频数...

【专利技术属性】
技术研发人员:徐敏肖龙源李稀敏叶志坚
申请(专利权)人:厦门快商通科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1