【技术实现步骤摘要】
一种声纹识别模型训练的方法、装置以及存储介质
[0001]本专利技术涉及声纹识别
,尤其涉及一种声纹识别模型训练的方法、装置以及存储介质。
技术介绍
[0002]在声纹识别领域,普遍存在着实际应用场景和标准数据集录音环境的差异,为了减轻这种差异对识别效果的影响,在训练声纹识别模型时,会采用加噪、加混响、加快/减慢速度、谱增强等多种数据增强方法对音频数据进行处理。通过上述的数据增强方法,使标准录音环境下采集到的音频的质量接近实际应用场景采集到的音频的质量。但现有的数据增强方法需要保持音频的时序性,限制了所能获取的音频数据的数量及多样性。
技术实现思路
[0003]为了克服如上所述的技术问题,本专利技术提出一种声纹识别模型训练的方法,所述方法的技术方案如下:
[0004]S1,获取音频训练集;
[0005]S2,对所述音频训练集中的至少部分音频数据进行音频反向操作,得到反向音频数据,将所述反向音频数据作为音频数据加入到所述音频训练集中;
[0006]S3,提取所述加入了反向音频数据的 ...
【技术保护点】
【技术特征摘要】
1.一种声纹识别模型训练的方法,其特征在于,包括:S1,获取音频训练集;S2,对所述音频训练集中的至少部分音频数据进行音频反向操作,得到反向音频数据,将所述反向音频数据作为音频数据加入到所述音频训练集中;S3,提取所述加入了反向音频数据的音频训练集中的所有音频数据的音频特征;S4,使用所提取的所述音频数据的音频特征对预先构建的声纹识别模型进行训练;其中,所述声纹识别模型的输出为所述音频数据的嵌入特征序列。2.根据权利要求1所述的方法,其特征在于,所述音频反向操作包括:将所述音频数据的采样点在时间上完全倒过来。3.根据权利要求2所述的方法,其特征在于,所述将所述音频数据的采样点在时间上完全倒过来包括:计算所述音频数据的采样点数及各个采样点的值,然后以中心点作为对称轴,互换两个对称的采样点对应的值,生成反向音频数据。4.根据权利要求1所述的方法,其特征在于,在对所述音频训练集中的至少部分音频数据进行音频反向操作之前还包括对所述音频训练集中的至少部分音频数据进行随机拼接操作。5.根据权利要求4所述的方法,其特征在于,所述音频数据包含说话人信息,所述随机拼接操作具体是将所述音频数据按预设时间长度进行切割,得到所述音频数据的切割片段,对同一说话人信息的所述音频数据的切割片段进行随机拼接得到拼接音频数据,将所述音频数据和所述拼接音频数...
【专利技术属性】
技术研发人员:徐敏,肖龙源,李稀敏,叶志坚,
申请(专利权)人:厦门快商通科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。