声纹识别模型训练方法、装置、电子设备及可读介质制造方法及图纸

技术编号：38470066 阅读：30 留言：0更新日期：2023-08-11 14:47

本发明专利技术公开了声纹识别模型训练方法、装置、电子设备及可读介质。方法包括：识别并提取通话场景中的至少一个无人声片段；根据所述无人声片段和预设的人声数据生成训练数据；将所述训练数据输入到声纹识别模型中进行训练。本发明专利技术的方案利用通话场景中大量存在的背景无人声片段，通过预设的人声数据生成训练数据不断对声纹识别模型进行训练，提高声纹识别的准确率，使声纹识别模型适配通话场景。使声纹识别模型适配通话场景。使声纹识别模型适配通话场景。

全部详细技术资料下载

【技术实现步骤摘要】
声纹识别模型训练方法、装置、电子设备及可读介质

[0001]本专利技术涉及语音数据处理
，尤其涉及声纹识别模型训练方法、装置、电子设备及可读介质。

技术介绍

[0002]声纹识别是一种借助声音完成对语音用户身份识别的技术，其已然成为一种高效的身份识别方法，在多种领域都有着广泛的应用。目前，对于声纹的识别通常通过声纹识别模型来实现。
[0003]但对于通话场景中的声纹识别，由于在实际场景中存在不同手机设备和不同背景噪音等影响因素，导致声纹识别模型在训练时使用的噪音数据无法匹配实际通话场景，存在噪音和信道不匹配等问题。
[0004]因此，需要一种训练声纹识别模型的方法来使声纹识别模型适配实际通话场景。

技术实现思路

[0005]本专利技术提供了一种声纹识别模型训练方法、装置、电子设备及可读介质，以训练声纹识别模型，使声纹识别模型适配实际通话场景。
[0006]根据本专利技术的一方面，提供了一种声纹识别模型训练方法，包括：
[0007]识别并提取通话场景中的至少一个无人声片段；
[0008本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.声纹识别模型训练方法，其特征在于，包括：识别并提取通话场景中的至少一个无人声片段；根据所述无人声片段和预设的人声数据生成训练数据；将所述训练数据输入到声纹识别模型中进行训练。2.根据权利要求1所述的方法，其特征在于，所述识别并提取通话场景中的至少一个无人声片段，包括：获取通话场景中的通话录音；确定所述通话录音的频率信息；根据预设的人声频率信息，确定所述频率信息中的至少一个人声片段；从所述通话录音中截取所述人声片段外的录音片段，得到至少一个所述无人声片段。3.根据权利要求1所述的方法，其特征在于，所述根据所述无人声片段和预设的人声数据生成训练数据，包括：对每个所述无人声片段，执行：截取与当前无人声片段时长相同的目标人声数据；将所述当前无人声片段与所述目标人声数据进行合成，得到所述训练数据。4.根据权利要求1所述的方法，其特征在于，所述将所述训练数据输入到声纹识别模型中进行训练，包括：对所述声纹识别模型进行fine
‑
tune处理；设置所述声纹识别模型的学习率与正常学习率的对应关系；将训练数据输入所述声纹识别模型中训练直至收敛。5.根据权利要求1所述的方法，其特征在于，每种所述人声数据对应一种声纹；相应的，进一步包括：当所述声纹识别模型从所述训练数据中识别出声纹后，与该训练数据对应的声纹进行验证；根据验证结果对所述声纹识别模型进行修正。6.根据权利要求1所述的方法，其特征...

【专利技术属性】
技术研发人员：张超，王乐，滕勇，丁希剑，李健，
申请(专利权)人：小沃科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人