声纹模型的处理方法与装置制造方法及图纸

技术编号：36517673 阅读：16 留言：0更新日期：2023-02-01 15:50

本申请提供了一种声纹模型的处理方法与装置，该方法包括：获取至少一个角色的历史音频片段，并构建角色对应的初始声纹模型；获取待识别的目标音频片段；确定待识别的目标音频片段的目标角色是否为已经构建初始声纹模型的角色；在目标角色是已经构建初始声纹模型的角色的情况下，对比目标音频片段与目标角色相同的角色的历史音频片段的质量，其中，音频片段的质量是根据音频参数确定的，音频参数包括以下至少之一：采样位数、采样频率、位速；在目标音频片段的质量优于历史音频片段的质量的情况下，采用目标音频片段对初始声纹模型再次进行训练，得到更新声纹模型，从而解决了现有技术声纹模型的识别准确率低的问题。技术声纹模型的识别准确率低的问题。技术声纹模型的识别准确率低的问题。

全部详细技术资料下载

【技术实现步骤摘要】
声纹模型的处理方法与装置

[0001]本申请涉及声纹模型领域，具体而言，涉及一种声纹模型的处理方法、装置、计算机可读存储介质与处理器。

技术介绍

[0002]现有技术中，每个人的语音声学特征既有相对稳定性，又有变异性，不是绝对的、一成不变的，变异性可来自生理、病理、心理、模拟、伪装，也与环境干扰有关，比如同一个人的声音具有变异性，易受身体状况、年龄、情绪等的影响；比如不同的麦克风和信道对识别性能有影响；比如环境噪音对识别有干扰；又比如混合说话人的情形下人的声纹特征不易提取。
[0003]现有的角色分离技术包括：(1)基于提前录音的说话人语音注册声纹模型，然后基于注册的声纹模型进行角色分离；(2)使用手拉手麦克风并基于麦克风切换信号实现角色分离，其中声纹(Voiceprint)是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，不同的人在讲话时使用的发声器官(舌、牙齿、喉头、肺、鼻腔)在尺寸和形态方面有着很大的差异，所以任何两个人的声纹图谱都是不同的。由于每个人的发音器官都不尽相同，因此在一般情况下，人们仍能区别不同的人的声音或判断是否是同一人的声音。因此声纹也就成为一种鉴别说话人身份的识别手段。
[0004]现有的声纹模型在实际应用场景中使用易用性差，准备工作的实施成本太高，且在跨信道采音或者注册音频质量不高的情况下，会导致声纹模型的识别准确率低。
[0005]针对相关技术中存在的上述问题，目前尚未提出有效的解决方案。
专利技术...

【技术保护点】

【技术特征摘要】
1.一种声纹模型的处理方法，其特征在于，包括：获取至少一个角色的历史音频片段，并构建所述角色对应的初始声纹模型，其中，一个所述初始声纹模型是通过对一个所述角色的一个所述历史音频片段训练得到的；获取待识别的目标音频片段；确定所述待识别的目标音频片段的目标角色是否为已经构建所述初始声纹模型的角色；在所述目标角色是已经构建所述初始声纹模型的角色的情况下，对比所述目标音频片段与所述目标角色相同的角色的所述历史音频片段的质量，其中，音频片段的质量是根据音频参数确定的，所述音频参数包括以下至少之一：采样位数、采样频率、位速；在所述目标音频片段的质量优于所述历史音频片段的质量的情况下，采用所述目标音频片段对所述初始声纹模型再次进行训练，得到更新声纹模型。2.根据权利要求1所述的方法，其特征在于，在确定所述待识别的目标音频片段的目标角色是否为已经构建所述初始声纹模型的角色之前，所述方法还包括以下至少之一：采用声纹识别技术对所述目标音频片段进行识别，得到所述目标角色；根据广播所述目标音频片段的硬件设备的标识信息，确定所述目标角色，一个所述目标角色对应一个所述硬件设备。3.根据权利要求1所述的方法，其特征在于，在确定所述待识别的目标音频片段的目标角色是否为已经构建所述初始声纹模型的角色之前，所述方法还包括：将所述目标音频片段中的至少一个子音频片段进行声源定位，以得到所述子音频片段的声源位置，所述声源位置与所述子音频片段具有对应关系；根据所述声源位置，确定所述目标角色。4.根据权利要求2或3所述的方法，其特征在于，所述方法包括：在确定所述目标角色之后，对所述历史音频片段进行文字识别，得到所述历史音频片段对应的第一文字；对所述目标音频片段进行文字识别，得到所述目标音频片段对应的第二文字；比较所述第一文字与所述第二文字是否相同，以确定所述目标音频片段的所述目标角色是否识别正确。5.根据权利要求2或3所述的方法，其特征在于，所述方法包括：在确定所述目标角色之后，获取所述历史音频片段对应的第一音频波形图，其中，音频波形...

【专利技术属性】
技术研发人员：李志杰，李健，陈明，武卫东，
申请(专利权)人：北京捷通华声科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人