声纹模型的处理方法与装置制造方法及图纸

技术编号:36517673 阅读:16 留言:0更新日期:2023-02-01 15:50
本申请提供了一种声纹模型的处理方法与装置,该方法包括:获取至少一个角色的历史音频片段,并构建角色对应的初始声纹模型;获取待识别的目标音频片段;确定待识别的目标音频片段的目标角色是否为已经构建初始声纹模型的角色;在目标角色是已经构建初始声纹模型的角色的情况下,对比目标音频片段与目标角色相同的角色的历史音频片段的质量,其中,音频片段的质量是根据音频参数确定的,音频参数包括以下至少之一:采样位数、采样频率、位速;在目标音频片段的质量优于历史音频片段的质量的情况下,采用目标音频片段对初始声纹模型再次进行训练,得到更新声纹模型,从而解决了现有技术声纹模型的识别准确率低的问题。技术声纹模型的识别准确率低的问题。技术声纹模型的识别准确率低的问题。

【技术实现步骤摘要】
声纹模型的处理方法与装置


[0001]本申请涉及声纹模型领域,具体而言,涉及一种声纹模型的处理方法、装置、计算机可读存储介质与处理器。

技术介绍

[0002]现有技术中,每个人的语音声学特征既有相对稳定性,又有变异性,不是绝对的、一成不变的,变异性可来自生理、病理、心理、模拟、伪装,也与环境干扰有关,比如同一个人的声音具有变异性,易受身体状况、年龄、情绪等的影响;比如不同的麦克风和信道对识别性能有影响;比如环境噪音对识别有干扰;又比如混合说话人的情形下人的声纹特征不易提取。
[0003]现有的角色分离技术包括:(1)基于提前录音的说话人语音注册声纹模型,然后基于注册的声纹模型进行角色分离;(2)使用手拉手麦克风并基于麦克风切换信号实现角色分离,其中声纹(Voiceprint)是用电声学仪器显示的携带言语信息的声波频谱。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程,不同的人在讲话时使用的发声器官(舌、牙齿、喉头、肺、鼻腔)在尺寸和形态方面有着很大的差异,所以任何两个人的声纹图谱都是不同的。由于每个人的发音器官都不尽相同,因此在一般情况下,人们仍能区别不同的人的声音或判断是否是同一人的声音。因此声纹也就成为一种鉴别说话人身份的识别手段。
[0004]现有的声纹模型在实际应用场景中使用易用性差,准备工作的实施成本太高,且在跨信道采音或者注册音频质量不高的情况下,会导致声纹模型的识别准确率低。
[0005]针对相关技术中存在的上述问题,目前尚未提出有效的解决方案。
专利技术内容
[0006]本申请的主要目的在于提供一种声纹模型的处理方法、装置、计算机可读存储介质与处理器,以解决现有技术中声纹模型的识别准确率低的问题。
[0007]为了实现上述目的,根据本申请的一个方面,提供了一种声纹模型的处理方法,包括:获取至少一个角色的历史音频片段,并构建角色对应的初始声纹模型,其中,一个初始声纹模型是通过对一个角色的一个历史音频片段训练得到的;获取待识别的目标音频片段;确定待识别的目标音频片段的目标角色是否为已经构建初始声纹模型的角色;在目标角色是已经构建初始声纹模型的角色的情况下,对比目标音频片段与目标角色相同的角色的历史音频片段的质量,其中,音频片段的质量是根据音频参数确定的,音频参数包括以下至少之一:采样位数、采样频率、位速;在目标音频片段的质量优于历史音频片段的质量的情况下,采用目标音频片段对初始声纹模型再次进行训练,得到更新声纹模型。
[0008]可选地,在确定待识别的目标音频片段的目标角色是否为已经构建初始声纹模型的角色之前,该方法还包括以下至少之一:采用声纹识别技术对目标音频片段进行识别,得到目标角色;根据广播目标音频片段的硬件设备的标识信息,确定目标角色,一个目标角色
对应一个硬件设备。
[0009]可选地,在确定待识别的目标音频片段的目标角色是否为已经构建初始声纹模型的角色之前,该方法还包括:将目标音频片段中的至少一个子音频片段进行声源定位,以得到子音频片段的声源位置,声源位置与子音频片段具有对应关系;根据声源位置,确定目标角色。
[0010]可选地,该方法包括:在确定目标角色之后,对历史音频片段进行文字识别,得到历史音频片段对应的第一文字;对目标音频片段进行文字识别,得到目标音频片段对应的第二文字;比较第一文字与第二文字是否相同,以确定目标音频片段的目标角色是否识别正确。
[0011]可选地,该方法包括:在确定目标角色之后,获取历史音频片段对应的第一音频波形图,其中,音频波形图用于表征由音频片段的振幅形成的图;获取目标音频片段对应的第二音频波形图;比较第一音频波形图与第二音频波形图是否相同,以确定目标音频片段的目标角色是否识别正确。
[0012]可选地,在确定待识别的目标音频片段的目标角色是否为已经构建初始声纹模型的角色之后,该方法包括:在目标角色不是已经构建初始声纹模型的角色的情况下,依据目标角色以及目标音频片段构建目标声纹模型。
[0013]可选地,在确定待识别的目标音频片段的目标角色是否为已经构建初始声纹模型的角色之后,该方法还包括:在已经构建的初始声纹模型对应的角色识别错误的情况下,对角色进行修改。
[0014]为了实现上述目的,根据本申请的一个方面,提供了一种声纹模型的处理装置,包括:第一获取单元,用于获取至少一个角色的历史音频片段,并构建角色对应的初始声纹模型,其中,一个初始声纹模型是通过对一个角色的一个历史音频片段训练得到的;第二获取单元,用于获取待识别的目标音频片段;第一确定单元,用于确定待识别的目标音频片段的目标角色是否为已经构建初始声纹模型的角色;对比单元,用于在目标角色是已经构建初始声纹模型的角色的情况下,对比目标音频片段与目标角色相同的角色的历史音频片段的质量,其中,音频片段的质量是根据音频参数确定的,音频参数包括以下至少之一:采样位数、采样频率、位速;训练单元,用于在目标音频片段的质量优于历史音频片段的质量的情况下,采用目标音频片段对初始声纹模型再次进行训练,得到更新声纹模型。
[0015]为了实现上述目的,根据本申请的另一方面,提供了一种计算机可读存储介质,该计算机可读存储介质包括存储的程序,其中,该程序执行任一种上述声纹模型的处理方法。
[0016]为了实现上述目的,根据本申请的另一方面,提供了一种处理器,处理器用于运行程序,其中,该程序执行任一种上述声纹模型的处理方法。
[0017]应用本申请的技术方案,通过获取至少一个角色的历史音频片段,并构建角色对应的初始声纹模型,其中,一个初始声纹模型是通过对一个角色的一个历史音频片段训练得到的;获取待识别的目标音频片段;确定待识别的目标音频片段的目标角色是否为已经构建初始声纹模型的角色;在目标角色是已经构建初始声纹模型的角色的情况下,对比目标音频片段与目标角色相同的角色的历史音频片段的质量,其中,音频片段的质量是根据音频参数确定的,音频参数包括以下至少之一:采样位数、采样频率、位速;在目标音频片段的质量优于历史音频片段的质量的情况下,采用目标音频片段对初始声纹模型再次进行训
练,得到更新声纹模型。在本方案中,依据角色和角色对应的历史音频片段构建初始声纹模型,确定待识别的目标音频片段的目标角色是否为已经构建初始声纹模型的角色,在目标角色为已经构建初始声纹模型的角色的情况下,比较目标音频片段的质量与历史音频片段的质量,在目标音频片段的质量优于历史音频片段的情况下,使用目标音频片段对声纹模型进行再次训练,得到更新后的声纹模型,通过使用质量更好的目标音频片段对声纹模型进行再次训练,对声纹模型进行优化操作,提高了声纹模型的识别准确率,解决了现有技术中声纹模型的识别准确率低的问题。
附图说明
[0018]构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0019]图1示出了根据本申请实施例的一种声纹模型的处理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声纹模型的处理方法,其特征在于,包括:获取至少一个角色的历史音频片段,并构建所述角色对应的初始声纹模型,其中,一个所述初始声纹模型是通过对一个所述角色的一个所述历史音频片段训练得到的;获取待识别的目标音频片段;确定所述待识别的目标音频片段的目标角色是否为已经构建所述初始声纹模型的角色;在所述目标角色是已经构建所述初始声纹模型的角色的情况下,对比所述目标音频片段与所述目标角色相同的角色的所述历史音频片段的质量,其中,音频片段的质量是根据音频参数确定的,所述音频参数包括以下至少之一:采样位数、采样频率、位速;在所述目标音频片段的质量优于所述历史音频片段的质量的情况下,采用所述目标音频片段对所述初始声纹模型再次进行训练,得到更新声纹模型。2.根据权利要求1所述的方法,其特征在于,在确定所述待识别的目标音频片段的目标角色是否为已经构建所述初始声纹模型的角色之前,所述方法还包括以下至少之一:采用声纹识别技术对所述目标音频片段进行识别,得到所述目标角色;根据广播所述目标音频片段的硬件设备的标识信息,确定所述目标角色,一个所述目标角色对应一个所述硬件设备。3.根据权利要求1所述的方法,其特征在于,在确定所述待识别的目标音频片段的目标角色是否为已经构建所述初始声纹模型的角色之前,所述方法还包括:将所述目标音频片段中的至少一个子音频片段进行声源定位,以得到所述子音频片段的声源位置,所述声源位置与所述子音频片段具有对应关系;根据所述声源位置,确定所述目标角色。4.根据权利要求2或3所述的方法,其特征在于,所述方法包括:在确定所述目标角色之后,对所述历史音频片段进行文字识别,得到所述历史音频片段对应的第一文字;对所述目标音频片段进行文字识别,得到所述目标音频片段对应的第二文字;比较所述第一文字与所述第二文字是否相同,以确定所述目标音频片段的所述目标角色是否识别正确。5.根据权利要求2或3所述的方法,其特征在于,所述方法包括:在确定所述目标角色之后,获取所述历史音频片段对应的第一音频波形图,其中,音频波形...

【专利技术属性】
技术研发人员:李志杰李健陈明武卫东
申请(专利权)人:北京捷通华声科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1