声纹特征构建方法、身份识别方法及相关装置制造方法及图纸

技术编号:37620909 阅读:28 留言:0更新日期:2023-05-18 12:12
本申请公开了一种声纹特征构建方法、身份识别方法及相关装置。声纹特征构建方法包括:基于预设声纹聚类算法,从目标说话人对应的多个第一样本对话音频中确定候选对话音频;将候选对话音频划分为多个语音片段;通过语音识别模型对每个语音片段进行识别,得到每个语音片段对应的识别结果,每个语音片段对应的识别结果包括每个语音片段被识别为多个候选说话人中每个候选说话人的识别结果,多个候选说话人包括目标说话人;基于多个语音片段中每个语音片段分别对应的识别结果,删除候选对话音频的多个语音片段中的噪声语音片段,得到目标对话音频;基于目标对话音频构建目标说话人的参考声纹特征,并添加到构建声纹库。并添加到构建声纹库。并添加到构建声纹库。

【技术实现步骤摘要】
声纹特征构建方法、身份识别方法及相关装置


[0001]本申请涉及语音处理
,尤其涉及一种声纹特征构建方法、身份识别方法及相关装置。

技术介绍

[0002]随着声纹识别技术的发展,声纹识别作为可信的声纹特征认证技术,在身份认证、安全核身、电信欺诈等诸多领域和场景中都有广阔的应用前景。因此,构建声纹库对于声纹识别具有重要的意义。
[0003]相关技术中,主要通过对样本音频进行分割和说话人标注,然后对同一说话人的语音片段进行聚类,直接选取包含语音片段数量最多的聚类簇中语音片段的声纹特征,作为说话人的参考声纹特征,添加到声纹库中。但是,这种方式对语音分割、声纹提取以及聚类等每个环节都有较高的要求,任一环节的效果不佳,都会影响说话人的参考声纹特征的纯净度和鲁棒性,进而影响所构建的声纹库的准确性和可靠性。

技术实现思路

[0004]本申请实施例的目的是提供一种声纹特征构建方法、身份识别方法及相关装置,用于解决相关技术中的声纹特征构建方法无法保证参考声纹特征的纯净度和鲁棒性而导致所构建的声纹库准确性和可靠性低的问题。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声纹特征构建方法,其特征在于,包括:基于预设声纹聚类算法,从目标说话人对应的多个第一样本对话音频中确定候选对话音频;将所述候选对话音频划分为多个语音片段;通过语音识别模型对每个语音片段进行识别,得到每个语音片段对应的识别结果,每个语音片段对应的识别结果中包括所述每个语音片段被识别为属于多个候选说话人中每个候选说话人的识别结果;所述多个候选说话人包括所述目标说话人;基于所述多个语音片段中每个语音片段分别对应的识别结果,删除所述候选对话音频的多个语音片段中的噪声语音片段,得到目标对话音频;基于所述目标对话音频构建所述目标说话人的参考声纹特征,并添加到声纹库。2.根据权利要求1所述的方法,其特征在于,所述基于所述多个语音片段中每个语音片段对应的识别结果,删除所述候选对话音频中的多个语音片段中噪声语音片段,包括:基于每个语音片段对应的识别结果,从所述多个候选说话人中确定每个语音片段所属的候选说话人;基于所述每个语音片段所属的候选说话人,将所述多个语音片段中属于同一候选说话人的语音片段组成一个语音片段组,得到多个语音片段组;将所述多个语音片段组中,包含语音片段数量最多的一个语音片段组对应的候选说话人,作为所述候选对话音频所属的候选说话人,并确定所述多个语音片段中每个语音片段与所述候选对话音频所属的候选说话人对应的语音片段之间的相似度;基于所述每个语音片段与所述候选对话音频所属的候选说话人对应的语音片段之间的相似度,以及所述每个语音片段所属的候选说话人,从所述多个语音片段中确定噪声语音片段;删除所述候选对话音频中的噪声语音片段。3.根据权利要求2所述的方法,其特征在于,所述基于所述每个语音片段与所述候选对话音频所属的候选说话人对应的语音片段之间的相似度,以及所述每个语音片段所属的候选说话人,从所述多个语音片段中确定噪声语音片段,包括:若所述候选对话音频所属的候选说话人与所述目标说话人相同,则统计所述多个语音片段中第一类语音片段的数量;所述第一类语音片段是指所述多个语音片段中所属的候选说话人与所述目标说话人不同的语音片段;若所述第一类语音片段的数量大于或等于预设数量阈值,则将所述多个语音片段均作为噪声语音片段;如果所述第一类语音片段的数量小于预设数量阈值,则基于所述每个语音片段与所述候选对话音频所属的候选说话人对应的语音片段之间的相似度,从所述多个语音片段中确定第二类语音片段;所述第二类语音片段与所述候选对话音频所属的候选说话人对应的语音片段之间的相似度均小于预设相似度阈值;将所述第二语音片段确定为所述噪声语音片段。4.根据权利要求2所述的方法,其特征在于,所述基于所述每个语音片段与所述候选对话音频所属的候选说话人对应的语音片段之间的相似度,以及所述每个语音片段所属的候选说话人,从所述多个语音片段中确定噪声语音片段,包括:
若所述候选对话音频所属的候选说话人与所述目标说话人不同,则将所述多个语音片段均确定为所述噪声语音片段。5.根据权利要求1所述的方法,其特征在于,所述基于预设声纹聚类算法,从目标说话人对应的多个第一样本对话音频中确定候选对话音频,包括:基于预设声纹聚类算法,对所述多个第一样本对话音频进行聚类,得到多个聚类簇;从所述多个聚类簇中,选取所包含的第一样本对话音频数量最多的聚类簇,作为目标聚类簇;从所述目标聚类簇包含的第一样本对话音频中确定候选对话音频。6.根据权利要求5所述的方法,其特征在于,所述多个第一样本对话音频中每个第一样本对话音频均是基于目标...

【专利技术属性】
技术研发人员:陈燕丽蒋宁吴海英刘敏孟庆林
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1