【技术实现步骤摘要】
一种声纹向量提取方法、装置、设备及存储介质
本申请涉及声纹识别
,尤其涉及一种声纹向量提取方法、装置、设备及存储介质。
技术介绍
声纹识别技术又称说话人识别技术,其是利用人的声音来检测说话人的身份的技术。与其它生物识别技术相比,声纹识别技术利用语音信号进行身份确认,具有成本低廉、采集简便、易于存储、难于模仿、交互友好等特点,同时也可以通过电话或网络等方式进行远程操作,因此,声纹识别技术在经济、生活等很多领域都具有良好而广阔的应用前景。声纹识别技术的关键在于声纹向量的提取,从理论上说,对于文本无关的声纹识别任务而言,某条语音数据的时序信息无论如何变化,针对该条语音提取的声纹向量应该基本保持一致,这意味着,声纹向量提取方案应不受语音时序扰动的干扰,然而,目前尚不存在不受语音时序扰动干扰的声纹向量提取方案。
技术实现思路
有鉴于此,本申请提供了一种声纹向量提取方法、装置、设备及存储介质,该声纹向量提取方案不受语音时序扰动的干扰,其技术方案如下:一种声纹向量提取方法,包括:获取目标语 ...
【技术保护点】
1.一种声纹向量提取方法,其特征在于,包括:/n获取目标语音数据对应的语谱片段序列;/n基于所述语谱片段序列和预先建立的第一声纹提取模型,确定所述目标语音数据对应的声纹向量;/n其中,所述第一声纹提取模型以第一训练语谱片段为训练样本,采用第二声纹提取模型辅助训练得到,所述第一声纹提取模型的训练目标包括:使基于第一声纹向量针对设定身份标签预测的概率与基于第二声纹向量针对所述设定身份标签预测的概率趋于一致,所述第一声纹向量为所述第一声纹提取模型针对所述第一训练语谱片段提取的声纹向量,所述第二声纹向量为所述第二声纹提取模型针对第二训练语谱片段提取的声纹向量,所述第二训练语谱片段为 ...
【技术特征摘要】
1.一种声纹向量提取方法,其特征在于,包括:
获取目标语音数据对应的语谱片段序列;
基于所述语谱片段序列和预先建立的第一声纹提取模型,确定所述目标语音数据对应的声纹向量;
其中,所述第一声纹提取模型以第一训练语谱片段为训练样本,采用第二声纹提取模型辅助训练得到,所述第一声纹提取模型的训练目标包括:使基于第一声纹向量针对设定身份标签预测的概率与基于第二声纹向量针对所述设定身份标签预测的概率趋于一致,所述第一声纹向量为所述第一声纹提取模型针对所述第一训练语谱片段提取的声纹向量,所述第二声纹向量为所述第二声纹提取模型针对第二训练语谱片段提取的声纹向量,所述第二训练语谱片段为对所述第一训练语谱片段的时序进行打乱后的语谱片段。
2.根据权利要求1所述的声纹向量提取方法,其特征在于,所述第一声纹提取模型的训练目标还包括:
使基于所述第一声纹向量预测的身份标签与所述第一训练语谱片段对应的真实身份标签相同;
和/或,
使所述第一声纹向量与第三声纹向量的相似度高于所述第一声纹向量与第四声纹向量的相似度;其中,所述第三声纹向量为所述第一声纹提取模型针对对应的真实身份标签与所述第一训练语谱片段对应的真实身份标签相同的训练语谱片段提取的声纹向量,所述第四声纹向量为所述第一声纹提取模型针对对应的真实身份标签与所述第一训练语谱片段对应的真实身份标签不同的训练语谱片段提取的声纹向量。
3.根据权利要求1所述的声纹向量提取方法,其特征在于,建立所述第一声纹提取模型的过程包括:
将所述第一训练语谱片段输入第一声纹提取模型,得到所述第一声纹向量,根据所述第一声纹向量预测所述设定身份标签对应的概率,作为第一预测概率;
对所述第一训练语谱片段的时序进行打乱,将打乱时序后的语谱片段作为所述第二训练语谱片段输入所述第二声纹提取模型,得到所述第二声纹向量,根据所述第二声纹向量预测所述设定身份标签对应的概率,作为第二预测概率;
根据所述第一预测概率和所述第二预测概率,确定能够表征所述第一声纹提取模型与所述第二声纹提取模型对所述设定身份标签的预测差异的预测损失;
根据所述预测损失,更新第一声纹提取模型的参数。
4.根据权利要求3所述的声纹向量提取方法,其特征在于,所述第二训练语谱片段为多个;
对所述第一训练语谱片段的时序进行打乱,以得到多个第二训练语谱片段,包括:
基于多个不同的切分长度分别将所述第一训练语谱片段切分为语谱子片段,以得到分别对应于各切分长度的切分结果;
将对应于每个切分长度的切分结果中的语谱子片段打乱后重新组合,以得到多个第二训练语谱片段。
5.根据权利要求3所述的声纹向量提取方法,其特征在于,所述第二训练语谱片段为多个;
将所述第二训练语谱片段输入所述第二声纹提取模型,得到所述第二声纹向量,包括:
将多个第二训练语谱片段输入所述第二声纹提取模型;
由所述第二声纹提取模型将每个第二训练语谱片段映射为多个训练语谱子片段,以得到多个第二训练语谱片段分别对应的映射结果;
由所述第二声纹提取模型将多个第二训练语谱片段分别对应的映射结果中对应的训练语谱子片段融合,得到多个融合后训练语谱子片段;
由所述第二声纹提取模型对所述多个融合后训练语谱子片段进行处理,以得到所述第二声纹向量。
6.根据权利要求3所述的声纹向量提取方法,其特征在于,所述第一声纹提取模型和所述第二声纹提取模型均为卷积神经网络;<...
【专利技术属性】
技术研发人员:李晋,方昕,褚繁,高天,戴礼荣,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。