一种语音转换方法、装置、设备及存储介质制造方法及图纸

技术编号：33274736 阅读：31 留言：0更新日期：2022-04-30 23:33

本发明专利技术提供了一种语音转换方法、装置、设备及存储介质，包括：基于目标语音确定与所述目标语音相对应的第一低维向量；分离所述第一低维向量以获取目标身份语音向量；基于样本身份语音向量以及目标身份语音向量确定最终转换语音。本发明专利技术不需要为系统增加额外的转换模型即可实现一对多的语音转换，同时由于采用计算梅尔频率倒谱系数MFCC特征偏移量而得到目标语音的方式，不需要大量平行语料做训练数据，降低了收集训练数据的难度；本发明专利技术可适用于客服平台，针对客服平台的语音转换功能声音单一的问题，采用一对多的语音转换技术增加客服系统可转换语音的种类，达到保护客户隐私的目的；本发明专利技术方便简单、功能强大，能有效快速的实现语音的转换。实现语音的转换。实现语音的转换。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音转换方法、装置、设备及存储介质

[0001]本专利技术涉及语音转换领域，尤其涉及一种语音转换方法、装置、设备及存储介质。

技术介绍

[0002]近年来人工智能技术发展迅速,同时人工智能的发展也给人们日常生活中带来了诸多便捷。语音转换作为人工智能中新兴起的一种技术,在电视电影配音、人工智能（AI）主播、隐私保护等领域有着广阔的应用。虽然语音转换技术出现时间较短,但是语音转换的发展速度却很迅速,经过三次的技术迭代,进入了发展的黄金时期。目前语音转换技术在流畅度和自然度上已经接近自然人声。
[0003]在客服平台中由于所有的通话语音都是公开的,做不到保护客户隐私的效果,因此一般都会在客服平台中嵌入语音转换功能,这样可以将客户的语音转换为特定的人声达到保护个人隐私的目的。
[0004]说话人识别（Speaker Recognition，SR）又称声纹识别，是利用语音信号中含有的特定说话人信息来识别说话者身份的一种生物认证技术。近年来，基于因子分析的身份认证矢量（identity vector，i
‑
vector）说话人建模方法的引入使得说话人识别系统的性能有了明显的提升。实验表明，在对说话人语音的因子分析中，通常信道子空间中会包含说话人的信息。因此，用一个低维的总变量空间来表示说话人子空间和信道子空间，并将说话人语音映射到该空间得到一个固定长度的矢量表征(即i
‑
vector)。基于i
‑
vector的说话人识别系统主要包括充分统计量提取、i/>‑
vector映射、似然比得分计算3个步骤。首先提取语音信号特征来训练表征语音空间的Gauss混合模型
‑
通用背景模型（Gaussianmixture model
‑
universal background model，GMM
‑
UBM）,利用训练好的通用背景模型计算每帧语音特征的充分统计量，并将该充分统计量映射到总变量空间得到每条说话人语音的i
‑
vector。最后利用概率线性鉴别式分析（probabilistic linear discriminant analysis，PLDA）模型对i
‑
vector建模并计算似然比得分，根据设定的阈值做出最终判决。
[0005]当前基于客服系统的语音转换功能都是基于一对一的语音转换,转换声音比较单调,如要添加转换语音需要额外添加模型,会占用较多的系统的空间,且每一个模型都要独立的训练,训练也会耗费很多的时间。而目前并没有一种能够解决上述技术问题的技术方案，具体的，并没有一种语音转换方法、装置、设备及存储介质。

技术实现思路

[0006]本专利技术的目的是提出一种语音转换方法，包括：基于目标语音确定与所述目标语音相对应的第一低维向量；分离所述第一低维向量以获取目标身份语音向量；基于样本身份语音向量以及目标身份语音向量确定最终转换语音。
[0007]根据本专利技术提供的一种语音转换方法，所述基于目标语音确定与所述目标语音相对应的第一低维向量，包括：
基于梅尔频率倒谱系数MFCC特征提取确定所述目标语音的MFCC特征；采用最大似然估计算法处理所述目标语音的MFCC特征确定所述目标语音所对应的超向量；压缩所述超向量以获取第一低维向量。
[0008]根据本专利技术提供的一种语音转换方法，所述分离所述第一低维向量以获取目标身份语音向量，包括：，其中，所述为第一低维向量，b为常量，S为线性变换，为语音内容相关项，为目标身份语音向量。
[0009]根据本专利技术提供的一种语音转换方法，所述基于样本身份语音向量以及目标身份语音向量确定最终转换语音，包括：确定所述样本身份语音向量与所述目标身份语音向量的差值；基于所述差值以及所述第一低维向量确定第三低维向量；基于所述第三低维向量确定最终转换语音。
[0010]根据本专利技术提供的一种语音转换方法，所述基于所述差值以及所述第一低维向量确定第三低维向量，包括：，其中，为第三低维向量，所述为第一低维向量，为样本身份语音向量，为目标身份语音向量，所述S为线性变换。
[0011]根据本专利技术提供的一种语音转换方法，在基于样本身份语音向量以及目标身份语音向量确定最终转换语音之前，包括：对样本语音采用高斯混合模型拟合出通用语音模型，所述通用语音模型至少包含MFCC特征，所述样本语音为融合多条语音的语音集；处理所述通用语音模型以确定多个第二低维向量，所述多个第二低维向量为与所述通用语音模型相对应的包含多条语音信息的向量；提取所述多个第二低维向量中任意一个第二低维向量的身份语音信息以获取样本身份语音向量。
[0012]根据本专利技术提供的一种语音转换方法，所述处理所述通用语音模型以确定多个第二低维向量，包括：采用最大似然估计算法确定通用语音模型中的每条语音的估计值,将所有估计值累加得到所有语音所对应的超向量；压缩所有语音所对应的超向量，以获取多个第二低维向量。
[0013]根据本专利技术提供的一种语音转换方法，所述提取所述多个第二低维向量中任意一个第二低维向量的身份语音信息以获取样本身份语音向量，包括：基于概率线性判别分析PLDA分离所述第二低维向量以获取多个候选身份语音向量；基于提取策略处理多个候选身份语音向量以获取样本身份语音向量。
[0014]根据本专利技术提供的一种语音转换方法，所述提取策略包括：随机提取；顺序提取；
指定提取。
[0015]根据本专利技术提供的一种语音转换方法，在基于目标语音确定与所述目标语音相对应的第一低维向量之前，包括：基于样本语音的被执行次数以及时间确定轮换频率；基于轮换频率以及样本语音集群判断是否更换样本语音，样本语音数据集群由多个样本语音组成。
[0016]本专利技术还提供了一种语音转换装置，包括：第一确定装置：基于目标语音确定与所述目标语音相对应的第一低维向量；获取装置：分离所述第一低维向量以获取目标身份语音向量；第二确定装置：基于样本身份语音向量以及目标身份语音向量确定最终转换语音。
[0017]本专利技术还提供了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现所述语音转换方法的步骤。
[0018]本专利技术还提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述语音转换方法的步骤。
[0019]本专利技术通过目标语音确定第一低维向量，并分离所述第一低维向量确定目标身份语音向量，基于样本身份语音向量以及目标身份语音向量确定第三低维向量，进而获取最终转换语音。与现有技术相比,本专利技术不需要为系统增加额外的转换模型即可实现一对多的语音转换,同时由于采用计算MFCC特征偏移量而得到目标语音的方式，不需要大量平行语料做训练数据，降低了收集训练数据的难度；本专利技术可适用于客服平台，针对客服平台的语音转换功能声音单一的问题,采用一对多的语音转换技术增加客服系统可转换本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音转换方法，其特征在于，包括：基于目标语音确定与所述目标语音相对应的第一低维向量；分离所述第一低维向量以获取目标身份语音向量；基于样本身份语音向量以及目标身份语音向量确定最终转换语音。2.根据权利要求1所述的方法，其特征在于，所述基于目标语音确定与所述目标语音相对应的第一低维向量，包括：基于梅尔频率倒谱系数MFCC特征提取确定所述目标语音的MFCC特征；采用最大似然估计算法处理所述目标语音的MFCC特征确定所述目标语音所对应的超向量；压缩所述超向量以获取第一低维向量。3.根据权利要求1所述的方法，其特征在于，所述分离所述第一低维向量以获取目标身份语音向量，包括：，其中，所述为第一低维向量，b为常量，S为线性变换，为语音内容相关项，为目标身份语音向量。4.根据权利要求1所述的方法，其特征在于，所述基于样本身份语音向量以及目标身份语音向量确定最终转换语音，包括：确定所述样本身份语音向量与所述目标身份语音向量的差值；基于所述差值以及所述第一低维向量确定第三低维向量；基于所述第三低维向量确定最终转换语音。5.根据权利要求4所述的方法，其特征在于，所述基于所述差值以及所述第一低维向量确定第三低维向量，包括：，其中，为第三低维向量，所述为第一低维向量，为样本身份语音向量，为目标身份语音向量，所述S为线性变换。6.根据权利要求1所述的方法，其特征在于，在基于样本身份语音向量以及目标身份语音向量确定最终转换语音之前，包括：对样本语音采用高斯混合模型拟合出通用语音模型，所述通用语音模型至少包含梅尔频率倒谱系数MFCC特征，所述样本语音为融合多条语音的语音集；处理所述通用语音模型以确定多个第二低维向量，所述多个第二低维向量为与所述通用语音模型相对应的包含多条语音信息的向量；提取所述多个第二低维...

【专利技术属性】
技术研发人员：胡明櫆，赵超，
申请(专利权)人：北京沃丰时代数据科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人