一种语音转换方法及相关设备技术

技术编号：41275111 阅读：4 留言：0更新日期：2024-05-11 09:27

本申请提供了一种语音转换方法及相关设备，应用于音频领域。该方法包括：获取源说话人语音和目标说话人样例语音，确定源说话人语音的内容和节奏，基于目标说话人样例语音确定目标说话人的声纹特征，再根据内容和节奏，以及声纹特征，得到目标说话人语音。通过对齐目标说话人语音和源说话人语音的节奏，能够提升源说话人语音和目标说话人语音的相似性，相比于目前没有考虑到节奏的语音转换方法，能够提升语音转换的效果，使得转换后的语音在听感上更加自然，提升用户体验。在一些实施例中，利用基于布朗桥的扩散模型得到目标说话人语音。相比于一般的扩散模型从高斯噪声开始推理以得到目标说话人语音，能够节省推理步数从而节省算力和推理时间。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及终端，尤其涉及一种语音转换方法及相关设备。

技术介绍

1、语音转换算法，通过对源说话人的一段语音进行转换，在保留源说话人的语音的内容不变的情况下，得到目标说话人的一段语音，或者说，使转换后的语音听起来像目标说话人的声音。

2、目前，主要通过基于平行数据训练得到的神经网络进行语音转换，该神经网络能够将源说话人的语音映射到目标说话人的语音。该方式，若要获得一定量的平行数据，成本较高；且只能得到平行数据中提供的目标说话人的语音，有限的目标说话人限制了语音转换算法的趣味性。

3、因此，如何在提升语音转换效果的同时节省成本，成为亟待解决的问题。

技术实现思路

1、本申请提供了一种语音转换方法及相关设备，能够提升语音转换效果的同时节省成本。

2、第一方面，提供一种语音转换方法，应用于电子设备，方法包括：获取待处理的源说话人语音和目标说话人样例语音；根据源说话人语音，得到内容信息，内容信息指示源说话人语音的内容；根据源说话人语音，得到时序信息，时序信息指示源说话人语音的节奏；根据目标说话人样例语音，得到目标说话人的声纹特征；根据内容信息、时序信息以及声纹特征，得到目标说话人语音特征，目标说话人语音特征为符合内容、节奏以及声纹特征的目标梅尔谱；基于声码器，对目标说话人语音特征进行解码处理，得到目标说话人语音。

3、可以理解，基于源说话语音的节奏生成目标说话人语音，能使得目标说话人语音和源说话人语音的节奏一致（或几乎一致）。

4、

5、相比于基于平行数据训练的神经网络进行语音转换的方法，由于不需要基于平行数据进行训练，降低了成本；由于不限制目标说话人的类型，提升了语音转换的趣味性。

6、在一种可能的实施例中，节奏包括语速和重音，时序信息包括源说话人语音的音长特征和音强特征，音长特征指示语速，音强特征指示重音。

7、也就是说，基于音长和音强这两个语音要素，在语音转换时实现节奏的把控，提升语音转换的效果。

8、在一种可能的实施例中，根据源说话人语音，得到时序信息，包括：根据源说话人语音，得到源说话人语音的源梅尔谱；针对源梅尔谱的时间维度的每个时间帧，在梅尔谱的频率维度计算平均梅尔频率，并将平均梅尔频率作为每个时间帧对应的梅尔时频点的梅尔频率的值，得到时序信息谱，时序信息谱指示时序信息。

9、可理解，相比于通过梅尔谱生成梅尔倒谱系数，并由梅尔倒谱系数体现源说话人语音的音色和节奏的方案，上述方案通过一系列处理，主要保留了源说话人语音的节奏，以便于与目标说话人的声纹特征相结合，得到符合目标说话人的音色和音高，且符合源说话人语音节奏的目标说话人语音，能够提升语音转换的效果。

10、在一种可能的实施例中，时序信息谱中，相邻的两个时间帧的亮度的差值小于第一阈值的情况下，相邻的两个时间帧用于表征源说话人语音的同一个语音元素持续的时间长度；或者，时序信息谱中，相邻的两个时间帧的亮度的差值大于或等于第一阈值的情况下，两个时间帧中的每个时间帧用于表征源说话人语音的不同的语音元素持续的时间长度；其中，语音元素包括音节或字或词。

11、可理解，基于时序信息谱的特征与音强和音长的对应关系，以便于根据源说话人语音的节奏生成目标说话人语音，使得转换后的语音在听感上更加自然，从而提升用户体验。

12、在一种可能的实施例中，声纹特征包括音高特征和/或音色特征。

13、还可以理解，本申请中，声纹特征优选包括音高和音色，或者，声纹特征优选不包括音强和音长。目标说话人的声纹特质，可以理解为目标说话人声音的特质。一段语言中的部分字词或部分音节的音长和音强，很容易受语种的习惯以及个人的习惯影响，而有所不同。也就是说，语音的节奏很容易受个人习惯或语种的习惯影响。

14、示例性的，在源说话人语音和目标说话人样例语音的语言种类不同的情况下，如果声纹特征包括音长和音强，很可能使得转换后的语音不够自然，甚至可能语义表达不够准确。比如，源说话人语音是汉语，目标说话人样例语音是英文，说汉语时的节奏与说英语时的节奏不同，若根据英文的节奏生成目标说话人语音，很容易让人觉得汉语说得不地道。再比如，源说话人语音是英文，目标说话人样例语音是汉语，若根据汉语的节奏生成目标说话人语音，很可能使得一些单词的音长或重音不符合内容信息指示的英文，从而，轻则语音不够自然，重则可能语义表达不够准确。

15、因此，在本申请中，声纹特征优选不包括音强和音长，以尽可能减少或避免目标说话人的音强和音长对源说话人语音的节奏的影响，提升目标说话人语音与源说话人语音的相似度，提升语音转换的效果。

16、在一种可能的实施例中，所述电子设备提供可供用户上传所述目标说话人样例语音的功能入口，所述电子设备基于所述功能入口检测到用户上传的所述目标说话人样例语音。也就是说，目标说话人样例语音不属于电子设备为用户提供的样例语音列表，样例语音列表预先设置在终端设备，样例语音列表包括一种或多种可供用户选择的目标说话人样例语音，目标说话人样例语音是用户提供的。

17、可理解，目标说话人样例语音可以是预配置在终端设备的，也可以是由用户提供的。例如，终端设备为用户提供可选择的样例语音列表，响应于用户在样例语音列表中选择感兴趣的目标说话人的操作，确定目标说话人样例语音。例如用户可以上传提前录制好的目标说话人样例语音（例如可以是用户录制的也可以是用户从网络下载的），或者，在语音转换之前由终端设备实时录制一段目标说话人样例语音。

18、也就是说，本申请可以由用户自由提供目标说话人样例语音，而不限制目标说话人的类型，从而相比于基于平行训练数据训练得到神经网络的方案，能够提升语音转换的趣味性和用户自由度，从而提升用户体验。

19、在一种可能的实施例中，根据内容信息、时序信息以及声纹特征，得到目标说话人语音特征，包括：利用基于布朗桥的扩散模型对内容信息、时序信息以及声纹特征进行处理，得到目标说话人语音特征，时序信息是基于源说话人语音的源梅尔谱得到的，源梅尔谱是基于源说话人语音得到的。

20、可理解，通过将时序信息等数据输入基于布朗桥的扩散模型得到目标说话人语音特征，而不是像一般的扩散模型的处理流程一样，将高斯噪声输入扩散模型得到目标说话人语音特征。由于时序信息已经包含最终要得到的目标说话人语音特征中的部分特征，相比于一般的扩散模型，能够节省推理步数从而节省算力和推理时间，并且能够体现出源说话人语音的节奏，因此能够进一步语音转换的效果，从而进一步提升用户体验。

21、并且，扩散模型的训练过程中不需要将平行数据作为训练数据集，相比于基于平行训练数据训练得到神经网络的方案，能够降本文档来自技高网...

【技术保护点】

1.一种语音转换方法，应用于电子设备，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述节奏包括语速和重音，所述时序信息包括所述源说话人语音的音长特征和音强特征，所述音长特征指示所述语速，所述音强特征指示所述重音。

3.如权利要求1或2所述的方法，其特征在于，所述根据所述源说话人语音，得到时序信息，包括：

4.如权利要求3所述的方法，其特征在于，所述时序信息谱中，第一时间帧对应的时序点的亮度，表征所述源说话人语音在第二时间帧的音强，所述第一时间帧与所述第二时间帧对应；

5.如权利要求1或2所述的方法，其特征在于，所述根据所述内容信息、所述时序信息以及所述声纹特征，得到目标说话人语音特征，包括：

6.如权利要求5所述的方法，其特征在于，所述利用基于布朗桥的扩散模型对所述内容信息、所述时序信息以及所述声纹特征进行处理，得到所述目标说话人语音特征，包括：

7.如权利要求6所述的方法，其特征在于，所述根据所述内容信息、所述时序信息以及所述声纹特征计算待采样梯度，包括：

8.如权利要求

9.如权利要求6所述的方法，其特征在于，所述根据所述采样信号、所述内容信息、所述时序信息以及所述声纹特征计算待校正梯度，包括：

10.如权利要求1所述的方法，其特征在于，所述声纹特征包括音高特征和/或音色特征。

11.如权利要求1或2所述的方法，其特征在于，所述电子设备提供可供用户上传所述目标说话人样例语音的功能入口，所述电子设备基于所述功能入口检测到用户上传的所述目标说话人样例语音。

12.如权利要求8所述的方法，其特征在于，所述扩散模型的处理包括：预测N次采样信号以及进行N次校正处理，1≤n≤N，n和N均为正整数；

13.如权利要求12所述的方法，其特征在于，n=N的情况下，所述根据所述第n个校正信号，得到第n个目标说话人语音特征，包括：

14.一种电子设备，其特征在于，所述电子设备包括：一个或多个处理器，以及存储器；

15.一种芯片系统，其特征在于，所述芯片系统应用于电子设备，所述芯片系统包括一个或多个处理器，所述一个或多个处理器用于调用计算机指令以使得所述电子设备执行如权利要求1至13中任一项所述的方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括指令，当所述指令在电子设备上运行时，使得所述电子设备执行如权利要求1至13中任一项所述的方法。

...

【技术特征摘要】

1.一种语音转换方法，应用于电子设备，其特征在于，所述方法包括：

3.如权利要求1或2所述的方法，其特征在于，所述根据所述源说话人语音，得到时序信息，包括：

5.如权利要求1或2所述的方法，其特征在于，所述根据所述内容信息、所述时序信息以及所述声纹特征，得到目标说话人语音特征，包括：

7.如权利要求6所述的方法，其特征在于，所述根据所述内容信息、所述时序信息以及所述声纹特征计算待采样梯度，包括：

8.如权利要求6所述的方法，其特征在于，所述根据所述待采样梯度以及第一高斯噪声，预测采样信号，包括：

9.如权利要求6所述的方法，其特征在于，...

【专利技术属性】
技术研发人员：王泰辉，夏日升，石强，
申请(专利权)人：荣耀终端有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人