语音克隆方法、装置、存储介质及计算机设备制造方法及图纸

技术编号：40071214 阅读：7 留言：0更新日期：2024-01-17 00:12

本申请提供的语音克隆方法、装置、存储介质及计算机设备，当获取到目标用户输入的文本信息及待克隆的目标音色对应的音频信息后，可以通过语音克隆模型确定文本信息的音素序列、音素序列中每一音素的语义信息，以及音频信息的音频风格后进行语音合成，并在合成时，将文本信息与待克隆的目标语音进行对齐，这样克隆得到的目标语音既可以通过文本信息与目标语音对齐的方式来解决少批量数据进行语音克隆时的漏字问题，又可以通过音素序列中每一音素的语义信息来提高合成时的韵律和发音准确度，还可以通过目标音色的音频风格来提高合成时的情感自然度，进而达到较高的语音克隆效果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及语音克隆，尤其涉及一种语音克隆方法、装置、存储介质及计算机设备。

技术介绍

1、语音克隆是指对一个人的语音进行录制和处理，从而生成一个能够模拟出该人的语音的计算机程序。语音克隆技术可以根据用户的语音特征生成对应的语音模型，然后通过语音合成技术将文本转换成用户的语音，实现更加真实的语音交互。

2、目前，传统的语音克隆需要大量的数据集来训练模型，少批量数据会导致模型效果不佳。例如，当使用少批量的数据进行语音克隆时，存在发音准确度低，合成音频漏字、情感自然度差等问题。

技术实现思路

1、本申请的目的旨在至少能解决上述的技术缺陷之一，特别是现有技术中使用少批量的数据进行语音克隆时，存在发音准确度低，合成音频漏字、情感自然度差等问题的技术缺陷。

2、本申请提供了一种语音克隆方法，所述方法包括：

3、获取目标用户输入的文本信息及待克隆的目标音色对应的音频信息；

4、通过语音克隆模型确定所述文本信息的音素序列、所述音素序列中每一音素的语义信息，以及所述音频信息的音频风格后进行语音合成，并在合成时，将所述文本信息与待克隆的目标语音进行对齐，得到目标语音。

5、可选地，所述语音克隆模型包括音素生成模块；

6、所述通过语音克隆模型确定所述文本信息的音素序列，包括：

7、通过所述音素生成模块将所述文本信息转换为拼音后，将所述拼音转换为音素序列。

8、可选地，所述语音克隆模型包括语义生成模块；

...

【技术保护点】

1.一种语音克隆方法，其特征在于，所述方法包括：

2.根据权利要求1所述的语音克隆方法，其特征在于，所述语音克隆模型包括音素生成模块；

3.根据权利要求1所述的语音克隆方法，其特征在于，所述语音克隆模型包括语义生成模块；

4.根据权利要求1所述的语音克隆方法，其特征在于，所述语音克隆模型包括音频风格生成模块；

5.根据权利要求1所述的语音克隆方法，其特征在于，所述语音克隆模型包括随机时长预测器和目标时长帧预测模型；

6.根据权利要求5所述的语音克隆方法，其特征在于，所述目标时长帧预测模型的训练过程，包括：

7.根据权利要求1-6中任一项所述的语音克隆方法，其特征在于，所述语音克隆模型的确定过程，包括：

8.一种语音克隆装置，其特征在于，包括：

9.一种存储介质，其特征在于：所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至7中任一项所述语音克隆方法的步骤。

10.一种计算机设备，其特征在于，包括：一个或多个处理器，以及存储器；

...

【技术特征摘要】

1.一种语音克隆方法，其特征在于，所述方法包括：

2.根据权利要求1所述的语音克隆方法，其特征在于，所述语音克隆模型包括音素生成模块；

3.根据权利要求1所述的语音克隆方法，其特征在于，所述语音克隆模型包括语义生成模块；

4.根据权利要求1所述的语音克隆方法，其特征在于，所述语音克隆模型包括音频风格生成模块；

5.根据权利要求1所述的语音克隆方法，其特征在于，所述语音克隆模型包括随机时长预测器和目标时长帧预测模型；

6.根据权利要求5所述的语音...

【专利技术属性】
技术研发人员：周阳，熊佳，马金龙，黄祥康，盘子圣，徐志坚，谢睿，陈光尧，
申请(专利权)人：广州趣研网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人