一种语音生成方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：43483553 阅读：21 留言：0更新日期：2024-11-29 16:55

本发明专利技术公开了一种语音生成方法、装置、电子设备及可读存储介质，属于人工智能技术领域，包括将文本文件输入语音生成模型；将文本转化为音素文件；提取每个音素的时间长度，并对各音素按文本文件文字内容顺序排列；判断每个音素前后是否需要插入音素间隔特征，所述音素间隔特征包括音素延长音或每个音素前后的空白音中的至少一种；判断每个音素前后是否需要插入语言习惯特征，所述语言习惯特征为整个文本文件语言环境中，每个音素前后的口癖习惯；根据的生成结果合成语音文件。在本发明专利技术的方案中，在音素级别特征合成语音前，判断每个音素前后是否需要插入音素延长音或空白音或口癖习惯，可以有效的确保生成语音的拟人程度，提升用户的使用体验。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能，特别是涉及一种语音生成方法、装置、电子设备及可读存储介质。

技术介绍

1、语音生成模型通过对语音合成模型对应神经网络进行训练生成。由于个体或各地域的差异化，使得现有语音生成模型无法很好的表现出带有特色语言习惯的输出结果，使得用户在使用过程中无法得到想要的语音效果，因此，需要一种新的技术以解决上述问题。

技术实现思路

1、本专利技术的目的在于提供一种语音生成方法、装置、电子设备及可读存储介质，以解决上述
技术介绍
中提出的问题。

2、为实现上述目的，本专利技术采用的一个技术方案是：一种语音生成方法，包括以下步骤：

3、s1：将文本文件输入语音生成模型；

4、s2：将文本转化为音素文件；

5、s3：提取每个音素的时间长度，并对各音素按文本文件文字内容顺序排列；

6、s4：判断每个音素前后是否需要插入音素间隔特征，所述音素间隔特征包括音素延长音或每个音素前后的空白音中的至少一种；

7、s5：判断每个音素前...

【技术保护点】

1.一种语音生成方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种语音生成方法，其特征在于：所述语音生成模型包括对音素间隔特征的训练以及对语言习惯特征的训练，其训练方法如下：

3.根据权利要求2所述的一种语音生成方法，其特征在于：在S03步骤中，在得到满足置信水平的口癖习惯的集合后，需通过人工验证方式确定该口癖习惯是否为真实口癖习惯。

4.根据权利要求2所述的一种语音生成方法，其特征在于：在S03和S05步骤中，需对每个口癖特征的音素、间隙时长二中的音素延长音进行特征统一，所述特征统一的步骤如下：

5.根据权利要求4所述的一种语...

【技术特征摘要】

1.一种语音生成方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种语音生成方法，其特征在于：所述语音生成模型包括对音素间隔特征的训练以及对语言习惯特征的训练，其训练方法如下：

3.根据权利要求2所述的一种语音生成方法，其特征在于：在s03步骤中，在得到满足置信水平的口癖习惯的集合后，需通过人工验证方式确定该口癖习惯是否为真实口癖习惯。

4.根据权利要求2所述的一种语音生成方法，其特征在于：在s03和s05步骤中，需对每个口癖特征的音素、间隙时长二中的音素延长音进行特征统一，所述特征统一的步骤如下：

5.根据权利要求4所述的一种语音生成方法，其特征在于：在sa2步骤中，需要对组内...

【专利技术属性】
技术研发人员：周乃杰，
申请(专利权)人：星创艺昆山文娱有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人