语音合成方法及装置制造方法及图纸

技术编号：31371567 阅读：30 留言：0更新日期：2021-12-15 10:11

本申请适用于终端人工智能技术领域及从文本到语音技术领域，提供了一种语音合成方法及装置，包括：确定待转换文本对应的每个音素的时长范围；将每个所述音素的时长范围中的任一时长，确定为相对应的音素的音素时长；根据所述待转换文本和每个音素的音素时长，生成语音数据。针对相同待转换文本的多个语音数据，多个语音数据中同一音素的音素时长可能基于相同的时长范围取值不同，则可以合成得到多种不同的语音数据，避免了针对同一待转换文本每次合成得到相同的语音数据，降低了语音合成的机械性，提高了语音合成的自然度和多样性。提高了语音合成的自然度和多样性。提高了语音合成的自然度和多样性。

全部详细技术资料下载

【技术实现步骤摘要】
语音合成方法及装置

[0001]本申请属于终端人工智能
及从文本到语音
，尤其涉及一种语音合成方法及装置。

技术介绍

[0002]随着人工智能技术的不断发展，终端设备不但可以接收用户发出的语音信息，还可以向用户播放语音信息，用户无需查阅终端设备展示的文字，仅通过听觉就可以获知终端设备展示的信息。
[0003]相关技术中，终端设备可以获取待转换文本，并对待转换文本进行特征提取，得到语言特征，再通过语言特征确定待转换文本对应的每个音素的音素时长，最后根据各个音素时长和语言特征生成语音数据。
[0004]但是，终端设备在合成语音数据的过程中，针对同一待转换文本，多次生成的语音数据均是相同的，导致语音合成过于机械化。

技术实现思路

[0005]本申请实施例提供了一种语音合成方法及装置，可以解决语音合成过于机械化的问题。
[0006]第一方面，本申请实施例提供了一种语音合成方法，包括：
[0007]确定待转换文本对应的每个音素的时长范围；
[0008]将每个所述音素的...

【技术保护点】

【技术特征摘要】
1.一种语音合成方法，其特征在于，包括：确定待转换文本对应的每个音素的时长范围；将每个所述音素的时长范围中的任一时长，确定为相对应的音素的音素时长；根据所述待转换文本和每个所述音素的音素时长，生成语音数据。2.如权利要求1所述的语音合成方法，其特征在于，所述确定待转换文本对应的每个音素的时长范围，包括：确定所述待转换文本对应的每个所述音素的平均发音时长、发音时长方差和发音时长分布密度；根据每个所述音素的平均发音时长、发音时长方差和发音时长分布密度，确定每个所述音素的时长范围。3.如权利要求2所述的语音合成方法，其特征在于，所述确定所述待转换文本对应的每个所述音素的平均发音时长、发音时长方差和发音时长分布密度，包括：将所述待转换文本输入预先设置的文本分析模型，得到所述文本分析模型输出的每个所述音素的发音时长分布密度；将所述待转换文本输入预先设置的时长模型，得到所述时长模型输出的每个所述音素的平均发音时长和发音时长方差。4.如权利要求2所述的语音合成方法，其特征在于，所述根据每个所述音素的平均发音时长、发音时长方差和发音时长分布密度，确定每个所述音素的时长范围，包括：根据每个所述音素的平均发音时长、发音时长方差和发音时长分布密度，通过正态分布算法确定每个所述音素的时长范围。5.如权利要求1所述的语音合成方法，其特征在于，所述将每个所述音素的时长范围中的任一时长，确定为相对应的音素的音素时长，包括：对于每个所述...

【专利技术属性】
技术研发人员：别凡虎，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人