【技术实现步骤摘要】
语音合成方法及装置
[0001]本申请属于终端人工智能
及从文本到语音
,尤其涉及一种语音合成方法及装置。
技术介绍
[0002]随着人工智能技术的不断发展,终端设备不但可以接收用户发出的语音信息,还可以向用户播放语音信息,用户无需查阅终端设备展示的文字,仅通过听觉就可以获知终端设备展示的信息。
[0003]相关技术中,终端设备可以获取待转换文本,并对待转换文本进行特征提取,得到语言特征,再通过语言特征确定待转换文本对应的每个音素的音素时长,最后根据各个音素时长和语言特征生成语音数据。
[0004]但是,终端设备在合成语音数据的过程中,针对同一待转换文本,多次生成的语音数据均是相同的,导致语音合成过于机械化。
技术实现思路
[0005]本申请实施例提供了一种语音合成方法及装置,可以解决语音合成过于机械化的问题。
[0006]第一方面,本申请实施例提供了一种语音合成方法,包括:
[0007]确定待转换文本对应的每个音素的时长范围;
[0008]将每个所述音素的 ...
【技术保护点】
【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:确定待转换文本对应的每个音素的时长范围;将每个所述音素的时长范围中的任一时长,确定为相对应的音素的音素时长;根据所述待转换文本和每个所述音素的音素时长,生成语音数据。2.如权利要求1所述的语音合成方法,其特征在于,所述确定待转换文本对应的每个音素的时长范围,包括:确定所述待转换文本对应的每个所述音素的平均发音时长、发音时长方差和发音时长分布密度;根据每个所述音素的平均发音时长、发音时长方差和发音时长分布密度,确定每个所述音素的时长范围。3.如权利要求2所述的语音合成方法,其特征在于,所述确定所述待转换文本对应的每个所述音素的平均发音时长、发音时长方差和发音时长分布密度,包括:将所述待转换文本输入预先设置的文本分析模型,得到所述文本分析模型输出的每个所述音素的发音时长分布密度;将所述待转换文本输入预先设置的时长模型,得到所述时长模型输出的每个所述音素的平均发音时长和发音时长方差。4.如权利要求2所述的语音合成方法,其特征在于,所述根据每个所述音素的平均发音时长、发音时长方差和发音时长分布密度,确定每个所述音素的时长范围,包括:根据每个所述音素的平均发音时长、发音时长方差和发音时长分布密度,通过正态分布算法确定每个所述音素的时长范围。5.如权利要求1所述的语音合成方法,其特征在于,所述将每个所述音素的时长范围中的任一时长,确定为相对应的音素的音素时长,包括:对于每个所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。