【技术实现步骤摘要】
一种语音合成方法及装置
本申请涉及语音合成
,更具体的说,涉及一种语音合成方法及装置。
技术介绍
随着人工智能技术的快速发展和普及,建立一个有讲话能力的口语系统是必须的技术关键,是使电脑具备类似于人的说话能力,实现更智能化的人机交互的重要研究方向。其中,语音合成是使智能设备输出语音的重要处理环节。常用的语音合成处理方法是,在确定需要语音输出的文本内容后,对文本内容的声学特征进行处理,再以处理的声学特征进行语音合成,得到文本内容的发音。上述处理过程是基于文本标准发音的特征而进行处理,其语音合成结果是标准的机器语音,不会携带任何的感情色彩,这与真人发声的自然语言相差较大。
技术实现思路
基于上述现有技术的缺陷和不足,本申请提出一种语音合成方法及装置,能够使合成的语音更接近真人发声。一种语音合成方法,包括:识别待处理的文本所包含的音素;根据所述待处理文本所包含的各个音素所在的文本场景,将所述待处理文本分割成文本片段;预测各个文本片段中的各个音素的发音持续时间、发音频率、音调和语调;根据所述各个文本片段中的各个音素的发音持续时间、发音频率、音调和语调,对所述待处理文本所 ...
【技术保护点】
1.一种语音合成方法,其特征在于,包括:识别待处理的文本所包含的音素;根据所述待处理文本所包含的各个音素所在的文本场景,将所述待处理文本分割成文本片段;预测各个文本片段中的各个音素的发音持续时间、发音频率、音调和语调;根据所述各个文本片段中的各个音素的发音持续时间、发音频率、音调和语调,对所述待处理文本所包含的各个音素进行合并处理,得到与所述待处理文本对应的语音。
【技术特征摘要】
1.一种语音合成方法,其特征在于,包括:识别待处理的文本所包含的音素;根据所述待处理文本所包含的各个音素所在的文本场景,将所述待处理文本分割成文本片段;预测各个文本片段中的各个音素的发音持续时间、发音频率、音调和语调;根据所述各个文本片段中的各个音素的发音持续时间、发音频率、音调和语调,对所述待处理文本所包含的各个音素进行合并处理,得到与所述待处理文本对应的语音。2.根据权利要求1所述的方法,其特征在于,所述识别待处理的文本所包含的音素,包括:利用经过训练的音素识别模型,识别待处理的文本所包含的音素。3.根据权利要求1所述的方法,其特征在于,预测文本片段中的各个音素的发音持续时间,包括:预测文本片段中的相邻音素的交界点;根据预测的各个相邻音素的交界点,确定所述文本片段中的各个音素的发音持续时间。4.根据权利要求1所述的方法,其特征在于,所述根据所述各个文本片段中的各个音素的发音持续时间、发音频率、音调和语调,对所述待处理文本所包含的各个音素进行合并处理,包括:利用预设的WaveNet音频合成模型,根据所述各个文本片段中的各个音素的发音持续时间、发音频率、音调和语调,对所述待处理文本所包含的各个音素进行音频合成处理,得到与所述待处理文本对应的语音;其中,所述预设的WaveNet音频合成模型由人类朗读音源件训练得到。5.一种语音合成装置,其特征在于,包括:音素识别单元,用于识别待处理的文本所包含的音素;文本分割单元,用于根据所述待处理文本所包含的各个音素所在的文本场景,将所述待处理文本分割成文本片段;预测处...
【专利技术属性】
技术研发人员:陈长伟,杨晓亮,田丹,
申请(专利权)人:北京未来媒体科技股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。