一种语音合成方法及装置制造方法及图纸

技术编号：19936675 阅读：35 留言：0更新日期：2018-12-29 05:26

本申请提出一种语音合成方法，包括：识别待处理的文本所包含的音素；根据所述待处理文本所包含的各个音素所在的文本场景，将所述待处理文本分割成文本片段；预测各个文本片段中的各个音素的发音持续时间、发音频率、音调和语调；根据所述各个文本片段中的各个音素的发音持续时间、发音频率、音调和语调，对所述待处理文本所包含的各个音素进行合并处理，得到与所述待处理文本对应的语音。上述方法在合成语音时，携带音调、语调信息，同时在对音素进行合并时，考虑了音素发音持续时间和发音频率，合成的语音包含了更过的自然语言信息，与真人发声更加接近。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音合成方法及装置
本申请涉及语音合成
，更具体的说，涉及一种语音合成方法及装置。
技术介绍
随着人工智能技术的快速发展和普及，建立一个有讲话能力的口语系统是必须的技术关键，是使电脑具备类似于人的说话能力，实现更智能化的人机交互的重要研究方向。其中，语音合成是使智能设备输出语音的重要处理环节。常用的语音合成处理方法是，在确定需要语音输出的文本内容后，对文本内容的声学特征进行处理，再以处理的声学特征进行语音合成，得到文本内容的发音。上述处理过程是基于文本标准发音的特征而进行处理，其语音合成结果是标准的机器语音，不会携带任何的感情色彩，这与真人发声的自然语言相差较大。
技术实现思路
基于上述现有技术的缺陷和不足，本申请提出一种语音合成方法及装置，能够使合成的语音更接近真人发声。一种语音合成方法，包括：识别待处理的文本所包含的音素；根据所述待处理文本所包含的各个音素所在的文本场景，将所述待处理文本分割成文本片段；预测各个文本片段中的各个音素的发音持续时间、发音频率、音调和语调；根据所述各个文本片段中的各个音素的发音持续时间、发音频率、音调和语调，对所述待处理文本所...

【技术保护点】
1.一种语音合成方法，其特征在于，包括：识别待处理的文本所包含的音素；根据所述待处理文本所包含的各个音素所在的文本场景，将所述待处理文本分割成文本片段；预测各个文本片段中的各个音素的发音持续时间、发音频率、音调和语调；根据所述各个文本片段中的各个音素的发音持续时间、发音频率、音调和语调，对所述待处理文本所包含的各个音素进行合并处理，得到与所述待处理文本对应的语音。

【技术特征摘要】
1.一种语音合成方法，其特征在于，包括：识别待处理的文本所包含的音素；根据所述待处理文本所包含的各个音素所在的文本场景，将所述待处理文本分割成文本片段；预测各个文本片段中的各个音素的发音持续时间、发音频率、音调和语调；根据所述各个文本片段中的各个音素的发音持续时间、发音频率、音调和语调，对所述待处理文本所包含的各个音素进行合并处理，得到与所述待处理文本对应的语音。2.根据权利要求1所述的方法，其特征在于，所述识别待处理的文本所包含的音素，包括：利用经过训练的音素识别模型，识别待处理的文本所包含的音素。3.根据权利要求1所述的方法，其特征在于，预测文本片段中的各个音素的发音持续时间，包括：预测文本片段中的相邻音素的交界点；根据预测的各个相邻音素的交界点，确定所述文本片段中的各个音素的发音持续时间。4.根据权利要求1所述的方法，其特征在于，所述根据所述各个文本片段中的各个音素的发音持续时间、发音频率、音调和语调，对所述待处理文本所包含的各个音素进行合并处理，包括：利用预设的WaveNet音频合成模型，根据所述各个文本片段中的各个音素的发音持续时间、发音频率、音调和语调，对所述待处理文本所包含的各个音素进行音频合成处理，得到与所述待处理文本对应的语音；其中，所述预设的WaveNet音频合成模型由人类朗读音源件训练得到。5.一种语音合成装置，其特征在于，包括：音素识别单元，用于识别待处理的文本所包含的音素；文本分割单元，用于根据所述待处理文本所包含的各个音素所在的文本场景，将所述待处理文本分割成文本片段；预测处...

【专利技术属性】
技术研发人员：陈长伟，杨晓亮，田丹，
申请(专利权)人：北京未来媒体科技股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人