【技术实现步骤摘要】
一种融合语义信息的语音合成方法、系统
[0001]本申请涉及语音合成领域,尤其涉及一种融合语义信息的语音合成方法、系统。
技术介绍
[0002]语音合成技术也称为文本到语音(text
‑
to
‑
speech,TTS),目的是通过向设备输入文字,令其转化为人类可以听懂的流畅语音,这一技术是实现人机交互的重要部分,在语音助手、语音导航、智能机器人等方面已有广泛的应用。近几年,深度神经网络的发展使得端到端的语音合成方法成为了研究主流,许多优秀模型的合成语音已经非常接近人声。但是大多数的合成语音仍然存在声音机械、停顿不明确、表现力不足的问题。
[0003]为了合成出更贴近人生的语音,目前的主流方法中,韵律建模是一种比较有效的方法,韵律建模的目的是使模型学会预测韵律表征的能力,韵律建模有两种不同的方法,对于预测或提取的韵律表征,如果存在实际的物理意义且可以直接通过对数据的处理得到,例如,时长、能量、基频,称之为显式韵律建模;如果没有明显的物理意义,需要通过额外特征提取器得到,称之为隐式韵律建 ...
【技术保护点】
【技术特征摘要】
1.一种基于融合语义信息的语音合成的方法,其特征在于,包括如下步骤:数据准备,收集语音数据以及对应文本,对数据进行预处理提取音素序列、时长、能量、基频数据;模型构建,构建融合语义信息的语音合成模型;模型训练,输入真实音频对应的音素序列、时长、能量、基频数据对模型进行训练得到训练好的模型;模型测试,对训练好的模型从合成语音质量以及与语音说话人相似度两个方面进行评价打分,若打分结果满足条件,则使用该模型进行语音合成。2.根据权利要求1所述的基于融合语义信息的语音合成的方法,其特征在于,所述合成模型包括音素编码器、词编码器、词
‑
音素注意力、编码器、变量适配器以及梅尔谱解码器;所述音素编码器连接到词编码器,所述音素编码器和词编码器分别连接词
‑
音素注意力,词
‑
音素注意力连接编码器,编码器连接变量适配器,变量适配器连接梅尔谱解码器。3.根据权利要求1所述的基于融合语义信息的语音合成的方法,其特征在于,收集整理中文数据集AISHELL
‑
3以及英文数据集LibriTTS,对中文数据集AISHELL
‑
3以及英文数据集LibriTTS分别进行预处理,将AISHELL
‑
3音频对应的中文文本进行拼音化处理,得到文本为拼音的文本序列。4.根据权利要求1所述的基于融合语义信息的语音合成的方法,其特征在于,所述模型训练中使用Adam优化器。5.根据权利要求1所述的基于融合语义信息的语音合成的方法,其特征在于,所述打分包括得到10个不...
【专利技术属性】
技术研发人员:柯登峰,刘嗣平,张顺,杜宝乐,徐艳艳,
申请(专利权)人:广州九四智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。