语音合成方法及系统技术方案

技术编号:14345700 阅读:94 留言:0更新日期:2017-01-04 16:52
本发明专利技术公开了一种语音合成方法及系统,该方法首先对待合成文本进行预处理,得到待合成文本的待合成单元序列及待合成单元的上下文相关信息;根据待合成单元的上下文相关信息从音库中获取待合成单元的最优备选语音单元,并进行拼接得到待合成单元序列的备选语音数据;然后获取测听人员对备选语音数据的测听结果;根据测听结果训练对应不同声学特征的修正模型;再根据修正模型及待合成单元的上下文信息重新从音库中获取各待合成单元的最优备选语音单元,并进行拼接得到优化后的语音数据;最后将所述优化后的语音数据作为所述待合成文本的合成语音数据输出。本发明专利技术可以准确地将人工主观听感融合到待合成文本的合成结果中,提升语音合成效果。

【技术实现步骤摘要】

本专利技术涉及语音合成
,具体涉及一种语音合成方法及系统
技术介绍
实现人机之间人性化、智能化的有效交互,构建高效自然的人机交流环境,已经成为当前信息技术应用和发展的迫切需求。语音合成技术作为人机交流的重要环节,可以将文字信息转化为自然的语音信号,赋予计算机像人一样自如说话的能力,改变了传统通过录音回放实现机器开口说话的繁琐操作。为了使合成语音更加自然,更符合人的主观听感,出现了融合人主观听感的语音合成方法,具体融合方法一般是分析人工主观测听结果来提升合成语音的自然度。现有的融合人主观听感的语音合成方法一般是通过预先收集大量合成语音及相应人工测听的反馈结果,训练分类模型,分类标签一般为合成正确数据与合成错误数据,利用所述分类模型找到待合成文本多组备选合成语音中最符合人听感的一组合成语音,作为待合成文本的最优合成结果。可见,所述方法主要依赖分类模型将人工测听的反馈结果融合到合成语音中。然而,由于现有合成系统合成语音时,合成错误的语音单元数远远少于合成正确的语音单元数,即训练分类模型的两类训练数据分布不均衡,从而导致训练得到的分类模型具有倾向性,将错误合成单元倾向正确合成单元,影响待合成文本最优合成结果的挑选。因此,如何准确地将人工主观听感融合到待合成文本的合成结果中,是提升语音合成效果亟待解决的问题。
技术实现思路
本专利技术实施例提供一种语音合成方法及系统,以准确地将人工主观听感融合到待合成文本的合成结果中,提升语音合成效果。为此,本专利技术实施例提供如下技术方案:一种语音合成方法,包括以下步骤:(1)接收待合成文本;(2)对所述待合成文本进行预处理,得到所述待合成文本的待合成单元序列及待合成单元的上下文相关信息;(3)根据所述待合成单元的上下文相关信息从音库中获取所述待合成单元序列中各待合成单元的最优备选语音单元;(4)依序将所有待合成单元的最优备选语音单元进行拼接,得到待合成单元序列的备选语音数据;(5)获取测听人员对所述备选语音数据的测听结果;(6)根据所述测听结果训练对应不同声学特征的修正模型;(7)根据所述修正模型及所述待合成单元的上下文信息重新从音库中获取所述待合成单元序列中各待合成单元的最优备选语音单元;(8)依序将重新获取的所有待合成单元的最优备选语音单元进行拼接,得到优化后的语音数据;(9)将所述优化后的语音数据作为所述待合成文本的合成语音数据输出。优选地,所述根据所述待合成单元的上下文相关信息从音库中获取所述待合成单元序列中各待合成单元的最优备选语音单元包括:从音库中获取所述待合成单元的备选语音单元序列;提取所述备选语音单元序列中各备选语音单元的声学特征,所述声学特征的类型包括以下任意一种或多种:频谱、基频、时长、拼接处频谱变化、拼接处基频变化;计算在所述上下文相关信息表征的环境下,备选语音单元的各声学特征相对目标模型的似然值的和,得到第一计算值;选取对应最大第一计算值的备选语音单元作为所述待合成单元的最优备选语音单元。优选地,所述测听结果包括:有错误语音数据;所述根据所述测听结果训练对应不同声学特征的修正模型包括:根据所述错误语音数据训练对应不同声学特征的错误空间模型;所述根据所述修正模型及所述待合成单元的上下文信息重新从音库中获取所述待合成单元序列中各待合成单元的最优备选语音单元包括:从音库中获取所述待合成单元的备选语音单元序列;提取所述备选语音单元序列中各备选语音单元的声学特征,所述声学特征的类型包括以下任意一种或多种:频谱、基频、时长、拼接处频谱变化、拼接处基频变化;计算在所述上下文相关信息表征的环境下,所述备选语音单元的各声学特征相对目标模型的似然值减去各声学特征相对所述错误空间模型的似然值的差值的总和,得到第二计算值;选取对应最大第二计算值的备选语音单元作为所述待合成单元的最优备选语音单元。优选地,所述测听结果包括:有错误语音数据和无错误语音数据;所述根据所述测听结果训练对应不同声学特征的修正模型包括:根据所述有错误语音数据训练对应不同声学特征的错误空间模型、以及根据所述无错误语音数据训练对应不同声学特征的正确空间模型;所述根据所述修正模型及所述待合成单元的上下文信息重新从音库中获取所述待合成单元序列中各待合成单元的最优备选语音单元包括:从音库中获取所述待合成单元的备选语音单元序列;提取所述备选语音单元序列中各备选语音单元的声学特征,所述声学特征的类型包括以下任意一种或多种:频谱、基频、时长、拼接处频谱变化、拼接处基频变化;计算在所述上下文相关信息表征的环境下,所述备选语音单元的各声学特征相对目标模型的似然值、加上相对正确空间模型的似然值、并减去相对错误空间模型的似然值的总和后,得到第三计算值;选取对应最大第三计算值的备选语音单元作为所述待合成单元的最优备选语音单元。优选地,所述测听结果包括:有错误语音数据及其错误类型,所述错误类型包括以下任意一种或多种:发音错误、音高错误、语速错误、发音平滑性错误、音高平滑性错误;所述根据所述测听结果训练对应不同声学特征的修正模型包括:根据相同错误类型的有错误语音数据训练对应该错误类型的错误空间模型;所述根据所述修正模型及所述待合成单元的上下文信息重新从音库中获取所述待合成单元序列中各待合成单元的最优备选语音单元包括:从音库中获取所述待合成单元的备选语音单元序列;提取所述备选语音单元序列中各备选语音单元的声学特征,所述声学特征的类型包括以下任意一种或多种:频谱、基频、时长、拼接处频谱变化、拼接处基频变化;计算在所述上下文相关信息表征的环境下,所述备选语音单元的各声学特征相对目标模型的似然值减去各声学特征相对每类错误空间模型的似然值的差值的和,得到第四计算值;选取对应最大第四计算值的备选语音单元作为所述待合成单元的最优备选语音单元。优选地,在步骤(8)和步骤(9)之间还包括:获取测听人员对所述优化后的语音数据的测听结果;判断所述测听结果是否达到要求;如果达到,则执行步骤(9);否则,返回步骤(6)。一种语音合成系统,包括:接收模块,用于接收待合成文本;预处理模块,用于对所述待合成文本进行预处理,得到所述待合成文本的待合成单元序列及待合成单元的上下文相关信息;第一挑选模块,用于根据所述待合成单元的上下文相关信息从音库中获取所述待合成单元序列中各待合成单元的最优备选语音单元;拼接模块,用于依序将所有待合成单元的最优备选语音单元进行拼接,得到待合成单元序列的备选语音数据;测听结果获取模块,用于获取测听人员对所述备选语音数据的测听结果;修正模型训练模块,用于根据所述测听结果训练对应不同声学特征的修正模型;第二挑选模块,用于根据所述修正模型及所述待合成单元的上下文信息重新从音库中获取所述待合成单元序列中各待合成单元的最优备选语音单元;所述拼接模块,还用于依序将重新获取的所有待合成单元的最优备选语音单元进行拼接,得到优化后的语音数据;输出模块,用于将所述优化后的语音数据作为所述待合成文本的合成语音数据输出。优选地,所述第一挑选模块包括:备选语音单元获取单元,用于从音库中获取所述待合成单元的备选语音单元序列;特征提取单元,用于提取所述备选语音单元序列中各备选语音单元的声学特征,所述声学特征的类型包括以下任意一种本文档来自技高网...
语音合成方法及系统

【技术保护点】
一种语音合成方法,其特征在于,包括以下步骤:(1)接收待合成文本;(2)对所述待合成文本进行预处理,得到所述待合成文本的待合成单元序列及待合成单元的上下文相关信息;(3)根据所述待合成单元的上下文相关信息从音库中获取所述待合成单元序列中各待合成单元的最优备选语音单元;(4)依序将所有待合成单元的最优备选语音单元进行拼接,得到待合成单元序列的备选语音数据;(5)获取测听人员对所述备选语音数据的测听结果;(6)根据所述测听结果训练对应不同声学特征的修正模型;(7)根据所述修正模型及所述待合成单元的上下文信息重新从音库中获取所述待合成单元序列中各待合成单元的最优备选语音单元;(8)依序将重新获取的所有待合成单元的最优备选语音单元进行拼接,得到优化后的语音数据;(9)将所述优化后的语音数据作为所述待合成文本的合成语音数据输出。

【技术特征摘要】
1.一种语音合成方法,其特征在于,包括以下步骤:(1)接收待合成文本;(2)对所述待合成文本进行预处理,得到所述待合成文本的待合成单元序列及待合成单元的上下文相关信息;(3)根据所述待合成单元的上下文相关信息从音库中获取所述待合成单元序列中各待合成单元的最优备选语音单元;(4)依序将所有待合成单元的最优备选语音单元进行拼接,得到待合成单元序列的备选语音数据;(5)获取测听人员对所述备选语音数据的测听结果;(6)根据所述测听结果训练对应不同声学特征的修正模型;(7)根据所述修正模型及所述待合成单元的上下文信息重新从音库中获取所述待合成单元序列中各待合成单元的最优备选语音单元;(8)依序将重新获取的所有待合成单元的最优备选语音单元进行拼接,得到优化后的语音数据;(9)将所述优化后的语音数据作为所述待合成文本的合成语音数据输出。2.根据权利要求1所述的方法,其特征在于,所述根据所述待合成单元的上下文相关信息从音库中获取所述待合成单元序列中各待合成单元的最优备选语音单元包括:从音库中获取所述待合成单元的备选语音单元序列;提取所述备选语音单元序列中各备选语音单元的声学特征,所述声学特征的类型包括以下任意一种或多种:频谱、基频、时长、拼接处频谱变化、拼接处基频变化;计算在所述上下文相关信息表征的环境下,备选语音单元的各声学特征相对目标模型的似然值的和,得到第一计算值;选取对应最大第一计算值的备选语音单元作为所述待合成单元的最优备
\t选语音单元。3.根据权利要求2所述的方法,其特征在于,所述测听结果包括:有错误语音数据;所述根据所述测听结果训练对应不同声学特征的修正模型包括:根据所述错误语音数据训练对应不同声学特征的错误空间模型;所述根据所述修正模型及所述待合成单元的上下文信息重新从音库中获取所述待合成单元序列中各待合成单元的最优备选语音单元包括:从音库中获取所述待合成单元的备选语音单元序列;提取所述备选语音单元序列中各备选语音单元的声学特征,所述声学特征的类型包括以下任意一种或多种:频谱、基频、时长、拼接处频谱变化、拼接处基频变化;计算在所述上下文相关信息表征的环境下,所述备选语音单元的各声学特征相对目标模型的似然值减去各声学特征相对所述错误空间模型的似然值的差值的总和,得到第二计算值;选取对应最大第二计算值的备选语音单元作为所述待合成单元的最优备选语音单元。4.根据权利要求2所述的方法,其特征在于,所述测听结果包括:有错误语音数据和无错误语音数据;所述根据所述测听结果训练对应不同声学特征的修正模型包括:根据所述有错误语音数据训练对应不同声学特征的错误空间模型、以及根据所述无错误语音数据训练对应不同声学特征的正确空间模型;所述根据所述修正模型及所述待合成单元的上下文信息重新从音库中获取所述待合成单元序列中各待合成单元的最优备选语音单元包括:从音库中获取所述待合成单元的备选语音单元序列;提取所述备选语音单元序列中各备选语音单元的声学特征,所述声学特征
\t的类型包括以下任意一种或多种:频谱、基频、时长、拼接处频谱变化、拼接处基频变化;计算在所述上下文相关信息表征的环境下,所述备选语音单元的各声学特征相对目标模型的似然值、加上相对正确空间模型的似然值、并减去相对错误空间模型的似然值的总和后,得到第三计算值;选取对应最大第三计算值的备选语音单元作为所述待合成单元的最优备选语音单元。5.根据权利要求2所述的方法,其特征在于,所述测听结果包括:有错误语音数据及其错误类型,所述错误类型包括以下任意一种或多种:发音错误、音高错误、语速错误、发音平滑性错误、音高平滑性错误;所述根据所述测听结果训练对应不同声学特征的修正模型包括:根据相同错误类型的有错误语音数据训练对应该错误类型的错误空间模型;所述根据所述修正模型及所述待合成单元的上下文信息重新从音库中获取所述待合成单元序列中各待合成单元的最优备选语音单元包括:从音库中获取所述待合成单元的备选语音单元序列;提取所述备选语音单元序列中各备选语音单元的声学特征,所述声学特征的类型包括以下任意一种或多种:频谱、基频、时长、拼接处频谱变化、拼接处基频变化;计算在所述上下文相关信息表征的环境下,所述备选语音单元的各声学特征相对目标模型的似然值减去各声学特征相对每类错误空间模型的似然值的差值的和,得到第四计算值;选取对应最大第四计算值的备选语音单元作为所述待合成单元的最优备选语音单元。6.根据权利要求1至5任一项所述的方法,其特征在于,在步骤(8)和
\t步骤(9)之间还包括:获取测听人员对所述优化后的语音数据的测听结果;判断所述测听结果是否达到要求;如果达到,则执行步骤(9);否则,返回步骤(6)。7.一种语音合成系统,其特征在于,包括:接收模块,...

【专利技术属性】
技术研发人员:夏咸军江源王影胡国平胡郁刘庆峰
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1