【技术实现步骤摘要】
本专利技术涉及一种语音合成系统,具体地涉及基于混合隐马尔可夫 模型的语音合成系统。
技术介绍
语音合成系统又称文语转换系统(TTS系统),它的主要功能是将 计算机接收到的或输入的任意文字串转换成语音输出。传统的语音合 成系统是基于单元拼接的,其音质表现好,但是所需音库资源比较大, 导致其在嵌入式设备上的应用遇到瓶颈。而基于隐马尔可夫模型的语 音合成系统从本质上来说是一种参数合成系统,具有灵活性高和所需 存储资源小的优点。但是,由于其参数化的本质,其音质表现通常大 大逊于基于拼接的合成系统,这也正是当前基于隐马尔可夫模型的语 音合成系统难以大规模应用的瓶颈所在。基于隐马尔可夫模型的语音合成系统音质表现差的原因主要是来自于模型生成频谱参数的两个过平滑问题时域过平滑问题和频域过平滑问题。频域上的过平滑现象导致合成的语音共振峰不清晰,进 而导致了听感上的模糊。产生这种现象的原因是在传统基于隐马尔可 夫语音合成系统训练过程中,大量的统计操作使得高斯函数均值所表 征的频谱丢失了太多的细节信息。而时域上的过平滑现象则导致频谱 变化过程中损失了太多细节,这是由连续隐马尔可夫模型 ...
【技术保护点】
一种基于混合隐马尔可夫模型的语音合成系统,利用各种电脑终端及数字移动设备,将系统接收的或输入的任意文字串转换成语音输出,其特征在于:由频谱信息生成模块、基频信息生成模块、参数语音合成器模块、离线训练部分组成,其中: 具有一频谱信息生成 模块,输入端接收任意文本信息,负责根据指标来选取表征频谱信息的码本矢量并产生完整的频谱信息;具有一输出端输出完整的频谱信息; 具有一基频信息生成模块,输入端接收文本信息,负责预测待合成句子的音高变化;具有一输出端输出完整的基频曲线; 具有一参数语音合成器模块,输入端接收来自于频谱信息生成模块的频谱信息和来自于基频信息生 ...
【技术特征摘要】
1、一种基于混合隐马尔可夫模型的语音合成系统,利用各种电脑终端及数字移动设备,将系统接收的或输入的任意文字串转换成语音输出,其特征在于由频谱信息生成模块、基频信息生成模块、参数语音合成器模块、离线训练部分组成,其中具有一频谱信息生成模块,输入端接收任意文本信息,负责根据指标来选取表征频谱信息的码本矢量并产生完整的频谱信息;具有一输出端输出完整的频谱信息;具有一基频信息生成模块,输入端接收文本信息,负责预测待合成句子的音高变化;具有一输出端输出完整的基频曲线;具有一参数语音合成器模块,输入端接收来自于频谱信息生成模块的频谱信息和来自于基频信息生成模块的基频信息;具有一输出端输出合成的语音结果;具有一离线训练模块,负责各种隐马尔可夫模型的训练。2、 根据权利要求1所述的基于混合隐马尔可夫模型的语音合成系统,其特征在于所述频谱信息生成模块包括具有一隐马尔可夫模型映射模块,接受任意文本信息,将其表征 为带有韵律信息标注的音素序列,找到与其最符合的隐马尔可夫模型;具有一输出端输出隐马尔可夫模型状态序列;具有一离散隐马尔可夫模型模块,根据训练得到的离散隐马尔可 夫模型得到当前状态下码本矢量的输出概率;具有一输出端输出当前 状态下码本矢量的输出概率;根据该输出概率进行码本的选择,保证 码本选择的正确性;具有一有关共振峰轨迹的多空间概率隐马尔可夫模型模块,根据 训练得到的多空间概率隐马尔可夫模型得到当前状态下的共振峰轨 迹;具有一输出端输出当前状态下的共振峰轨迹;合成语音的共振峰 轨迹应该与该理想的共振峰轨迹相吻合,保证语音的清晰度;具有一拼接概率模块,具有一输出端输出相邻状态之间所有码本 矢量的输出概率;依据两两候选码本之间相邻的概率进行码本选择,使频谱在时域上具有多样性;具有一有关能量轨迹的连续隐马尔可夫模型模块,根据训练得到 的连续隐马尔可夫模型得到当前...
【专利技术属性】
技术研发人员:陶建华,于剑,张蒙,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。