基于隐马尔可夫模型状态映射的文本无关语音转换系统技术方案

技术编号：3853065 阅读：184 留言：0更新日期：2012-04-11 18:40

本发明专利技术基于隐马尔可夫模型状态映射的文本无关语音转换系统，由数据对齐模块接收源和目标说话人语音参数，根据音素信息对齐输入数据来生成状态对齐的数据对；频谱转换模型生成模块接收对齐过的数据对，根据数据建立基于源和目标说话人语音频谱参数转换模型；韵律转换模型生成模块接收对齐过的数据对，根据数据建立基于源和目标说话人语音韵律参数转换模型；在线转换模块根据频谱转换模型生成模块和韵律转换模型生成模块生成的转换模型和源说话人的待转换语音数据，得到转换后的语音频谱参数和韵律参数；参数语音合成器模块接收来自于在线转换模块的转换后的频谱信息和韵律信息，输出转换后的语音结果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种语音转换系统，具体地涉及基于隐马尔可夫模型状态映射的文本无关语音转换系统。
技术介绍
和谐人机交互技术一直都是人们关注的对象，面向个性化语音的语音转换技术是其重要组成部分，它能够对一个人的声音进行处理，使之变成另一个人的声音，其研究成果对个性化语音生成、人机对话等方向的发展具有重要的意义。而目前已有的大多数语音转换技术一般基于文本相关技术，这种技术必须要求源说话人和目标说话人提供文本相同的语音训练样本，又称其为平行语料训练方式。由于现实生活中，平行语料的要求较高，且要求技术使用者花费大量的精力去建立，因而极大的限制了已有语音转换技术的应用空间。与之相比，基于非平行语料的文本无关语音转换技术，将有效的解决这一难题。在建立语音转换模型过程中，一般首先需要构建一个源说话人和目标说话人的成对语音训练队列，用于模型的训练，在这样的语音队列中需要保证两个说话人的语音内容相同或相似。传统上，由于平行语料在发音内容上具有很好的对应性和一致性，很容易通过训练数据的对齐，来构建语音训练队列。非平行语料的情况要复杂的多，由于这种情况下，源说话人和目标说话人完全可以...

【技术保护点】
一种基于隐马尔可夫模型状态映射的文本无关语音转换系统，利用各种电脑终端及数字移动设备，将系统接收的源说话人语音输入转换成具有特定的目标说话人音色的语音输出，并且在训练过程中对训练文本没有要求，可任意输入训练语音，其特征在于：由数据对齐模块、频谱转换模型生成模块、韵律转换模型生成模块、在线转换模块、参数语音合成器模块组成，其中：具有一数据对齐模块，其输入端接收源和目标说话人的非平行语料数据，对两者语音数据进行匹配对齐，为语音转换中的转换模型训练部分提供训练数据对，频谱转换模型生成模块具有一输出端输出对齐的频谱信息训练数据对和韵律信息训练数据对信息；具有一频谱转换模型生成模块，其输入端接收来自数据...

【技术特征摘要】

【专利技术属性】
技术研发人员：陶建华，张蒙，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人