一种基于HMM的歌曲合成方法及装置制造方法及图纸

技术编号:15865498 阅读:234 留言:0更新日期:2017-07-23 13:10
本发明专利技术公开了一种基于HMM的歌曲合成方法及装置,运用TTS(文语转换)技术,通过HTS(基于隐马尔可夫模型的语音合成系统),并利用STRAIGHT算法,以及建立了面向歌曲合成的基于HMM说话人相关的声学模型、歌曲的旋律控制模型,并进行了说话人自适应训练,实现了一种基于HMM的歌词到歌曲实时转换的个性化语音合成装置。本系统装置丰富了语音合成的研究内容,使合成的语音更具表现力与情感的表达;尤其是给具有音乐爱好者提供了歌曲制作、音乐处理等技术操作的学习机会;增加了人们可使用的社会资源,具有一定的实用价值和重要的意义。

【技术实现步骤摘要】
一种基于HMM的歌曲合成方法及装置
本专利技术涉及人机交互技术、文-语转换技术、语音合成技术等领域,具体涉及一种基于HMM的歌曲合成方法及装置。
技术介绍
随着信息技术的不断创新和完善,许多人机交互方面的音乐多媒体应用也逐渐走入我们的日常生活,例如计算机点歌、谱曲、修饰歌声,以及手机上的听歌识曲等。如何使计算机更加人性化,能够像人类一样“唱歌”,也就是说,已知简谱和歌词,计算机就可以自动产生美妙、动听的歌声已经成为一种新的需求。随着多媒体技术在娱乐领域的飞速发展,同时也为这一技术提供了更为广阔的应用空间。目前绝大多数音乐都是以数字格式来记录和传播的,譬如,WAV、MP3、MIDI、以及实时音乐广播等多种存储形式。和传统的音乐模式相比,数字音乐在制作、存储、发行等方面有着不可比拟的优势。通过计算机,创作者在谱曲的同时能够听到音乐作品的制作效果,对乐谱进行的任何修改操作都可以及时的反馈给创作者,不需要进行传统的排练、演奏、录制、编辑等一系列复杂的过程来处理音乐,极大的降低了音乐制作的周期和人力成本,同时也避免了作曲家在漫长的创作过程中失去偶然得到的创作灵感。语音合成技术是人机交互领域的一本文档来自技高网...
一种基于HMM的歌曲合成方法及装置

【技术保护点】
一种基于HMM的歌曲合成方法,其特征在于,包括以下步骤:A、分析语音和歌声在声学特征的差异性,建立歌声的旋律控制模型;B、建立面向歌曲合成的基于HMM的说话人相关的声学模型;C、利用基于HMM的语音合成系统合成出歌声。

【技术特征摘要】
1.一种基于HMM的歌曲合成方法,其特征在于,包括以下步骤:A、分析语音和歌声在声学特征的差异性,建立歌声的旋律控制模型;B、建立面向歌曲合成的基于HMM的说话人相关的声学模型;C、利用基于HMM的语音合成系统合成出歌声。2.根据权利要求1所述的一种基于HMM的歌曲合成方法,其特征在于,所述步骤A中所述分析语音和歌声在声学特征的差异性的具体步骤如下:a、运用时域分析法和频域分析法对语音信号进行谱分析,并将语音信号与歌声信号进行基频的对比分析;b、利用MIDI技术从MIDI系统中提取出所需要的乐谱信息;c、通过读取MIDI文件中提取的乐谱的旋律信息,分析其乐谱文件的结构特征,进而获得音乐参数信息,所述音乐参数信息包括通道标号、音符音高、键的速度、音符起始时间和音符持续时间。3.根据权利要求2所述的一种基于HMM的歌曲合成方法,其特征在于,所述步骤A中所述歌声的旋律控制模型包括基频控制模型和时长控制模型;利用基频控制模型将乐谱中的离散音高转换为连续的基频曲线,并利用时长控制模型获得歌唱音符的发音时长。4.根据权利要求1所述的一种基于HMM的歌曲合成方法,其特征在于,所述步骤B中所述建立面向歌曲合成的基于HMM的说话人相关的声学模型有如下步骤:a、利用说话人的语音语料,分析语音数据,得到语音数据中包括基频F0、时长、频谱SP和非周期索引AP的声学参数;并利用基于HMM的说话人自适应训练技术,训练获得混合语音的平均音模型;b、利用待合成的目标说话人的少量语音数据,通过说话人自适应变换技术,得到目标说话人的自适应声学模型,并对自适应模型进行修正与更新。5.根据权利要求4所述的一种基于HMM的歌曲合成方法,其特征在于,所述通过基于HMM的说话人自适应训练,训练得到混合语音的平均音模型包括如下步骤:a、对说话人的语料库和目标说话人的语料库数据进行语音分析,提取其声学参数:Mel倒谱系数,并计算它们的一阶差分和二阶差分;b、结合上下文属性集,进行HMM模型训练,训练频谱和基频参数的HMM模型以及状态时长参数的多分布半隐马尔科夫模型MSD-HSMM;c、利用少量目标说话人的语音库,进行说话人自适应训练,获得混合语音的平均音模型,从而得到上下文相关的MSD-HSMM模型。6.根据权利要求4所述的一种基于HMM的歌曲合成方法,其特征在于,所述利用待合成的目标说话人的少量语音数据,通过说话人自适应变换技术,得到目标说话人的自适应声学模型,并对自适应模型进行修正与更新,包括如下步骤:a、说话人自适应训练后,利用基于HSMM的CMLLR自适应算法,计算得到说话人转换的状态输出概率分布以及时长概率分布的均值向量和协方差矩阵,状态i下特征向量o和状态时长d的变换方程为:bi(o)=N(o;Aui-b,AΣiAT)=|A-1|N(Wξ;ui,Σi)pi(d)=N(d;αmi-β,ασi2α)=|α-1|N(αψ;mi,σi2)其中,ξ=[oT,1],ψ=[d,1]T,μi为状态输出分布的均值,mi为时长分布的均值,Σi为对角协方差矩阵,σi2为方差,W=[A-1b-1]为目标说话人状态输出概率密度分布的线性变换矩阵,X=[α-1,β-1]为状态时长概率密度分布的变换矩阵;b、通过基于HSMM的自适应变换算法,可对语音数据的频谱、基频和时长参数进行归一化和变换,对于长度为T的自适应数据O,可对变换Λ=(W,X)进行最大似然估计;c、采用最大后验MAP算法对语音的自适应模型进行了修正和更新,对于给定HSMM的参数集λ,若其前向概率和后向概率分别为:αt(i)和βt(i),则其在状态i下连续观测序列ot-d+1…ot的生成概率κtd(i)为:MAP估计描述如下:其中,和为线性回归变换后的均值向量,ω和τ分别为状态输出和时长分布的MAP估计参数,和为自适应均值向量和的加权平均MAP估计值。7.根据权利要求1所述的一种基于HMM的歌曲合成方法,其特征在于,...

【专利技术属性】
技术研发人员:杨鸿武赵娜冯欢甘振业
申请(专利权)人:西北师范大学
类型:发明
国别省市:甘肃,62

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1