本发明专利技术涉及一种基于特征金字塔的文本驱动语音合成方法,属于语音信号处理和人工智能技术领域。本方法从音频频谱图中提取能量和音高的特征信息,分别以均方根能量和基音频率进行提取,对应于响度和音调的声音元素,作为底层特征。同时,从通过继承音色的声音元素的梅尔谱图的时频分析得到时频信息,分别以过零率与谱质心进行提取,作为高层特征。然后,将底层特征和高层特征以金字塔形式融合,得到说话人的综合语音表征。本方法能够有效提取能量与音高的有效值,使数据描述结果更加合理与稳定。在时频特征的计算中采用梅尔谱图,可以有效描述声音的音色。在特征的联合中采用金字塔的方式,可以对多层特征准确描述,能够准确反映说话人的语音特征。话人的语音特征。话人的语音特征。
【技术实现步骤摘要】
一种基于特征金字塔的文本驱动语音合成方法
[0001]本专利技术涉及一种文本驱动语音合成的方法,特别涉及一种基于特征金字塔的文本驱动语音合成方法,属于语音信号处理和人工智能
技术介绍
[0002]语音合成,又称文语转换(Text To Speech,TTS),是一种可以将任意输入文本转换成相应语音的技术。文本到语音(TTS)合成,是从文本生成合成语音的活跃研究领域,在语音助手、视频配音和数字人类许多应用中非常有用。由于TTS过程本质上是一种跨模态转换,因此,需要采用一种机制来保留合成语音中说话者的语音特征。否则,合成的语音可能会因中性风格而导致低质量的语音。
[0003]为了解决这个技术问题,国内外技术人员开展了大量研究,提出了许多用于文本到语音合成的方法。根据语音特征表示及其用途,现有的方法可大致分为三类:传统方法、基于深度学习的方法以及传统与深度学习相结合的方法。
[0004]传统方法求助于复杂的TTS模型,例如:使用波形拼接(J.Kala and J.Matou
ˇ
sek,“Very fast unit selection using viterbi search with zero
‑
concatenation
‑
cost chains,”in 2014IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2014,pp.2569
–
2573.)和统计参数(N.Narendra and K.S.Rao,“Syllable specific unit selection cost functions for text
‑
to
‑
speech synthesis,”ACM Transactions on Speech and Language Processing(TSLP),vol.9,no.3,pp.1
–
24,2012.)。基于大语料库的波形拼接可以更好地保留说话人的音色,而选择的单元可能是帧、音节或音素,导致合成效果不稳定。基于统计参数的方法比波形拼接更有效,但依赖于手工特征的准确性,这可能会限制合成复杂语音的音质。
[0005]基于深度学习的语音合成(Y.Qian,Y.Fan,W.Hu,and F.K.Soong,“On the training aspects of deep neural network(dnn)for parametric tts synthesis,”in 2014IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2014,pp.3829
–
3833.)由于深度神经网络的显着特征表示和顺序数据处理而具有更好的合成效率和音质。然而,通过这些基于深度学习的方法获得的大多数特征通常统一地模拟持续时间和音高等语音特征,因此合成语音仍然倾向于中性,没有说话者的音色等其他特征。
[0006]根据声学中的响度、音调和音色等基本要素建立特征工程的方法(M.Fabiani and A.Friberg,“Influence of pitch,loudness,and timbre on the perception of instrument dynamics,”vol.130,no.4.Acoustical Society of America,2011,pp.EL193
–
EL199.)被证明是获得更精细语音表征的有前途的策略,根据这些丰富的声音元素,可以构建更全面和结构化的语音特征表示。此外,技术人员很容易从文本中建立这些声音元素和音素之间的相关性,因此TTS合成的语音具有所需的语音真实性和个性化。
[0007]尽管传统方法与基于深度学习的方法相结合具有更好的合成质量,但难以描述更
全面的语音特征。因此,尚需要探索更精细的语音特征表示,以进一步提高合成语音的质量。
技术实现思路
[0008]本专利技术的目的是针对现在技术存在的缺陷和不足,为了解决合成的语音不能很好表达说话者语音特征的技术问题,创造性地提出一种基于特征金字塔的文本驱动语音合成方法。本方法在文本合成语音过程中根据声学中的响度、音调和音色等基本要素建立特征工程,将底层特征和高层特征以金字塔形式融合,得到说话人的综合语音表征,可以有效地合成更接近说话者语音特征的高质量语音,提高了有效性。
[0009]本专利技术的创新点在于:从音频频谱图中提取能量和音高的特征信息,分别以均方根能量和基音频率进行提取,对应于响度和音调的声音元素,作为底层特征。从通过继承音色的声音元素的梅尔谱图的时频分析得到时频信息,分别以过零率与谱质心进行提取,作为高层特征。然后,将底层特征和高层特征以金字塔形式融合,得到说话人的综合语音表征。
[0010]本专利技术的具体实现步骤如下:
[0011]一种基于特征金字塔的文本驱动语音合成方法,包括以下步骤:
[0012]步骤1:获取文本、音频相对应的多模态数据集。
[0013]步骤2:计算底层特征,包括能量和音高。
[0014]具体如下:
[0015]能量:对语音信号进行计算,得到能量谱图STFT:
[0016][0017]其中,f(t)是语音信号,w(x)是窗函数,x表示窗函数长度,t表示语音信号长度,e
‑
iwt
表示复变函数。
[0018]优选地,可以利用均方根能量进行提取,如下式:
[0019][0020]其中,RMSE表示均方根能量,n表示样本总数,b
i
和表示振幅的实际值和均值,i表示当前帧。
[0021]音高:通过下式得到基音序列WT:
[0022][0023]其中,f(t)表示语音信号;a表示尺度,控制小波函数的伸缩;τ表示平移量,控制小波函数的平移;Ψ表示小波变换;dt表示每帧信号。
[0024]优选地,可以利用基音序列中频率最低的基音频率进行提取。
[0025]步骤3:梅尔谱图转换。
[0026]将频谱图转化为梅尔谱图,频谱图和梅尔谱图对应关系如下式:
[0027]Mel(f)=2595*lg(1+f/700)
[0028]其中,Mel表示梅尔频率,f表示频谱图频率,lg()表示三角函数。
[0029]步骤4:获取高层特征,包括时域和频域。
[0030]语音信号通过下式得到频谱图F(ω):
[0031][0032]其中,f(t)表示语音信号,e
‑
iωt
表示复变函数,dt表示每帧信号。
[0033]时域:从频谱图F(ω)提取时域特征。
[00本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于特征金字塔的文本驱动语音合成方法,其特征在于,包括以下步骤:步骤1:获取文本、音频相对应的多模态数据集;步骤2:计算底层特征,包括能量和音高;能量:对语音信号进行计算,得到能量谱图STFT:其中,f(t)是语音信号,w(x)是窗函数,x表示窗函数长度,t表示语音信号长度,e
‑
iwt
表示复变函数;音高:通过下式得到基音序列WT:其中,f(t)表示语音信号;a表示尺度,控制小波函数的伸缩;τ表示平移量,控制小波函数的平移;Ψ表示小波变换;dt表示每帧信号;步骤3:梅尔谱图转换;将频谱图转化为梅尔谱图,频谱图和梅尔谱图对应关系如下式:Mel(f)=2595*lg(1+f/700)其中,Mel表示梅尔频率,f表示频谱图频率,lg()表示三角函数;步骤4:获取高层特征,包括时域和频域;语音信号通过下式得到频谱图F(ω):其中,f(t)表示语音信号,e
‑
iωt
表示复变函数,dt表示每帧信号;时域:从频谱图F(ω)提取时域特征;频域:从频谱图F(ω)提取频域特征;步骤5:特征融合,将底层特征和高层特征的信息进行相加;步骤6:通过损失函数对预测值与真实值拟合:loss
total
=loss
low
‑
level
+loss
high
‑
level
其中,loss
total
表示整体损失值,loss
low
‑
level
表示底层特征,loss
high
‑
level
表示高层特征;不断迭代,直至值稳定,得到网...
【专利技术属性】
技术研发人员:张磊,董彪,黄华,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。