一种基于特征金字塔的文本驱动语音合成方法技术

技术编号：37062182 阅读：15 留言：0更新日期：2023-03-29 19:40

本发明专利技术涉及一种基于特征金字塔的文本驱动语音合成方法，属于语音信号处理和人工智能技术领域。本方法从音频频谱图中提取能量和音高的特征信息，分别以均方根能量和基音频率进行提取，对应于响度和音调的声音元素，作为底层特征。同时，从通过继承音色的声音元素的梅尔谱图的时频分析得到时频信息，分别以过零率与谱质心进行提取，作为高层特征。然后，将底层特征和高层特征以金字塔形式融合，得到说话人的综合语音表征。本方法能够有效提取能量与音高的有效值，使数据描述结果更加合理与稳定。在时频特征的计算中采用梅尔谱图，可以有效描述声音的音色。在特征的联合中采用金字塔的方式，可以对多层特征准确描述，能够准确反映说话人的语音特征。话人的语音特征。话人的语音特征。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于特征金字塔的文本驱动语音合成方法

[0001]本专利技术涉及一种文本驱动语音合成的方法，特别涉及一种基于特征金字塔的文本驱动语音合成方法，属于语音信号处理和人工智能

技术介绍

[0002]语音合成，又称文语转换(Text To Speech，TTS)，是一种可以将任意输入文本转换成相应语音的技术。文本到语音(TTS)合成，是从文本生成合成语音的活跃研究领域，在语音助手、视频配音和数字人类许多应用中非常有用。由于TTS过程本质上是一种跨模态转换，因此，需要采用一种机制来保留合成语音中说话者的语音特征。否则，合成的语音可能会因中性风格而导致低质量的语音。
[0003]为了解决这个技术问题，国内外技术人员开展了大量研究，提出了许多用于文本到语音合成的方法。根据语音特征表示及其用途，现有的方法可大致分为三类：传统方法、基于深度学习的方法以及传统与深度学习相结合的方法。
[0004]传统方法求助于复杂的TTS模型，例如：使用波形拼接(J.Kala and J.Matou
ˇ
sek,“Very fast unit selection using viterbi search with zero
‑
concatenation
‑
cost chains,”in 2014IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2014,...

【技术保护点】

【技术特征摘要】
1.一种基于特征金字塔的文本驱动语音合成方法，其特征在于，包括以下步骤：步骤1：获取文本、音频相对应的多模态数据集；步骤2：计算底层特征，包括能量和音高；能量：对语音信号进行计算，得到能量谱图STFT：其中，f(t)是语音信号，w(x)是窗函数，x表示窗函数长度，t表示语音信号长度，e
‑
iwt
表示复变函数；音高：通过下式得到基音序列WT：其中，f(t)表示语音信号；a表示尺度，控制小波函数的伸缩；τ表示平移量，控制小波函数的平移；Ψ表示小波变换；dt表示每帧信号；步骤3：梅尔谱图转换；将频谱图转化为梅尔谱图，频谱图和梅尔谱图对应关系如下式：Mel(f)＝2595*lg(1+f/700)其中，Mel表示梅尔频率，f表示频谱图频率，lg()表示三角函数；步骤4：获取高层特征，包括时域和频域；语音信号通过下式得到频谱图F(ω)：其中，f(t)表示语音信号，e
‑
iωt
表示复变函数，dt表示每帧信号；时域：从频谱图F(ω)提取时域特征；频域：从频谱图F(ω)提取频域特征；步骤5：特征融合，将底层特征和高层特征的信息进行相加；步骤6：通过损失函数对预测值与真实值拟合：loss
total
＝loss
low
‑
level
+loss
high
‑
level
其中，loss
total
表示整体损失值，loss
low
‑
level
表示底层特征，loss
high
‑
level
表示高层特征；不断迭代，直至值稳定，得到网...

【专利技术属性】
技术研发人员：张磊，董彪，黄华，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人