【技术实现步骤摘要】
梅尔频谱的预测方法、装置、设备及存储介质
本申请涉及到人工智能
,特别是涉及到一种梅尔频谱的预测方法、装置、设备及存储介质。
技术介绍
歌唱合成是将歌词、乐谱等信息转化成歌声音频的技术。随着移动互联网的普及和人们对娱乐生活品质要求的不断提高,歌唱合成技术已经逐渐在电子游戏、短视频应用、虚拟歌手等领域崭露头角。现有的歌唱合成方法,在进行梅尔频谱预测时,需通过人工标注或机器自动标注获取音素/音符时长信息,并据此额外训练一个时长模型,甚至还可能需要对时长模型预测的时长进行后处理,导致模型训练步骤繁冗复杂。
技术实现思路
本申请的主要目的为提供一种梅尔频谱的预测方法、装置、设备及存储介质,旨在解决现有技术的歌唱合成方法,在进行梅尔频谱预测时需要额外训练一个时长模型,导致模型训练步骤繁冗复杂的技术问题。为了实现上述专利技术目的,本申请提出一种梅尔频谱的预测方法,所述方法包括:获取待预测的文本序列,所述待预测的文本序列是根据曲谱数据提取得到的文本序列;将所述待预测的文本序列输入目标声学模块的文本编码器进行特征提取,得到目标文本编码特征数据;通过所述目标声学模块的对齐位置预测器,对所述目标文本编码特征数据进行对齐位置预测,得到目标对齐位置数据;通过所述目标声学模块的对齐图重建器,根据所述目标文本编码特征数据和所述目标对齐位置数据进行时间对齐特征计算,得到目标时间对齐特征值;通过所述目标声学模块的解码器,对所述目标时间对齐特征值进行梅尔频谱计算,得到目 ...
【技术保护点】
1.一种梅尔频谱的预测方法,其特征在于,所述方法包括:/n获取待预测的文本序列,所述待预测的文本序列是根据曲谱数据提取得到的文本序列;/n将所述待预测的文本序列输入目标声学模块的文本编码器进行特征提取,得到目标文本编码特征数据;/n通过所述目标声学模块的对齐位置预测器,对所述目标文本编码特征数据进行对齐位置预测,得到目标对齐位置数据;/n通过所述目标声学模块的对齐图重建器,根据所述目标文本编码特征数据和所述目标对齐位置数据进行时间对齐特征计算,得到目标时间对齐特征值;/n通过所述目标声学模块的解码器,对所述目标时间对齐特征值进行梅尔频谱计算,得到目标梅尔频谱数据。/n
【技术特征摘要】
1.一种梅尔频谱的预测方法,其特征在于,所述方法包括:
获取待预测的文本序列,所述待预测的文本序列是根据曲谱数据提取得到的文本序列;
将所述待预测的文本序列输入目标声学模块的文本编码器进行特征提取,得到目标文本编码特征数据;
通过所述目标声学模块的对齐位置预测器,对所述目标文本编码特征数据进行对齐位置预测,得到目标对齐位置数据;
通过所述目标声学模块的对齐图重建器,根据所述目标文本编码特征数据和所述目标对齐位置数据进行时间对齐特征计算,得到目标时间对齐特征值;
通过所述目标声学模块的解码器,对所述目标时间对齐特征值进行梅尔频谱计算,得到目标梅尔频谱数据。
2.根据权利要求1所述的梅尔频谱的预测方法,其特征在于,所述将所述待预测的文本序列输入目标声学模块的文本编码器进行特征提取,得到目标文本编码特征数据的步骤之前,还包括:
获取多个训练样本,所述多个训练样本中的每个训练样本包括:文本序列样本和梅尔频谱标定数据;
从所述多个训练样本中获取一个所述训练样本,作为目标训练样本;
将所述目标训练样本的所述文本序列样本输入初始声学模块的所述文本编码器进行特征提取,得到文本编码特征预测数据;
将所述文本编码特征预测数据输入所述初始声学模块的所述对齐位置预测器进行对齐位置预测,得到对齐位置预测数据;
采用所述初始声学模块的梅尔频谱编码器及索引映射矢量生成器,根据所述文本编码特征预测数据和所述目标训练样本的所述梅尔频谱标定数据进行索引映射矢量计算,得到目标索引映射矢量;
将所述文本编码特征预测数据和所述目标索引映射矢量输入所述初始声学模块的所述对齐图重建器进行时间对齐特征计算和对齐位置提取,得到时间对齐特征预测值和对齐位置提取数据;
将所述时间对齐特征预测值输入所述初始声学模块的所述解码器进行梅尔频谱计算,得到梅尔频谱预测数据;
根据所述对齐位置预测数据、所述对齐位置提取数据、所述梅尔频谱预测数据和所述梅尔频谱标定数据进行损失值计算,得到目标损失值,根据所述目标损失值更新所述初始声学模块的参数,将更新后的所述初始声学模块用于下一次计算所述对齐位置预测数据、所述对齐位置提取数据和所述梅尔频谱预测数据;
重复执行所述从所述多个训练样本中获取一个所述训练样本,作为目标训练样本的步骤,直至达到训练收敛条件,将达到所述训练收敛条件的所述初始声学模块作为所述目标声学模块。
3.根据权利要求2所述的梅尔频谱的预测方法,其特征在于,所述采用所述初始声学模块的梅尔频谱编码器及索引映射矢量生成器,根据所述文本编码特征预测数据和所述目标训练样本的所述梅尔频谱标定数据进行索引映射矢量计算,得到目标索引映射矢量的步骤,包括:
将所述目标训练样本的所述梅尔频谱标定数据输入所述初始声学模块的所述梅尔频谱编码器进行特征提取,得到梅尔频谱编码特征数据;
将所述文本编码特征预测数据和所述梅尔频谱编码特征数据,输入所述初始声学模块的所述索引映射矢量生成器进行索引映射矢量计算,得到所述目标索引映射矢量。
4.根据权利要求2所述的梅尔频谱的预测方法,其特征在于,所述根据所述对齐位置预测数据、所述对齐位置提取数据、所述梅尔频谱预测数据和所述梅尔频谱标定数据进行损失值计算,得到目标损失值的步骤,包括:
将所述对齐位置预测数据和所述对齐位置提取数据输入对齐位置损失函数进行损失值计算,得到第一损失值;
将所述梅尔频谱预测数据和所述目标训练样本的所述梅尔频谱标定数据输入梅尔频谱损失函数进行损失值计算,得到第二损失值;
将所述第一损失值和所述第二损失值进行加权求和,得到所述目标损失值;
其中,所述对齐位置损失函数的计算公式为:
所述梅尔频谱损失函数的计算公式为:
所述目标损失值的计算公式为:
是所述对齐位置预测数据,Δe是所述对齐位置提取数据,∈是用于防止数值溢出的常数,||||1是L1范数,log()是对数函数,是所述梅尔频谱预测数据的第i维的数据,meli是所述目标训练样本的所述梅尔频谱标定数据的第i维的数据,N是所述目标训练样本的所述梅尔频谱标定数据总维数,λ是常数。
...
【专利技术属性】
技术研发人员:刘正晨,缪陈峰,朱清影,陈闽川,马骏,王少军,肖京,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。