梅尔频谱的预测方法、装置、设备及存储介质制造方法及图纸

技术编号:29590355 阅读:29 留言:0更新日期:2021-08-06 19:50
本申请涉及人工智能技术领域,揭示了一种梅尔频谱的预测方法、装置、设备及存储介质,其中方法包括:将待预测的文本序列输入目标声学模块的文本编码器进行特征提取,得到目标文本编码特征数据;通过目标声学模块的对齐位置预测器,对目标文本编码特征数据进行对齐位置预测,得到目标对齐位置数据;通过目标声学模块的对齐图重建器,根据目标文本编码特征数据和目标对齐位置数据进行时间对齐特征计算,得到目标时间对齐特征值;通过目标声学模块的解码器,对目标时间对齐特征值进行梅尔频谱计算,得到目标梅尔频谱数据。实现采用输入‑输出特征对齐策略将时长建模隐式地集成在目标声学模块中,无需额外的时长模型。本申请还涉及区块链技术。

【技术实现步骤摘要】
梅尔频谱的预测方法、装置、设备及存储介质
本申请涉及到人工智能
,特别是涉及到一种梅尔频谱的预测方法、装置、设备及存储介质。
技术介绍
歌唱合成是将歌词、乐谱等信息转化成歌声音频的技术。随着移动互联网的普及和人们对娱乐生活品质要求的不断提高,歌唱合成技术已经逐渐在电子游戏、短视频应用、虚拟歌手等领域崭露头角。现有的歌唱合成方法,在进行梅尔频谱预测时,需通过人工标注或机器自动标注获取音素/音符时长信息,并据此额外训练一个时长模型,甚至还可能需要对时长模型预测的时长进行后处理,导致模型训练步骤繁冗复杂。
技术实现思路
本申请的主要目的为提供一种梅尔频谱的预测方法、装置、设备及存储介质,旨在解决现有技术的歌唱合成方法,在进行梅尔频谱预测时需要额外训练一个时长模型,导致模型训练步骤繁冗复杂的技术问题。为了实现上述专利技术目的,本申请提出一种梅尔频谱的预测方法,所述方法包括:获取待预测的文本序列,所述待预测的文本序列是根据曲谱数据提取得到的文本序列;将所述待预测的文本序列输入目标声学模块的文本编码器进行特征提取,得到目标文本编码特征数据;通过所述目标声学模块的对齐位置预测器,对所述目标文本编码特征数据进行对齐位置预测,得到目标对齐位置数据;通过所述目标声学模块的对齐图重建器,根据所述目标文本编码特征数据和所述目标对齐位置数据进行时间对齐特征计算,得到目标时间对齐特征值;通过所述目标声学模块的解码器,对所述目标时间对齐特征值进行梅尔频谱计算,得到目标梅尔频谱数据。进一步的,所述将所述待预测的文本序列输入目标声学模块的文本编码器进行特征提取,得到目标文本编码特征数据的步骤之前,还包括:获取多个训练样本,所述多个训练样本中的每个训练样本包括:文本序列样本和梅尔频谱标定数据;从所述多个训练样本中获取一个所述训练样本,作为目标训练样本;将所述目标训练样本的所述文本序列样本输入初始声学模块的所述文本编码器进行特征提取,得到文本编码特征预测数据;将所述文本编码特征预测数据输入所述初始声学模块的所述对齐位置预测器进行对齐位置预测,得到对齐位置预测数据;采用所述初始声学模块的梅尔频谱编码器及索引映射矢量生成器,根据所述文本编码特征预测数据和所述目标训练样本的所述梅尔频谱标定数据进行索引映射矢量计算,得到目标索引映射矢量;将所述文本编码特征预测数据和所述目标索引映射矢量输入所述初始声学模块的所述对齐图重建器进行时间对齐特征计算和对齐位置提取,得到时间对齐特征预测值和对齐位置提取数据;将所述时间对齐特征预测值输入所述初始声学模块的所述解码器进行梅尔频谱计算,得到梅尔频谱预测数据;根据所述对齐位置预测数据、所述对齐位置提取数据、所述梅尔频谱预测数据和所述梅尔频谱标定数据进行损失值计算,得到目标损失值,根据所述目标损失值更新所述初始声学模块的参数,将更新后的所述初始声学模块用于下一次计算所述对齐位置预测数据、所述对齐位置提取数据和所述梅尔频谱预测数据;重复执行所述从所述多个训练样本中获取一个所述训练样本,作为目标训练样本的步骤,直至达到训练收敛条件。进一步的,所述采用所述初始声学模块的梅尔频谱编码器及索引映射矢量生成器,根据所述文本编码特征预测数据和所述目标训练样本的所述梅尔频谱标定数据进行索引映射矢量计算,得到目标索引映射矢量的步骤,包括:将所述目标训练样本的所述梅尔频谱标定数据输入所述初始声学模块的所述梅尔频谱编码器进行特征提取,得到梅尔频谱编码特征数据;将所述文本编码特征预测数据和所述梅尔频谱编码特征数据,输入所述初始声学模块的所述索引映射矢量生成器进行索引映射矢量计算,得到所述目标索引映射矢量。进一步的,所述根据所述对齐位置预测数据、所述对齐位置提取数据、所述梅尔频谱预测数据和所述梅尔频谱标定数据进行损失值计算,得到目标损失值的步骤,包括:将所述对齐位置预测数据和所述对齐位置提取数据输入对齐位置损失函数进行损失值计算,得到第一损失值;将所述梅尔频谱预测数据和所述目标训练样本的所述梅尔频谱标定数据输入梅尔频谱损失函数进行损失值计算,得到第二损失值;将所述第一损失值和所述第二损失值进行加权求和,得到所述目标损失值;其中,所述对齐位置损失函数的计算公式为:所述梅尔频谱损失函数的计算公式为:所述目标损失值的计算公式为:是所述对齐位置预测数据,Δe是所述对齐位置提取数据,∈是用于防止数值溢出的常数,‖‖1是L1范数,log()是对数函数,是所述梅尔频谱预测数据的第i维的数据,meli是所述目标训练样本的所述梅尔频谱标定数据的第i维的数据,N是所述目标训练样本的所述梅尔频谱标定数据的总维数,λ是常数进一步的,所述获取多个训练样本的步骤,包括:获取多个曲谱数据;从所述多个曲谱数据中提取一个曲谱数据作为目标曲谱数据;根据所述目标曲谱数据进行歌词提取及编码生成,得到歌词编码数据;根据所述目标曲谱数据进行音高提取及编码生成,得到音高编码数据;根据所述目标曲谱数据的音符数据及节拍数据进行音符时长提取及量化处理,得到目标音符时长数据;根据所述歌词编码数据、所述音高编码数据和所述目标音符时长数据进行按音符对齐处理及多维向量拼接,得到曲谱特征数据;获取所述目标曲谱数据对应的梅尔频谱数据,得到目标梅尔频谱数据;根据所述曲谱特征数据和所述目标梅尔频谱数据生成所述目标曲谱数据对应的所述训练样本;重复执行所述从所述多个曲谱数据中提取一个曲谱数据作为目标曲谱数据的步骤,直至完成述多个曲谱数据中的所述曲谱数据的提取。进一步的,所述根据所述目标曲谱数据进行歌词提取及编码生成,得到歌词编码数据的步骤,包括:根据所述目标曲谱数据进行歌词提取,得到待处理的歌词数据;分别在所述待处理的歌词数据中的每个句子的句首及句末添加句子分隔符,得到添加句子分隔符后的歌词数据;对所述添加句子分隔符后的歌词数据进行标点符号删除处理,得到标点符号删除后的歌词数据;在所述标点符号删除后的歌词数据进行相邻汉字之间添加字符分隔符处理,得到添加字符分隔符后的歌词数据;对所述添加字符分隔符后的歌词数据进行汉字转换拼音处理,得到转换拼音后的歌词数据;对所述转换拼音后的歌词数据进行声调删除处理,得到声调删除后的歌词数据;对所述声调删除后的歌词数据进行独热编码,得到所述歌词编码数据。进一步的,所述根据所述目标曲谱数据的音符数据及节拍数据进行音符时长提取及量化处理,得到目标音符时长数据的步骤,包括:根据所述目标曲谱数据的音符数据及节拍数据进行音符时长提取,得到待换算的音符时长数据;采用预设时间单位,对所述待换算的音符时长数据进行换算处理,得到换算后的音符时长数据;从所述换算后的音符时长数据中提取最小的音符时长,得到本文档来自技高网...

【技术保护点】
1.一种梅尔频谱的预测方法,其特征在于,所述方法包括:/n获取待预测的文本序列,所述待预测的文本序列是根据曲谱数据提取得到的文本序列;/n将所述待预测的文本序列输入目标声学模块的文本编码器进行特征提取,得到目标文本编码特征数据;/n通过所述目标声学模块的对齐位置预测器,对所述目标文本编码特征数据进行对齐位置预测,得到目标对齐位置数据;/n通过所述目标声学模块的对齐图重建器,根据所述目标文本编码特征数据和所述目标对齐位置数据进行时间对齐特征计算,得到目标时间对齐特征值;/n通过所述目标声学模块的解码器,对所述目标时间对齐特征值进行梅尔频谱计算,得到目标梅尔频谱数据。/n

【技术特征摘要】
1.一种梅尔频谱的预测方法,其特征在于,所述方法包括:
获取待预测的文本序列,所述待预测的文本序列是根据曲谱数据提取得到的文本序列;
将所述待预测的文本序列输入目标声学模块的文本编码器进行特征提取,得到目标文本编码特征数据;
通过所述目标声学模块的对齐位置预测器,对所述目标文本编码特征数据进行对齐位置预测,得到目标对齐位置数据;
通过所述目标声学模块的对齐图重建器,根据所述目标文本编码特征数据和所述目标对齐位置数据进行时间对齐特征计算,得到目标时间对齐特征值;
通过所述目标声学模块的解码器,对所述目标时间对齐特征值进行梅尔频谱计算,得到目标梅尔频谱数据。


2.根据权利要求1所述的梅尔频谱的预测方法,其特征在于,所述将所述待预测的文本序列输入目标声学模块的文本编码器进行特征提取,得到目标文本编码特征数据的步骤之前,还包括:
获取多个训练样本,所述多个训练样本中的每个训练样本包括:文本序列样本和梅尔频谱标定数据;
从所述多个训练样本中获取一个所述训练样本,作为目标训练样本;
将所述目标训练样本的所述文本序列样本输入初始声学模块的所述文本编码器进行特征提取,得到文本编码特征预测数据;
将所述文本编码特征预测数据输入所述初始声学模块的所述对齐位置预测器进行对齐位置预测,得到对齐位置预测数据;
采用所述初始声学模块的梅尔频谱编码器及索引映射矢量生成器,根据所述文本编码特征预测数据和所述目标训练样本的所述梅尔频谱标定数据进行索引映射矢量计算,得到目标索引映射矢量;
将所述文本编码特征预测数据和所述目标索引映射矢量输入所述初始声学模块的所述对齐图重建器进行时间对齐特征计算和对齐位置提取,得到时间对齐特征预测值和对齐位置提取数据;
将所述时间对齐特征预测值输入所述初始声学模块的所述解码器进行梅尔频谱计算,得到梅尔频谱预测数据;
根据所述对齐位置预测数据、所述对齐位置提取数据、所述梅尔频谱预测数据和所述梅尔频谱标定数据进行损失值计算,得到目标损失值,根据所述目标损失值更新所述初始声学模块的参数,将更新后的所述初始声学模块用于下一次计算所述对齐位置预测数据、所述对齐位置提取数据和所述梅尔频谱预测数据;
重复执行所述从所述多个训练样本中获取一个所述训练样本,作为目标训练样本的步骤,直至达到训练收敛条件,将达到所述训练收敛条件的所述初始声学模块作为所述目标声学模块。


3.根据权利要求2所述的梅尔频谱的预测方法,其特征在于,所述采用所述初始声学模块的梅尔频谱编码器及索引映射矢量生成器,根据所述文本编码特征预测数据和所述目标训练样本的所述梅尔频谱标定数据进行索引映射矢量计算,得到目标索引映射矢量的步骤,包括:
将所述目标训练样本的所述梅尔频谱标定数据输入所述初始声学模块的所述梅尔频谱编码器进行特征提取,得到梅尔频谱编码特征数据;
将所述文本编码特征预测数据和所述梅尔频谱编码特征数据,输入所述初始声学模块的所述索引映射矢量生成器进行索引映射矢量计算,得到所述目标索引映射矢量。


4.根据权利要求2所述的梅尔频谱的预测方法,其特征在于,所述根据所述对齐位置预测数据、所述对齐位置提取数据、所述梅尔频谱预测数据和所述梅尔频谱标定数据进行损失值计算,得到目标损失值的步骤,包括:
将所述对齐位置预测数据和所述对齐位置提取数据输入对齐位置损失函数进行损失值计算,得到第一损失值;
将所述梅尔频谱预测数据和所述目标训练样本的所述梅尔频谱标定数据输入梅尔频谱损失函数进行损失值计算,得到第二损失值;
将所述第一损失值和所述第二损失值进行加权求和,得到所述目标损失值;
其中,所述对齐位置损失函数的计算公式为:



所述梅尔频谱损失函数的计算公式为:



所述目标损失值的计算公式为:




是所述对齐位置预测数据,Δe是所述对齐位置提取数据,∈是用于防止数值溢出的常数,||||1是L1范数,log()是对数函数,是所述梅尔频谱预测数据的第i维的数据,meli是所述目标训练样本的所述梅尔频谱标定数据的第i维的数据,N是所述目标训练样本的所述梅尔频谱标定数据总维数,λ是常数。
...

【专利技术属性】
技术研发人员:刘正晨缪陈峰朱清影陈闽川马骏王少军肖京
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1