一种基于注意力变分自编码器的短视频博主风格化语音合成方法技术

技术编号:39504937 阅读:8 留言:0更新日期:2023-11-24 11:36
一种基于注意力变分自编码器的短视频博主风格化语音合成方法,属于变分自编码器网络模型技术领域

【技术实现步骤摘要】
一种基于注意力变分自编码器的短视频博主风格化语音合成方法


[0001]本专利技术涉及变分自编码器模型
,更具体地说,本专利技术涉及一种基于注意力变分自编码器的短视频博主风格化语音合成方法


技术介绍

[0002]语音合成技术是将文本转换为可被人类听懂的语音的技术

它利用计算机算法和声学模型的组合,将输入的文本转化为自然流畅的语音输出

随着计算机性能和语音合成算法的不断提升,语音合成系统变得更加复杂且输出质量更高

现如今,语音合成技术广泛应用于各个领域,如语音播报

虚拟博主语音合成等,为我们的日常生活带来了乐趣和便利

[0003]传统的语音生成方法通常由前端和后端两个模块组成

前端模块负责对输入文本进行分析,提取后端模块所需的语言学信息,包括文本正则化

词性预测

多音字消歧

韵律预测等

后端根据前端的分析结果,采用特定的方法生成语音波形

[0004]目前,语音合成通常采用端到端的方式,只需输入文本或注音字符,系统就可以直接生成相应的音频波形

然而,如果希望合成多种风格的声音,则需要具有不同说话人的声音样本以便合成,无法直接合成多种风格的声音


技术实现思路

[0005]针对现有技术中出现的不足,本专利提出一种基于注意力变分自编码器的短视频博主风格化语音合成方法

基于注意力变分自编码器的短视频博主风格化语音合成方法能够生成多种风格化的声音

它根据提供的人物风格,无需提供特定说话人的声音样本,就能够合成多种风格化的语音

该方法还引入了大五人格和情感风格标签,使得可以合成具有多种不同人格和情感的声音

[0006]本专利技术的基于注意力变分自编码器的短视频博主风格化语音合成分为两个部分

第一部分为利用短视频博主视频构建风格化语音合成数据集

第二部分为通过一种基于注意力变分自编码器生成短视频博主风格化语音

再采用
Tacotron2
生成模型从视频博主数据集中提取语音,并使用基于注意力的变分自动编码器将声音和短视频博主人物的属性相结合生成风格化的扬声器嵌入

然后使用
Tacotron2
模型基于这些语音嵌入合成语音

通过博主相关的属性特征,合成风格化的声音

[0007]为实现上述目的,本专利技术采用的技术方案:一种基于注意力变分自编码器的短视频博主风格化语音合成方法,包括以下步骤
:
[0008]S1.
构建人脸

语音数据集,下载第一印象数据集,从第一印象视频数据集中提取人脸图片和对应的语音声音;
[0009]S2.
获得人脸关键特征的轮廓检测图像,输入步骤
S1
中的人脸数据集图像,利用
DeepFace
多个人脸属性特征提取模型,从步骤
S1
中的人脸数据集图像提取人脸的情感


无人格的属性特征,并对声音数据集采用
X

Vector
提取声音属性特征;
[0010]S3.
构建基于
β

VAE
方法的有监督注意力机制网络,在编码器和解码器之间增加1个
iAFF
模块,结合注意力模块建立基于
β

VAE
方法的有监督注意力机制网络;
[0011]采用
X

Vector
提取的说话人嵌入特征通过编码器生成隐变量
z
,根据图像提取的说话人属性特征和隐变量
z
结合,然后经过
iAFF
注意力模块,再送入到解码器进行解码,经过解码器解码以后,生成说话人嵌入;
[0012]在
β

VAE
中添加
condition
,根据输入的属性条件合成风格化的语音,根据输入来进行输出,在训练集中是数据对
(x,y)

y
是输入,即
condition

x
是我们期待的输出;
[0013]模型损失函数如下:
[0014]L
c
β
vae


D
KL
(q(z|x,y)||p(z|y))+
β
·
E
q(z|x,y)
(log(p(x|z,y)))
[0015]其中,
D
KL

KL
散度,使得编码器生成的隐变量尽可能符合标准正态分布,
p
代表真实向量,
q
代表结果向量,
z
代表隐向量,
E
q(z|x,y)
代表重构损失,是解码器解码得到的向量和输入向量之间的
MSE
损失,反映出
VAE
生成的结果和输入之间的差异,对应的目标是使
VAE
生成的结果和输入尽可能相似;
[0016]S4.
以步骤
S2
得到的人脸属性特征和对应的声音特征作为训练数据集,使用
Adam
训练步骤
S3
构建的基于
β

VAE
方法的有监督注意力机制网络;
[0017]S5.
输入属性特征值,根据步骤
S2
得到人脸属性特征和对应的声音特征,输入到步骤
S4
训练好的基于
β

VAE
方法的有监督注意力机制网络中生成语音嵌入;
[0018]S6.
利用多说话人
Tacotron2
模型将步骤
S5
获得的风格化声音嵌入进行语音合成,合成声音

[0019]步骤
S2
中,获得人脸属性特征和对应的语音特征包含如下步骤:
[0020]S2.1
通过
X

Vector
提取声音特征:
X

Vector
接受任意长度的输入后将其转化为固定长度的特征表达;
[0021]S2.2
根据脸型提取特征:采用
MTCNN
人脸检测模型来提取人脸标志以计算人脸形状,
MTCNN
网络结构是一个三级联级网络,分为
P
...

【技术保护点】

【技术特征摘要】
1.
一种基于注意力变分自编码器的短视频博主风格化语音合成方法,其特征在于,包括以下步骤
:S1.
构建人脸

语音数据集,下载第一印象数据集,从第一印象视频数据集中提取人脸图片和对应的语音声音;
S2.
获得人脸关键特征的轮廓检测图像,输入步骤
S1
中的人脸数据集图像,利用
DeepFace
多个人脸属性特征提取模型,从步骤
S1
中的人脸数据集图像提取人脸的情感

大无人格的属性特征,并对声音数据集采用
X

Vector
提取声音属性特征;
S3.
构建基于
β

VAE
方法的有监督注意力机制网络,在编码器和解码器之间增加1个
iAFF
模块,结合注意力模块建立基于
β

VAE
方法的有监督注意力机制网络;采用
X

Vector
提取的说话人嵌入特征通过编码器生成隐变量
z
,根据图像提取的说话人属性特征和隐变量
z
结合,然后经过
iAFF
注意力模块,再送入到解码器进行解码,经过解码器解码以后,生成说话人嵌入;在
β

VAE
中添加
condition
,根据输入的属性条件合成风格化的语音,根据输入来进行输出,在训练集中是数据对
(x,y)

y
是输入,即
condition

x
是我们期待的输出;模型损失函数如下:
L
c
β
vae


D
KL
(q(z|x,y)||p(z|y))+
β
·
E
q(z|x,y)
(log(p(x|z,y)))
其中,
D
KL

KL
散度,使得编码器生成的隐变量尽可能符合标准正态分布,
p
代表真实向量,
q
代表结果向量,
z
代表隐向量,
E
q(z|x,y)
代表重构损失,是解码器解码得到的向量和输入向量之间的
MSE
损失,反映出
VAE
生成的结果和输入之间的差异,对应的目标是使
VAE
生成的结果和输入尽可能相似;
S4.
以步骤
S2
得到的人脸属性特征和对应的声音特征作为训练数据集,使用
Adam
训练步骤
S3
构建的基于
β

VAE
方法的有监督注意力机制网络;
S5.
输入属性特征值,根据步骤
S2
得到人脸属性特征和对应的声音特征,输入...

【专利技术属性】
技术研发人员:王元刚陈波段晓东
申请(专利权)人:大连民族大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1