【技术实现步骤摘要】
一种基于注意力变分自编码器的短视频博主风格化语音合成方法
[0001]本专利技术涉及变分自编码器模型
,更具体地说,本专利技术涉及一种基于注意力变分自编码器的短视频博主风格化语音合成方法
。
技术介绍
[0002]语音合成技术是将文本转换为可被人类听懂的语音的技术
。
它利用计算机算法和声学模型的组合,将输入的文本转化为自然流畅的语音输出
。
随着计算机性能和语音合成算法的不断提升,语音合成系统变得更加复杂且输出质量更高
。
现如今,语音合成技术广泛应用于各个领域,如语音播报
、
虚拟博主语音合成等,为我们的日常生活带来了乐趣和便利
。
[0003]传统的语音生成方法通常由前端和后端两个模块组成
。
前端模块负责对输入文本进行分析,提取后端模块所需的语言学信息,包括文本正则化
、
词性预测
、
多音字消歧
、
韵律预测等
。
后端根据前端的分析结果,采用特定的方法生成语音波形
。
[0004]目前,语音合成通常采用端到端的方式,只需输入文本或注音字符,系统就可以直接生成相应的音频波形
。
然而,如果希望合成多种风格的声音,则需要具有不同说话人的声音样本以便合成,无法直接合成多种风格的声音
。
技术实现思路
[0005]针对现有技术中出现的不足,本专利提出一种基于注意力变分自编码器的短视频博主
【技术保护点】
【技术特征摘要】
1.
一种基于注意力变分自编码器的短视频博主风格化语音合成方法,其特征在于,包括以下步骤
:S1.
构建人脸
‑
语音数据集,下载第一印象数据集,从第一印象视频数据集中提取人脸图片和对应的语音声音;
S2.
获得人脸关键特征的轮廓检测图像,输入步骤
S1
中的人脸数据集图像,利用
DeepFace
多个人脸属性特征提取模型,从步骤
S1
中的人脸数据集图像提取人脸的情感
、
大无人格的属性特征,并对声音数据集采用
X
‑
Vector
提取声音属性特征;
S3.
构建基于
β
‑
VAE
方法的有监督注意力机制网络,在编码器和解码器之间增加1个
iAFF
模块,结合注意力模块建立基于
β
‑
VAE
方法的有监督注意力机制网络;采用
X
‑
Vector
提取的说话人嵌入特征通过编码器生成隐变量
z
,根据图像提取的说话人属性特征和隐变量
z
结合,然后经过
iAFF
注意力模块,再送入到解码器进行解码,经过解码器解码以后,生成说话人嵌入;在
β
‑
VAE
中添加
condition
,根据输入的属性条件合成风格化的语音,根据输入来进行输出,在训练集中是数据对
(x,y)
,
y
是输入,即
condition
;
x
是我们期待的输出;模型损失函数如下:
L
c
β
vae
=
‑
D
KL
(q(z|x,y)||p(z|y))+
β
·
E
q(z|x,y)
(log(p(x|z,y)))
其中,
D
KL
是
KL
散度,使得编码器生成的隐变量尽可能符合标准正态分布,
p
代表真实向量,
q
代表结果向量,
z
代表隐向量,
E
q(z|x,y)
代表重构损失,是解码器解码得到的向量和输入向量之间的
MSE
损失,反映出
VAE
生成的结果和输入之间的差异,对应的目标是使
VAE
生成的结果和输入尽可能相似;
S4.
以步骤
S2
得到的人脸属性特征和对应的声音特征作为训练数据集,使用
Adam
训练步骤
S3
构建的基于
β
‑
VAE
方法的有监督注意力机制网络;
S5.
输入属性特征值,根据步骤
S2
得到人脸属性特征和对应的声音特征,输入...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。