【技术实现步骤摘要】
一种基于对抗网络的电影演员自动配音方法
本专利技术属于语音识别领域,涉及到GAN对抗网络。
技术介绍
随着科技的发展以及人们生活水平的提高,电影作为大众广为熟知的娱乐项目,有着不可代替的重要地位。然而,电影中演员可能参演一个年龄跨度较大的角色,角色的不同年龄段的声音有着很大的不同,不同配音演员对同一角色不同年龄段的配音又不具备真实性。所以,利用深度学习完成演员对不同年龄的自己配音就成了一个可待解决的问题。
技术实现思路
本专利技术克服了现有技术的不足之处,提出了一种电影演员自动配音方法,意在利用卷积神经网络训练出适用于电影演员自动配音模型,提高电影演员对不同年龄的自己配音时的真实性。本专利技术为达到上述专利技术目的,采用如下技术方案:一种基于对抗网络的电影演员自动配音方法,其特征在于包括如下步骤:步骤1、语音数据准备:从互联网上搜集明星语音数据,建立一个语音数据集,数据集中包括多位明星不同年龄段的语音,每段音频数据的标注为说话明星以及该明星的年龄信息;然后将转换成声谱图;步骤2、电影演员自动配音总体流程:首先将电影演员A的N岁语音声谱图输入至预训练的语音识别模型中,输出原始语音产生的文本;同时将声谱图输入至对抗网络,计算出损失LGAN.D,输出电影演员A的M岁语音声谱图;然后将输出的M岁声谱图输入至预训练的语音识别模型中,生成语音文本;将生成的文本与原始语音文本同时输入至文本比对模型中,将M岁的电影演员A的语音的文本和N岁电影演员A的语音的文本计算出损失LT;同时将输出的M岁声谱图和原始的N岁声谱图输入至说话人识别模型中,判断M岁的电影演员A的语音和N岁电影演 ...
【技术保护点】
1.一种基于对抗网络的电影演员自动配音方法,其特征在于包括如下步骤:步骤1、语音数据准备:从互联网上搜集明星语音数据,建立一个语音数据集,数据集中包括多位明星不同年龄段的语音,每段音频数据的标注为说话明星以及该明星的年龄信息;然后将转换成声谱图;步骤2、电影演员自动配音总体流程:首先将电影演员A的N岁语音声谱图输入至预训练的语音识别模型中,输出原始语音产生的文本;同时将声谱图输入至对抗网络,计算出损失LGAN.D,输出电影演员A的M岁语音声谱图;然后将输出的M岁声谱图输入至预训练的语音识别模型中,生成语音文本;将生成的文本与原始语音文本同时输入至文本比对模型中,将M岁的电影演员A的语音的文本和N岁电影演员A的语音的文本计算出损失LT;同时将输出的M岁声谱图和原始的N岁声谱图输入至说话人识别模型中,判断M岁的电影演员A的语音和N岁电影演员A的语音是否为同一说话者,计算出损失LV;最后选定的损失函数为:L=λDLGAN.D+λVLv+λTLT步骤3、训练:将处理完的声谱图数据送入卷积神经网络,网络输入批量大小(batch size)设置为64,随机初始化各层的连接权值W和偏执b,给定学习速 ...
【技术特征摘要】
1.一种基于对抗网络的电影演员自动配音方法,其特征在于包括如下步骤:步骤1、语音数据准备:从互联网上搜集明星语音数据,建立一个语音数据集,数据集中包括多位明星不同年龄段的语音,每段音频数据的标注为说话明星以及该明星的年龄信息;然后将转换成声谱图;步骤2、电影演员自动配音总体流程:首先将电影演员A的N岁语音声谱图输入至预训练的语音识别模型中,输出原始语音产生的文本;同时将声谱图输入至对抗网络,计算出损失LGAN.D,输出电影演员A的M岁语音声谱图;然后将输出的M岁声谱图输入至预训练的语音识别模型中,生成语音文本;将生成的文本与原始语音文本同时输入至文本比对模型中,将M岁的电影演员A的语音的文本和N岁电影演员A的语音的文本计算出损失LT;同时将输出的M岁声谱图和原始的N岁声谱图输入至说话人识别模型中,判断M岁的电影演员A的语音和N岁电影演员A的语音是否为同一说话者,计算出损失LV;最后选定的损失函数为:L=λDLGAN.D+λVLv+λTLT步骤3、训练:将处理完的声谱图数据送入卷积神经网络,网络输入批量大小(batchsize)设置为64,随机初始化各层的连接权值W和偏执b,给定学习速率η;步骤4、测试:将电影演员A的N岁语音数据转成声谱图,输入至训练好的模型,同时给定年龄M岁,生成电影演员A的M岁语音声谱图;最后生成的声谱图经过傅里叶逆变换,转换成音频信号,最终得到电影演员A的M岁语音。2.如权利要求1所述的基于对抗网络的电影演员自动配音方法,其特征在于:使用傅里叶变换将语音数据转换成声谱图,作为语音识别和说话人识别的输入。3.如权利要求1所述的基于对抗网络的电影演员自动配音方法,其特征在于:步骤2中所述的语音识别、说话人识别、文本比对、生成对抗方法如下:(1)所述语音识别方法,使用QCNN(QuaternionConvolutionalNeuralNetworks)端到端开源语音识别算法训练语音转文本信息语音模型;所述QCNN算法是基于深度学习的语音识别算法,利用训练的模型识别输入的语音声谱图,输出语音对应的文本信息;(2)所述文本比对方法,即训练一个文本比对模型,用于电影演员原始语音文本和电影演员不同年龄语音生成后的文本比对;计算两者损失,使用的损失函数为:其中:x和y分别代表原始语音产生的文本和生成的语音产生的文本,m表示文本字符的个数,i=1,2,…,m;(3)所述说话人识别方法,首先从网络搜集K个明星不同年龄的语音数据,同一说话人的语音数据具有同一标签,此标签可标识说话人的ID,则标签可以表示为{ID0,ID1,ID2,...,IDk};再对语音数据进行预处理,将k个明星的语音数据转成声谱图;接着将数据进行归一化处理,去除数据的单位机制,将数据转为无量纲数值,提高模型收敛速度和准确度,标准化后,像素点取值区间为【0,1】;...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。