一种基于对抗网络的电影演员自动配音方法技术

技术编号：20747956 阅读：44 留言：0更新日期：2019-04-03 10:51

本发明专利技术公开了一种电影演员自动配音方法，其目的在于利用深度学习方法提升电影演员自动配音的真实性。利用语音识别技术和对抗网络实现电影演员的自动配音，其技术关键在于（1）利用QCNN方法实现对输入语音的识别，并转换成文本信息；（2）利用GAN对抗网络生成说话者不同年龄段的语音信息；（3）通过声纹识别判断生成后的语音和输入的语音是否为同一说话人。本发明专利技术所采用的深度学习方法能够很好的进行语音识别以及音色生成，极大提高了电影演员自动配音的真实性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于对抗网络的电影演员自动配音方法
本专利技术属于语音识别领域，涉及到GAN对抗网络。
技术介绍
随着科技的发展以及人们生活水平的提高，电影作为大众广为熟知的娱乐项目，有着不可代替的重要地位。然而，电影中演员可能参演一个年龄跨度较大的角色，角色的不同年龄段的声音有着很大的不同，不同配音演员对同一角色不同年龄段的配音又不具备真实性。所以，利用深度学习完成演员对不同年龄的自己配音就成了一个可待解决的问题。
技术实现思路
本专利技术克服了现有技术的不足之处，提出了一种电影演员自动配音方法，意在利用卷积神经网络训练出适用于电影演员自动配音模型，提高电影演员对不同年龄的自己配音时的真实性。本专利技术为达到上述专利技术目的，采用如下技术方案：一种基于对抗网络的电影演员自动配音方法，其特征在于包括如下步骤：步骤1、语音数据准备：从互联网上搜集明星语音数据，建立一个语音数据集，数据集中包括多位明星不同年龄段的语音，每段音频数据的标注为说话明星以及该明星的年龄信息；然后将转换成声谱图；步骤2、电影演员自动配音总体流程：首先将电影演员A的N岁语音声谱图输入至预训练的语音识别模型中，输出原始语音产生的文本；同时将声谱图输入至对抗网络，计算出损失LGAN.D，输出电影演员A的M岁语音声谱图；然后将输出的M岁声谱图输入至预训练的语音识别模型中，生成语音文本；将生成的文本与原始语音文本同时输入至文本比对模型中，将M岁的电影演员A的语音的文本和N岁电影演员A的语音的文本计算出损失LT；同时将输出的M岁声谱图和原始的N岁声谱图输入至说话人识别模型中，判断M岁的电影演员A的语音和N岁电影演...

【技术保护点】
1.一种基于对抗网络的电影演员自动配音方法，其特征在于包括如下步骤：步骤1、语音数据准备：从互联网上搜集明星语音数据，建立一个语音数据集，数据集中包括多位明星不同年龄段的语音，每段音频数据的标注为说话明星以及该明星的年龄信息；然后将转换成声谱图；步骤2、电影演员自动配音总体流程：首先将电影演员A的N岁语音声谱图输入至预训练的语音识别模型中，输出原始语音产生的文本；同时将声谱图输入至对抗网络，计算出损失LGAN.D，输出电影演员A的M岁语音声谱图；然后将输出的M岁声谱图输入至预训练的语音识别模型中，生成语音文本；将生成的文本与原始语音文本同时输入至文本比对模型中，将M岁的电影演员A的语音的文本和N岁电影演员A的语音的文本计算出损失LT；同时将输出的M岁声谱图和原始的N岁声谱图输入至说话人识别模型中，判断M岁的电影演员A的语音和N岁电影演员A的语音是否为同一说话者，计算出损失LV；最后选定的损失函数为：L＝λDLGAN.D+λVLv+λTLT步骤3、训练：将处理完的声谱图数据送入卷积神经网络，网络输入批量大小(batch size)设置为64，随机初始化各层的连接权值W和偏执b，给定学习速...

【技术特征摘要】
1.一种基于对抗网络的电影演员自动配音方法，其特征在于包括如下步骤：步骤1、语音数据准备：从互联网上搜集明星语音数据，建立一个语音数据集，数据集中包括多位明星不同年龄段的语音，每段音频数据的标注为说话明星以及该明星的年龄信息；然后将转换成声谱图；步骤2、电影演员自动配音总体流程：首先将电影演员A的N岁语音声谱图输入至预训练的语音识别模型中，输出原始语音产生的文本；同时将声谱图输入至对抗网络，计算出损失LGAN.D，输出电影演员A的M岁语音声谱图；然后将输出的M岁声谱图输入至预训练的语音识别模型中，生成语音文本；将生成的文本与原始语音文本同时输入至文本比对模型中，将M岁的电影演员A的语音的文本和N岁电影演员A的语音的文本计算出损失LT；同时将输出的M岁声谱图和原始的N岁声谱图输入至说话人识别模型中，判断M岁的电影演员A的语音和N岁电影演员A的语音是否为同一说话者，计算出损失LV；最后选定的损失函数为：L＝λDLGAN.D+λVLv+λTLT步骤3、训练：将处理完的声谱图数据送入卷积神经网络，网络输入批量大小(batchsize)设置为64，随机初始化各层的连接权值W和偏执b，给定学习速率η；步骤4、测试：将电影演员A的N岁语音数据转成声谱图，输入至训练好的模型，同时给定年龄M岁，生成电影演员A的M岁语音声谱图；最后生成的声谱图经过傅里叶逆变换，转换成音频信号，最终得到电影演员A的M岁语音。2.如权利要求1所述的基于对抗网络的电影演员自动配音方法，其特征在于：使用傅里叶变换将语音数据转换成声谱图，作为语音识别和说话人识别的输入。3.如权利要求1所述的基于对抗网络的电影演员自动配音方法，其特征在于：步骤2中所述的语音识别、说话人识别、文本比对、生成对抗方法如下：(1)所述语音识别方法，使用QCNN(QuaternionConvolutionalNeuralNetworks)端到端开源语音识别算法训练语音转文本信息语音模型；所述QCNN算法是基于深度学习的语音识别算法，利用训练的模型识别输入的语音声谱图，输出语音对应的文本信息；(2)所述文本比对方法，即训练一个文本比对模型，用于电影演员原始语音文本和电影演员不同年龄语音生成后的文本比对；计算两者损失，使用的损失函数为：其中：x和y分别代表原始语音产生的文本和生成的语音产生的文本，m表示文本字符的个数，i＝1,2,…,m；(3)所述说话人识别方法，首先从网络搜集K个明星不同年龄的语音数据，同一说话人的语音数据具有同一标签，此标签可标识说话人的ID，则标签可以表示为{ID0，ID1，ID2，...，IDk}；再对语音数据进行预处理，将k个明星的语音数据转成声谱图；接着将数据进行归一化处理，去除数据的单位机制，将数据转为无量纲数值，提高模型收敛速度和准确度，标准化后，像素点取值区间为【0，1】；...

【专利技术属性】
技术研发人员：章东平，王都洋，
申请(专利权)人：中国计量大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人