基于语音合成的影片修复方法、装置、设备及介质制造方法及图纸

技术编号:29930586 阅读:37 留言:0更新日期:2021-09-04 18:58
本发明专利技术涉及人工智能技术领域,尤其涉及一种基于语音合成的影片修复方法、装置、设备及介质。该基于语音合成的影片修复方法包括获取待修复影片中的音频缺失片段;其中,所述音频缺失片段对应至少一个目标演员;每一所述目标演员对应一目标音频文本以及演员标识;将每一所述目标演员的目标音频文本以及所述演员标识输入至预训练的多说话人语音合成模型中进行语音合成,以得到每一所述目标演员对应的合成语音;根据每一目标演员对应的所述合成语音修复所述待修复影片中的音频缺失片段。该方法可基于多说话人语音合成模型实现影片中音频缺失片段的自动修复。缺失片段的自动修复。缺失片段的自动修复。

【技术实现步骤摘要】
基于语音合成的影片修复方法、装置、设备及介质


[0001]本专利技术涉及人工智能
,尤其涉及一种基于语音合成的影片修复方法、装置、设备及介质。

技术介绍

[0002]在影片修复过程中,画质修复技术已经较为成熟,且结合人工智能技术也得到较大发展。但是,声音修复一直是一个难题,尤其针对一些珍贵的早期影视,由于时代变迁给胶片载体带来了不同伤害,很多影片仅保留了图像片段但缺失对应的声音片段。
[0003]传统影片声音片段修复技术主要是通过物理及化学手段对胶片进行修复,如去除声迹上的胶接点、修理斑点和断裂的片孔等。现有数字化修复技术通过滤波器或虚拟声音波形可以轻松处理刮擦声、喀哒声等不良录音。但是,针对影片声音缺失片段问题仍然没有较好的处理办法。

技术实现思路

[0004]本专利技术实施例提供一种基于语音合成的影片修复方法、装置、设备及介质,以解决目前对于影片的声音缺失片段无法修复的问题。
[0005]一种基于语音合成的影片修复方法,包括:
[0006]获取待修复影片中的音频缺失片段;其中,所述音频缺失片段对应至少一个目标演员;每一所述目标演员对应一目标音频文本以及演员标识;
[0007]将每一所述目标演员的目标音频文本以及所述演员标识输入至预训练的多说话人语音合成模型中进行语音合成,以得到每一所述目标演员对应的合成语音;
[0008]根据每一目标演员对应的所述合成语音修复所述待修复影片中的音频缺失片段。
[0009]一种基于语音合成的影片修复装置,包括:<br/>[0010]数据获取模块,用于获取待修复影片中的音频缺失片段;其中,所述音频缺失片段对应至少一个目标演员;每一所述目标演员对应一目标音频文本以及演员标识;
[0011]语音合成模块,用于将每一所述目标演员的目标音频文本以及所述演员标识输入至预训练的多说话人语音合成模型中进行语音合成,以得到每一所述目标演员对应的合成语音;
[0012]音频修复模块,用于根据每一目标演员对应的所述合成语音修复所述待修复影片中的音频缺失片段。
[0013]一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于语音合成的影片修复方法的步骤。
[0014]一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于语音合成的影片修复方法的步骤。
[0015]上述基于语音合成的影片修复方法、装置、设备及介质中,通过获取待修复影片中
的音频缺失片段,以便针对音频缺失片段对应的多个演员标识以及每一演员标识对应的目标音频文本合成符合该演员标识对应的目标演员的声音特色的合成语音,即将每一所述目标演员的目标音频文本以及所述演员标识输入至预训练的多说话人语音合成模型中进行语音合成,以得到每一所述目标演员对应的合成语音,从而实现多说话人端到端的语音合成。最后,根据每一目标演员对应的所述合成语音修复所述待修复影片中的音频缺失片段,实现对影片中音频缺失片段的自动修复。
附图说明
[0016]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0017]图1是本专利技术一实施例中基于语音合成的影片修复方法的一应用环境示意图;
[0018]图2是本专利技术一实施例中基于语音合成的影片修复方法的一流程图;
[0019]图3是本专利技术一实施例中基于语音合成的影片修复方法的一流程图;
[0020]图4是图3中步骤S304的一具体流程图;
[0021]图5是图2中步骤S301的一具体流程图;
[0022]图6是本专利技术一实施例中基于语音合成的影片修复装置的一示意图。
[0023]图7是本专利技术一实施例中计算机设备的一示意图。
具体实施方式
[0024]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0025]该基于语音合成的影片修复方法可应用在如图1的应用环境中,其中,计算机设备通过网络与服务器进行通信。计算机设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器来实现。
[0026]在一实施例中,如图2所示,提供一种基于语音合成的影片修复方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
[0027]S201:获取待修复影片中的音频缺失片段;其中,音频缺失片段对应至少一个目标演员;每一目标演员对应一目标音频文本。
[0028]其中,待修复影片即为存在部分或全部音频缺失的影片。该待修复影片中所包含的音频缺失片段中可能由一个或多个不同的演员(即目标演员)演绎,而每一目标演员的音色不同,故需要针对不同的演员合成符合该演员声音特色的语音。进一步地,不同的演员在影片中的台词不同,故针对每一目标演员所对应的音频缺失子片段的音频文本序列不同,即每一目标演员均对应一目标音频文本。该目标音频文本即为音频缺失子片段中由对应目标演员所演绎的部分音频所对应的台词文本。
[0029]S202:将目标演员的目标音频文本以及演员标识输入至预训练的多说话人语音合
成模型中进行语音合成,以得到每一目标演员对应的合成语音。
[0030]其中,多说话人语音合成模型包括身份特征提取网络以及多说话人语音合成网络,用于实现所说话人端到端的语音合成;该多说话人语音合成网络基于Tacotron2模型训练得到,通过该Tacotron2模型进行语音合成,可使获得的合成语音能够更接近电影原声。该Tacotron2模型包括编码器、第一拼接模块、基于注意力机制的解码器以及第二拼接模块;身份特征提取网络分别与第一拼接模块以及第二拼接模块连接。所述编码器用于提取文本特征;所述第一拼接模块用于拼接所述文本特征与通过所述身份特征提取网络所提取的身份特征;所述基于注意力机制的解码器用于预测输出梅尔频谱帧序列;所述第二拼接模块用于拼接所述梅尔频谱帧序列和所述身份特征。
[0031]可以理解地是,为实现多说话人的语音合成,即打破传统Tacotron2模型仅能适用单一说话人的语音合成场景,本实施例中的多说话人语音合成模型在传统的Tacotron2模型的基础上引入一分支网络即身份特征提取网络,以及与所述身份特征提取网络相连的第一拼接模块以及第二拼接模块,实现多说话人的语音合成。其中,本实施例中的Tacotron2模型与传统的Tacotron2模型一致。上述身份特征提取网络是预先通过不同演员的演员标识以及其对本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语音合成的影片修复方法,其特征在于,包括:获取待修复影片中的音频缺失片段;其中,所述音频缺失片段对应至少一个目标演员;每一所述目标演员对应一目标音频文本以及演员标识;将每一所述目标演员的目标音频文本以及所述演员标识输入至预训练的多说话人语音合成模型中进行语音合成,以得到每一所述目标演员对应的合成语音;根据每一目标演员对应的所述合成语音修复所述待修复影片中的音频缺失片段。2.如权利要求1所述基于语音合成的影片修复方法,其特征在于,所述多说话人语音合成模型包括身份特征提取网络以及基于Tacotron2模型训练得到的多说话人语音合成网络;所述Tacotron2模型包括依次连接的编码器、第一拼接模块、基于注意力机制的解码器以及第二拼接模块;所述身份特征提取网络分别与所述第一拼接模块以及所述第二拼接模块连接;所述编码器用于提取文本特征;所述第一拼接模块用于拼接所述文本特征与通过所述身份特征提取网络所提取的身份特征;所述基于注意力机制的解码器用于预测输出梅尔频谱帧序列;所述第二拼接模块用于拼接所述梅尔频谱帧序列和所述身份特征。3.如权利要求2所述基于语音合成的影片修复方法,其特征在于,所述基于Tacotron2模型训练得到多说话人语音合成网络,包括:采集所述目标演员在相同或不同影片中对应的目标音频样本,并将所述目标音频样本转换为压缩格式文件;其中,所述目标音频样本对应一文本序列;将所述压缩格式文件转换为梅尔频谱序列作为真实标签;将所述目标演员的演员标识输入至预训练的身份特征提取网络,提取所述目标演员的身份特征;基于所述真实标签、所述文本序列以及所述身份特征,对预训练的Tacotron2模型进行微调,以得到多说话人语音合成网络。4.如权利要求3所述基于语音合成的影片修复方法,其特征在于,所述基于所述真实标签、所述文本序列以及所述身份特征,对预训练的Tacotron2模型进行微调,以得到多说话人语音合成网络,包括:通过所述编码器提取所述文本序列的文本特征;通过所述第一拼接模块拼接所述文本特征与所述身份特征,得到第一拼接特征;通过基于注意力机制的解码器基于所述第一拼接特征以及上一轮输出的第二拼接特征,预测输出所述音频文本序列对应的第一梅尔频谱帧序列;其中,所述第二拼接特征为上一轮解码器预测输出的第二梅尔频谱帧序列与所述身份特征的拼接特征;通过所述第二拼接模块拼接所述第一梅尔频谱帧序列与所述身份特征,得到第二拼接特征,并将所述第二拼接特征作为下一轮解码器的输入;基于所述第一梅尔频谱帧序列以及...

【专利技术属性】
技术研发人员:张旭龙王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1