基于语音合成的影片修复方法、装置、设备及介质制造方法及图纸

技术编号：29930586 阅读：37 留言：0更新日期：2021-09-04 18:58

本发明专利技术涉及人工智能技术领域，尤其涉及一种基于语音合成的影片修复方法、装置、设备及介质。该基于语音合成的影片修复方法包括获取待修复影片中的音频缺失片段；其中，所述音频缺失片段对应至少一个目标演员；每一所述目标演员对应一目标音频文本以及演员标识；将每一所述目标演员的目标音频文本以及所述演员标识输入至预训练的多说话人语音合成模型中进行语音合成，以得到每一所述目标演员对应的合成语音；根据每一目标演员对应的所述合成语音修复所述待修复影片中的音频缺失片段。该方法可基于多说话人语音合成模型实现影片中音频缺失片段的自动修复。缺失片段的自动修复。缺失片段的自动修复。

全部详细技术资料下载

【技术实现步骤摘要】
基于语音合成的影片修复方法、装置、设备及介质

[0001]本专利技术涉及人工智能
，尤其涉及一种基于语音合成的影片修复方法、装置、设备及介质。

技术介绍

[0002]在影片修复过程中，画质修复技术已经较为成熟，且结合人工智能技术也得到较大发展。但是，声音修复一直是一个难题，尤其针对一些珍贵的早期影视，由于时代变迁给胶片载体带来了不同伤害，很多影片仅保留了图像片段但缺失对应的声音片段。
[0003]传统影片声音片段修复技术主要是通过物理及化学手段对胶片进行修复，如去除声迹上的胶接点、修理斑点和断裂的片孔等。现有数字化修复技术通过滤波器或虚拟声音波形可以轻松处理刮擦声、喀哒声等不良录音。但是，针对影片声音缺失片段问题仍然没有较好的处理办法。

技术实现思路

[0004]本专利技术实施例提供一种基于语音合成的影片修复方法、装置、设备及介质，以解决目前对于影片的声音缺失片段无法修复的问题。
[0005]一种基于语音合成的影片修复方法，包括：
[0006]获取待修复影片中的音频缺失片段；其中，所述音频缺失片段对应至少一个目标演员；每一所述目标演员对应一目标音频文本以及演员标识；
[0007]将每一所述目标演员的目标音频文本以及所述演员标识输入至预训练的多说话人语音合成模型中进行语音合成，以得到每一所述目标演员对应的合成语音；
[0008]根据每一目标演员对应的所述合成语音修复所述待修复影片中的音频缺失片段。
[0009]一种基于语音合成的影片修复装置，包括：<...

【技术保护点】

【技术特征摘要】
1.一种基于语音合成的影片修复方法，其特征在于，包括：获取待修复影片中的音频缺失片段；其中，所述音频缺失片段对应至少一个目标演员；每一所述目标演员对应一目标音频文本以及演员标识；将每一所述目标演员的目标音频文本以及所述演员标识输入至预训练的多说话人语音合成模型中进行语音合成，以得到每一所述目标演员对应的合成语音；根据每一目标演员对应的所述合成语音修复所述待修复影片中的音频缺失片段。2.如权利要求1所述基于语音合成的影片修复方法，其特征在于，所述多说话人语音合成模型包括身份特征提取网络以及基于Tacotron2模型训练得到的多说话人语音合成网络；所述Tacotron2模型包括依次连接的编码器、第一拼接模块、基于注意力机制的解码器以及第二拼接模块；所述身份特征提取网络分别与所述第一拼接模块以及所述第二拼接模块连接；所述编码器用于提取文本特征；所述第一拼接模块用于拼接所述文本特征与通过所述身份特征提取网络所提取的身份特征；所述基于注意力机制的解码器用于预测输出梅尔频谱帧序列；所述第二拼接模块用于拼接所述梅尔频谱帧序列和所述身份特征。3.如权利要求2所述基于语音合成的影片修复方法，其特征在于，所述基于Tacotron2模型训练得到多说话人语音合成网络，包括：采集所述目标演员在相同或不同影片中对应的目标音频样本，并将所述目标音频样本转换为压缩格式文件；其中，所述目标音频样本对应一文本序列；将所述压缩格式文件转换为梅尔频谱序列作为真实标签；将所述目标演员的演员标识输入至预训练的身份特征提取网络，提取所述目标演员的身份特征；基于所述真实标签、所述文本序列以及所述身份特征，对预训练的Tacotron2模型进行微调，以得到多说话人语音合成网络。4.如权利要求3所述基于语音合成的影片修复方法，其特征在于，所述基于所述真实标签、所述文本序列以及所述身份特征，对预训练的Tacotron2模型进行微调，以得到多说话人语音合成网络，包括：通过所述编码器提取所述文本序列的文本特征；通过所述第一拼接模块拼接所述文本特征与所述身份特征，得到第一拼接特征；通过基于注意力机制的解码器基于所述第一拼接特征以及上一轮输出的第二拼接特征，预测输出所述音频文本序列对应的第一梅尔频谱帧序列；其中，所述第二拼接特征为上一轮解码器预测输出的第二梅尔频谱帧序列与所述身份特征的拼接特征；通过所述第二拼接模块拼接所述第一梅尔频谱帧序列与所述身份特征，得到第二拼接特征，并将所述第二拼接特征作为下一轮解码器的输入；基于所述第一梅尔频谱帧序列以及...

【专利技术属性】
技术研发人员：张旭龙，王健宗，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人