视频合成方法、装置、设备及存储介质制造方法及图纸

技术编号：25843371 阅读：22 留言：0更新日期：2020-10-02 14:22

本申请公开了一种视频合成方法、装置、设备及存储介质，涉及视频处理领域。该方法包括：获取文本；获取文本对应的音频，对音频进行处理，得到音频中的音素序列对应的n种口型标识和各个口型标识的口型时间点信息，n为正整数；获取标准化口型序列帧和含有主播形象的视频，标准化口型序列帧包括n种口型标识对应的口型视频帧；按照各个口型标识的口型时间点信息，将n种口型标识对应的口型视频帧与含有主播形象的视频进行合成处理，得到主播视频。无需预先训练用于合成视频的机器学习模型，只需提供文本即可实现合成主播视频，降低了视频的合成难度，同时提高了视频的合成效率。

全部详细技术资料下载

【技术实现步骤摘要】
视频合成方法、装置、设备及存储介质
本申请涉及视频处理领域，特别涉及一种视频合成方法、装置、设备及存储介质。
技术介绍
通常以录制视频的方式直观地向大众传递信息，比如新闻播报、会议主持、法律科普、游戏解说等。以新闻播报为例，为了降低人工录制视频的劳动强度，利用经过深度学习的机器学习模型对含有新闻播报语音的目标语音序列和含有新闻主播的人脸图像序列进行融合，得到新闻播报视频。上述技术方案中，需要采集大量的样本语音和样本图像对机器学习模型进行训练，目标视频的合成难度较高，且合成效率较低。
技术实现思路
本申请实施例提供了一种视频合成方法、装置、设备及存储介质，通过获取到的文本合成视频，降低了视频合成的难度，提高了视频合成的效率。所述技术方案如下：根据本申请的一方面，提供了一种视频合成方法，所述方法包括：获取文本；获取所述文本对应的音频，对所述音频进行处理，得到所述音频中的音素序列对应的n种口型标识和各个口型标识的口型时间点信息，n为正整数；获取标准化口型序列帧和含有主播形象的视频，所述标准化口型序列帧包括所述n种口型标识对应的口型视频帧；按照所述各个口型标识的口型时间点信息，将所述n种口型标识对应的口型视频帧与所述含有主播形象的视频进行合成处理，得到主播视频。根据本申请的另一方面，提供了一种视频合成装置，所述装置包括：获取模块，用于获取文本；所述获取模块，用于获取所述文本对应的音频，对所述音频进行处理，得到所述音频中的音素序...

【技术保护点】
1.一种视频合成方法，其特征在于，所述方法包括：/n获取文本；/n获取所述文本对应的音频，对所述音频进行处理，得到所述音频中的音素序列对应的n种口型标识和各个口型标识的口型时间点信息，n为正整数；/n获取标准化口型序列帧和含有主播形象的视频，所述标准化口型序列帧包括所述n种口型标识对应的口型视频帧；/n按照所述各个口型标识的口型时间点信息，将所述n种口型标识对应的口型视频帧与所述含有主播形象的视频进行合成处理，得到主播视频。/n

【技术特征摘要】
1.一种视频合成方法，其特征在于，所述方法包括：
获取文本；
获取所述文本对应的音频，对所述音频进行处理，得到所述音频中的音素序列对应的n种口型标识和各个口型标识的口型时间点信息，n为正整数；
获取标准化口型序列帧和含有主播形象的视频，所述标准化口型序列帧包括所述n种口型标识对应的口型视频帧；
按照所述各个口型标识的口型时间点信息，将所述n种口型标识对应的口型视频帧与所述含有主播形象的视频进行合成处理，得到主播视频。

2.根据权利要求1所述的方法，其特征在于，所述按照所述各个口型标识的口型时间点信息，将所述n种口型标识对应的口型视频帧与所述含有主播形象的视频进行合成处理，得到主播视频，包括：
从所述标准化口型序列帧中获取所述n种口型标识对应的口型视频帧；
按照所述各个口型标识的口型时间点信息，将所述各个口型标识对应的口型视频帧贴合在所述含有主播形象的视频的视频帧中，得到所述主播视频。

3.根据权利要求2所述的方法，其特征在于，所述按照所述各个口型标识的口型时间点信息，将所述各个口型标识对应的口型视频帧贴合在所述含有主播形象的视频的视频帧中，得到所述主播视频，包括：
根据相邻口型之间的相邻口型时间点信息，对相邻的所述口型视频帧的时长进行变速处理，得到处理后的口型视频帧；
按照所述各个口型标识的口型时间点信息，将所述各个口型标识对应的所述处理后的口型视频帧进行融合，得到融合后的口型视频帧；
将所述融合后的口型视频帧贴合在所述视频帧中的主播的嘴部，得到所述主播视频。

4.根据权利要求3所述的方法，其特征在于，所述将所述融合后的口型视频帧贴合在所述视频帧中的主播的嘴部，得到所述主播视频，包括：
从所述含有主播形象的视频中截取第一时长的视频，所述第一时长是所述文本对应的音频的时长，所述第一时长的视频包括含有所述主播的嘴部的视频帧；
将所述融合后的口型视频帧贴合在含有所述主播的嘴部的视频帧中，得到所述主播视频。

5.根据权利要求1至4任一所述的方法，其特征在于，所述获取所述文本对应的音频，对所述音频进行处理，得到所述音频中的音素序列对应的n种口型标识和各个口型标识的口型时间点信息，包括：
根据所述文本得到所述文本对应的音频，对所述音频进行处理，得到所述音频中的音素序列；
根据口型分配规则对所述音素序列进行划分，得到所述音素序列对应的n种口型，所述n种口型对应有所述n种口型标识；
调用音素时间点预测模型对所述文本对应的音频和所述音素序列进行识别，得到所述音素序列对应的所述各个口型标识的口型时间点信息，所述口型时间点信息包括所述各个口型标识出现的开始时间和结束时间。

6.根据权利要求5所述的方法，其特征在于，所述音素时间点预测模型是通过如下方式训练得到的：
获取样本文本和样本音频，所述样本音频中的样本音素序...

【专利技术属性】
技术研发人员：董霙，刘炳楠，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人