视频合成方法、装置、设备及存储介质制造方法及图纸

技术编号:25843371 阅读:22 留言:0更新日期:2020-10-02 14:22
本申请公开了一种视频合成方法、装置、设备及存储介质,涉及视频处理领域。该方法包括:获取文本;获取文本对应的音频,对音频进行处理,得到音频中的音素序列对应的n种口型标识和各个口型标识的口型时间点信息,n为正整数;获取标准化口型序列帧和含有主播形象的视频,标准化口型序列帧包括n种口型标识对应的口型视频帧;按照各个口型标识的口型时间点信息,将n种口型标识对应的口型视频帧与含有主播形象的视频进行合成处理,得到主播视频。无需预先训练用于合成视频的机器学习模型,只需提供文本即可实现合成主播视频,降低了视频的合成难度,同时提高了视频的合成效率。

【技术实现步骤摘要】
视频合成方法、装置、设备及存储介质
本申请涉及视频处理领域,特别涉及一种视频合成方法、装置、设备及存储介质。
技术介绍
通常以录制视频的方式直观地向大众传递信息,比如新闻播报、会议主持、法律科普、游戏解说等。以新闻播报为例,为了降低人工录制视频的劳动强度,利用经过深度学习的机器学习模型对含有新闻播报语音的目标语音序列和含有新闻主播的人脸图像序列进行融合,得到新闻播报视频。上述技术方案中,需要采集大量的样本语音和样本图像对机器学习模型进行训练,目标视频的合成难度较高,且合成效率较低。
技术实现思路
本申请实施例提供了一种视频合成方法、装置、设备及存储介质,通过获取到的文本合成视频,降低了视频合成的难度,提高了视频合成的效率。所述技术方案如下:根据本申请的一方面,提供了一种视频合成方法,所述方法包括:获取文本;获取所述文本对应的音频,对所述音频进行处理,得到所述音频中的音素序列对应的n种口型标识和各个口型标识的口型时间点信息,n为正整数;获取标准化口型序列帧和含有主播形象的视频,所述标准化口型序列帧包括所述n种口型标识对应的口型视频帧;按照所述各个口型标识的口型时间点信息,将所述n种口型标识对应的口型视频帧与所述含有主播形象的视频进行合成处理,得到主播视频。根据本申请的另一方面,提供了一种视频合成装置,所述装置包括:获取模块,用于获取文本;所述获取模块,用于获取所述文本对应的音频,对所述音频进行处理,得到所述音频中的音素序列对应的n种口型标识和各个口型标识的口型时间点信息,n为正整数;所述获取模块,用于获取标准化口型序列帧和含有主播形象的视频,所述标准化口型序列帧包括所述n种口型标识对应的口型视频帧;合成模块,用于按照所述各个口型标识的口型时间点信息,将所述n种口型标识对应的口型视频帧与所述含有主播形象的视频进行合成处理,得到主播视频。根据本申请的另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的视频合成方法。根据本申请的另一方面,提供了一种计算机可读存储介质,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的视频合成方法。根据本申请的另一方面,提供了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行如上方面所述的视频合成方法。本申请实施例提供的技术方案带来的有益效果至少包括:本申请实施例基于合成处理的思想,通过获取文本,结合获取到的文本对应的音频以及文本与音素的转化关系,确定音频中的n种口型标识和各个口型的口型时间点信息,利用获取到的文本、标准化口型系列帧以及含有主播形象的视频,结合各个口型的口型时间点信息合成主播视频。无需预先训练用于合成视频的机器学习模型,只需提供文本即可实现合成主播视频,降低了视频的合成难度,同时提高了视频的合成效率。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请一个示例性实施例提供的视频合成方法的原理示意图;图2是本申请一个示例性实施例提供的计算机系统的框架图;图3是本申请一个示例性实施例提供的系统框架图;图4是本申请一个示例性实施例提供的视频合成方法的流程图;图5是本申请一个示例性实施例提供的口型类型的示意图;图6是本申请另一个示例性实施例提供的视频合成方法的流程图;图7是本申请一个示例性实施例提供的音素时间点预测模型的训练方法的流程图;图8是本申请一个示例性示例提供的主播视频的效果图;图9是本申请一个示例性实施例提供的采集视频数据的流程示意图;图10是本申请一个示例性实施例提供的标准化口型序列帧的获取方法的流程图;图11是本申请一个示例性实施例提供的含有主播形象的视频的获取方法的流程图;图12是本申请另一个示例性实施例提供的视频合成方法的流程图;图13是本申请一个示例性实施例提供的视频合成装置的结构框图;图14是本申请一个示例性实施例提供的服务器的装置结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。首先,对本申请实施例涉及的名词进行介绍。音素:是指根据语音的自然属性划分出来最小语音单位,根据音节中的发音动作进行划分,一个发音动作构成一个音素。音素包括元音和辅音两种类型,比如,汉字“啊”字对应的音节为“a”,该汉字对应一个音素,又比如,汉字“爱”对应的音节为“ai”,该汉字对应两个音素,以此类推,汉字“带”对应有三个音素。需要说明的是,一个汉字最多对应四个音素,比如汉字“装”对应的音节为“zhuang”,该汉字对应四个音素:“zh”、“u”、“a”、“ng”。如图1所示,本申请实施例提供了一种视频合成方法。采用本申请实施例提供的方法应用于合成任意类型的视频场景中。计算机设备首先获取文本,该文本的内容可以是关于新闻视频的内容、关于游戏解说的内容、关于法律科普的内容等,本申请实施例对文本的内容不加以限定。在一些实施例中,计算机设备通过从文本到语音技术(TexttoSpeech,TTS)接口将输入的文本11转换为音频121。在另一些实施例中,音频121是预先录制的音频,文本是与该录制的音频对应的文本。本申请实施例对音频的获方式不加以限定。示意性的,在计算机设备接收到文本11时,将文本11进行标准化处理,即将文本中非文字的部分统一转化为文字,比如:北京时间19:30转化为北京时间十九点三十分。对标准化处理后得到的文本进行分词处理,根据分词处理后的文本得到每个词语对应的音素122。然后,计算机设备将音频121和音素122输入至音素时间点预测模型15中,得到音素时间点信息16,该音素时间点信息16包括每个音素出现的时间点和结束的时间点。一个汉字对应一个或多个音素,计算机设备根据口型分配规则(如视位音规则,Viseme)将音素122转换为对应的口型。计算机设备获得与文本11对应的口型以及与文本11对应的音素时间点信息,从而得到口型标识和口型时间点信息21。示意性的,计算机设备预先存储有采集到的口型视频13,根据398种拼音从口型视频13中本文档来自技高网...

【技术保护点】
1.一种视频合成方法,其特征在于,所述方法包括:/n获取文本;/n获取所述文本对应的音频,对所述音频进行处理,得到所述音频中的音素序列对应的n种口型标识和各个口型标识的口型时间点信息,n为正整数;/n获取标准化口型序列帧和含有主播形象的视频,所述标准化口型序列帧包括所述n种口型标识对应的口型视频帧;/n按照所述各个口型标识的口型时间点信息,将所述n种口型标识对应的口型视频帧与所述含有主播形象的视频进行合成处理,得到主播视频。/n

【技术特征摘要】
1.一种视频合成方法,其特征在于,所述方法包括:
获取文本;
获取所述文本对应的音频,对所述音频进行处理,得到所述音频中的音素序列对应的n种口型标识和各个口型标识的口型时间点信息,n为正整数;
获取标准化口型序列帧和含有主播形象的视频,所述标准化口型序列帧包括所述n种口型标识对应的口型视频帧;
按照所述各个口型标识的口型时间点信息,将所述n种口型标识对应的口型视频帧与所述含有主播形象的视频进行合成处理,得到主播视频。


2.根据权利要求1所述的方法,其特征在于,所述按照所述各个口型标识的口型时间点信息,将所述n种口型标识对应的口型视频帧与所述含有主播形象的视频进行合成处理,得到主播视频,包括:
从所述标准化口型序列帧中获取所述n种口型标识对应的口型视频帧;
按照所述各个口型标识的口型时间点信息,将所述各个口型标识对应的口型视频帧贴合在所述含有主播形象的视频的视频帧中,得到所述主播视频。


3.根据权利要求2所述的方法,其特征在于,所述按照所述各个口型标识的口型时间点信息,将所述各个口型标识对应的口型视频帧贴合在所述含有主播形象的视频的视频帧中,得到所述主播视频,包括:
根据相邻口型之间的相邻口型时间点信息,对相邻的所述口型视频帧的时长进行变速处理,得到处理后的口型视频帧;
按照所述各个口型标识的口型时间点信息,将所述各个口型标识对应的所述处理后的口型视频帧进行融合,得到融合后的口型视频帧;
将所述融合后的口型视频帧贴合在所述视频帧中的主播的嘴部,得到所述主播视频。


4.根据权利要求3所述的方法,其特征在于,所述将所述融合后的口型视频帧贴合在所述视频帧中的主播的嘴部,得到所述主播视频,包括:
从所述含有主播形象的视频中截取第一时长的视频,所述第一时长是所述文本对应的音频的时长,所述第一时长的视频包括含有所述主播的嘴部的视频帧;
将所述融合后的口型视频帧贴合在含有所述主播的嘴部的视频帧中,得到所述主播视频。


5.根据权利要求1至4任一所述的方法,其特征在于,所述获取所述文本对应的音频,对所述音频进行处理,得到所述音频中的音素序列对应的n种口型标识和各个口型标识的口型时间点信息,包括:
根据所述文本得到所述文本对应的音频,对所述音频进行处理,得到所述音频中的音素序列;
根据口型分配规则对所述音素序列进行划分,得到所述音素序列对应的n种口型,所述n种口型对应有所述n种口型标识;
调用音素时间点预测模型对所述文本对应的音频和所述音素序列进行识别,得到所述音素序列对应的所述各个口型标识的口型时间点信息,所述口型时间点信息包括所述各个口型标识出现的开始时间和结束时间。


6.根据权利要求5所述的方法,其特征在于,所述音素时间点预测模型是通过如下方式训练得到的:
获取样本文本和样本音频,所述样本音频中的样本音素序...

【专利技术属性】
技术研发人员:董霙刘炳楠
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1