用于生成嘴唇动作视频的方法和装置制造方法及图纸

技术编号:22330211 阅读:50 留言:0更新日期:2019-10-19 12:17
本申请实施例公开了用于生成嘴唇动作视频的方法和装置。该方法的一具体实施方式包括:获取目标文本;确定目标文本的每个发音单元对应的嘴唇关键点序列;基于每个发音单元对应的嘴唇关键点序列,生成目标文本对应的嘴唇关键点序列;将目标文本对应的嘴唇关键点序列输入至预先训练的图像合成网络,得到目标文本对应的嘴唇动作图像序列;拼接目标文本对应的嘴唇动作图像序列,生成目标文本对应的嘴唇动作视频。该实施方式提高了生成嘴唇动作视频的效率。

【技术实现步骤摘要】
用于生成嘴唇动作视频的方法和装置
本申请实施例涉及计算机
,具体涉及用于生成嘴唇动作视频的方法和装置。
技术介绍
嘴唇动作视频生成技术是用计算机技术合成指定内容、时间上完全对应、自然流畅的嘴唇动作视频。目前,常用的嘴唇动作视频生成方式是录制所有可能的发音单元对应的嘴唇动作视频,将待合成的句子拆分为发音单元的序列,将每个发音单元对应的嘴唇动作视频按照指定的时间进行缩放,拼接合成嘴唇动作视频。
技术实现思路
本申请实施例提出了用于生成嘴唇动作视频的方法和装置。第一方面,本申请实施例提供了一种用于生成嘴唇动作视频的方法,包括:获取目标文本;确定目标文本的每个发音单元对应的嘴唇关键点序列;基于每个发音单元对应的嘴唇关键点序列,生成目标文本对应的嘴唇关键点序列;将目标文本对应的嘴唇关键点序列输入至预先训练的图像合成网络,得到目标文本对应的嘴唇动作图像序列;拼接目标文本对应的嘴唇动作图像序列,生成目标文本对应的嘴唇动作视频。在一些实施例中,该方法还包括:利用语音合成技术合成目标文本对应的语音;将目标文本对应的语音融合进目标文本对应的嘴唇动作视频。在一些实施例中,确定目标文本的每个发音单元对应的嘴唇关键点序列,包括:获取目标人物预先录制的连续语句的嘴唇动作视频和每个发音单元的原始嘴唇动作视频;对于每个发音单元,确定连续语句的嘴唇动作视频中与该发音单元的原始嘴唇动作视频相似的嘴唇动作视频片段对应的嘴唇关键点序列,生成该发音单元对应的候选嘴唇关键点序列集合;从该发音单元对应的候选嘴唇关键点序列集合中确定该发音单元对应的嘴唇关键点序列。在一些实施例中,确定连续语句的嘴唇动作视频中与该发音单元的原始嘴唇动作视频相似的嘴唇动作视频片段对应的嘴唇关键点序列,生成该发音单元对应的候选嘴唇关键点序列集合,包括:对连续语句的嘴唇动作视频进行嘴唇关键点提取,得到连续语句的嘴唇关键点序列;对该发音单元的原始嘴唇动作视频进行嘴唇关键点提取,得到该发音单元的原始嘴唇关键点序列;从连续语句的嘴唇关键点序列中确定与该发音单元的原始嘴唇关键点序列相似的嘴唇关键点序列,生成该发音单元对应的候选嘴唇关键点序列集合。在一些实施例中,从连续语句的嘴唇关键点序列中确定与该发音单元的原始嘴唇关键点序列相似的嘴唇关键点序列,包括:基于该发音单元的原始嘴唇关键点序列中的原始嘴唇关键点和连续语句的嘴唇关键点序列中的嘴唇关键点,确定与该发音单元的原始嘴唇关键点序列相似的嘴唇关键点序列的结束位置;基于与该发音单元的原始嘴唇关键点序列相似的嘴唇关键点序列的结束位置进行路径回溯,确定与该发音单元的原始嘴唇关键点序列相似的嘴唇关键点序列。在一些实施例中,从该发音单元对应的候选嘴唇关键点序列集合中确定该发音单元对应的嘴唇关键点序列,包括:计算该发音单元对应的每个候选嘴唇关键点序列与该发音单元的相邻发音单元对应的每个候选嘴唇关键点序列的相似度;基于所计算的相似度,确定该发音单元对应的嘴唇关键点序列的结束位置;基于该发音单元对应的嘴唇关键点序列的结束位置进行路径回溯,确定该发音单元对应的嘴唇关键点序列。在一些实施例中,基于每个发音单元对应的嘴唇关键点序列,生成目标文本对应的嘴唇关键点序列,包括:基于目标文本对应的语音,确定每个发音单元的起止时间;将每个发音单元对应的嘴唇关键点序列匹配到每个发音单元对应的起止时间内,生成目标文本对应的嘴唇关键点序列。在一些实施例中,将每个发音单元对应的嘴唇关键点序列匹配到每个发音单元对应的起止时间内,包括:在时序上对每个发音单元对应的嘴唇关键点序列进行线性插值,将每个发音单元对应的嘴唇关键点序列匹配到每个发音单元对应的起止时间内。在一些实施例中,在将每个发音单元对应的嘴唇关键点序列匹配到每个发音单元对应的起止时间内之后,还包括:对相邻的发音单元对应的嘴唇关键点序列进行平滑处理。在一些实施例中,对相邻的发音单元对应的嘴唇关键点序列进行平滑处理,包括:选取相邻的发音单元中的前一个发音单元对应的后预设时长的嘴唇关键点序列片段和后一发音单元对应的前预设时长的嘴唇关键点序列片段;基于所选取出的嘴唇关键点,对相邻的发音单元对应的嘴唇关键点序列进行平滑处理。在一些实施例中,图像合成网络通过如下步骤训练得到:获取训练样本,其中,训练样本包括样本嘴唇关键点和样本嘴唇动作图像;将样本嘴唇关键点作为输入,将样本嘴唇动作图像作为输出,训练得到图像合成网络。在一些实施例中,样本嘴唇动作图像是从目标人物预先录制的连续语句的嘴唇动作视频中抽取的图像,样本嘴唇关键点是对所抽取的图像进行嘴唇关键点提取所得到的嘴唇关键点。第二方面,本申请实施例提供了一种用于生成嘴唇动作视频的装置,包括:文本获取单元,被配置成获取目标文本;序列确定单元,被配置成确定目标文本的每个发音单元对应的嘴唇关键点序列;序列生成单元,被配置成基于每个发音单元对应的嘴唇关键点序列,生成目标文本对应的嘴唇关键点序列;图像合成单元,被配置成将目标文本对应的嘴唇关键点序列输入至预先训练的图像合成网络,得到目标文本对应的嘴唇动作图像序列;视频生成单元,被配置成拼接目标文本对应的嘴唇动作图像序列,生成目标文本对应的嘴唇动作视频。在一些实施例中,该装置还包括:语音合成单元,被配置成利用语音合成技术合成目标文本对应的语音;语音融合单元,被配置成将目标文本对应的语音融合进目标文本对应的嘴唇动作视频。在一些实施例中,序列确定单元,包括:视频获取子单元,被配置成获取目标人物预先录制的连续语句的嘴唇动作视频和每个发音单元的原始嘴唇动作视频;集合生成子单元,被配置成对于每个发音单元,确定连续语句的嘴唇动作视频中与该发音单元的原始嘴唇动作视频相似的嘴唇动作视频片段对应的嘴唇关键点序列,生成该发音单元对应的候选嘴唇关键点序列集合;序列确定子单元,被配置成从该发音单元对应的候选嘴唇关键点序列集合中确定该发音单元对应的嘴唇关键点序列。在一些实施例中,集合生成子单元,包括:第一提取模块,被配置成对连续语句的嘴唇动作视频进行嘴唇关键点提取,得到连续语句的嘴唇关键点序列;第二提取模块,被配置成对该发音单元的原始嘴唇动作视频进行嘴唇关键点提取,得到该发音单元的原始嘴唇关键点序列;集合生成模块,被配置成从连续语句的嘴唇关键点序列中确定与该发音单元的原始嘴唇关键点序列相似的嘴唇关键点序列,生成该发音单元对应的候选嘴唇关键点序列集合。在一些实施例中,集合生成模块进一步被配置成:基于该发音单元的原始嘴唇关键点序列中的原始嘴唇关键点和连续语句的嘴唇关键点序列中的嘴唇关键点,确定与该发音单元的原始嘴唇关键点序列相似的嘴唇关键点序列的结束位置;基于与该发音单元的原始嘴唇关键点序列相似的嘴唇关键点序列的结束位置进行路径回溯,确定与该发音单元的原始嘴唇关键点序列相似的嘴唇关键点序列。在一些实施例中,序列确定子单元进一步被配置成:计算该发音单元对应的每个候选嘴唇关键点序列与该发音单元的相邻发音单元对应的每个候选嘴唇关键点序列的相似度;基于所计算的相似度,确定该发音单元对应的嘴唇关键点序列的结束位置;基于该发音单元对应的嘴唇关键点序列的结束位置进行路径回溯,确定该发音单元对应的嘴唇关键点序列。在一些实施例中,序列生成单元,包括:时间确定子单元,被配置成基于目标本文档来自技高网...

【技术保护点】
1.一种用于生成嘴唇动作视频的方法,包括:获取目标文本;确定所述目标文本的每个发音单元对应的嘴唇关键点序列;基于每个发音单元对应的嘴唇关键点序列,生成所述目标文本对应的嘴唇关键点序列;将所述目标文本对应的嘴唇关键点序列输入至预先训练的图像合成网络,得到所述目标文本对应的嘴唇动作图像序列;拼接所述目标文本对应的嘴唇动作图像序列,生成所述目标文本对应的嘴唇动作视频。

【技术特征摘要】
1.一种用于生成嘴唇动作视频的方法,包括:获取目标文本;确定所述目标文本的每个发音单元对应的嘴唇关键点序列;基于每个发音单元对应的嘴唇关键点序列,生成所述目标文本对应的嘴唇关键点序列;将所述目标文本对应的嘴唇关键点序列输入至预先训练的图像合成网络,得到所述目标文本对应的嘴唇动作图像序列;拼接所述目标文本对应的嘴唇动作图像序列,生成所述目标文本对应的嘴唇动作视频。2.根据权利要求1所述的方法,其中,所述方法还包括:利用语音合成技术合成所述目标文本对应的语音;将所述目标文本对应的语音融合进所述目标文本对应的嘴唇动作视频。3.根据权利要求1所述的方法,其中,所述确定所述目标文本的每个发音单元对应的嘴唇关键点序列,包括:获取目标人物预先录制的连续语句的嘴唇动作视频和每个发音单元的原始嘴唇动作视频;对于每个发音单元,确定所述连续语句的嘴唇动作视频中与该发音单元的原始嘴唇动作视频相似的嘴唇动作视频片段对应的嘴唇关键点序列,生成该发音单元对应的候选嘴唇关键点序列集合;从该发音单元对应的候选嘴唇关键点序列集合中确定该发音单元对应的嘴唇关键点序列。4.根据权利要求3所述的方法,其中,所述确定所述连续语句的嘴唇动作视频中与该发音单元的原始嘴唇动作视频相似的嘴唇动作视频片段对应的嘴唇关键点序列,生成该发音单元对应的候选嘴唇关键点序列集合,包括:对所述连续语句的嘴唇动作视频进行嘴唇关键点提取,得到所述连续语句的嘴唇关键点序列;对该发音单元的原始嘴唇动作视频进行嘴唇关键点提取,得到该发音单元的原始嘴唇关键点序列;从所述连续语句的嘴唇关键点序列中确定与该发音单元的原始嘴唇关键点序列相似的嘴唇关键点序列,生成该发音单元对应的候选嘴唇关键点序列集合。5.根据权利要求4所述的方法,其中,所述从所述连续语句的嘴唇关键点序列中确定与该发音单元的原始嘴唇关键点序列相似的嘴唇关键点序列,包括:基于该发音单元的原始嘴唇关键点序列中的原始嘴唇关键点和所述连续语句的嘴唇关键点序列中的嘴唇关键点,确定与该发音单元的原始嘴唇关键点序列相似的嘴唇关键点序列的结束位置;基于与该发音单元的原始嘴唇关键点序列相似的嘴唇关键点序列的结束位置进行路径回溯,确定与该发音单元的原始嘴唇关键点序列相似的嘴唇关键点序列。6.根据权利要求3所述的方法,其中,所述从该发音单元对应的候选嘴唇关键点序列集合中确定该发音单元对应的嘴唇关键点序列,包括:计算该发音单元对应的每个候选嘴唇关键点序列与该发音单元的相邻发音单元对应的每个候选嘴唇关键点序列的相似度;基于所计算的相似度,确定该发音单元对应的嘴唇关键点序列的结束位置;基于该发音单元对应的嘴唇关键点序列的结束位置进行路径回溯,确定该发音单...

【专利技术属性】
技术研发人员:龙翔李鑫刘霄赵翔王平李甫张赫男孙昊文石磊丁二锐
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1