视频生成方法、装置、终端及存储介质制造方法及图纸

技术编号:26976548 阅读:71 留言:0更新日期:2021-01-06 00:13
本申请实施例公开了一种视频生成方法、装置、终端及存储介质,属于计算机技术领域。该方法包括:获得所选取的待匹配音频对应的发音嘴型序列;获取与发音嘴型序列对应的嘴型素材图像序列;利用嘴型素材图像序列对待匹配图像进行替换融合处理,得到目标图像序列;对待匹配音频与目标图像序列进行合并编码,生成目标视频;同一时刻下,目标视频中视频帧对应的发音嘴型与音频帧对应的发音嘴型相同。本申请实施例中,通过替换待匹配图像中发音嘴型的方式生成目标图像,使目标图像的发音嘴型适配待匹配音频的内容,用户只需提供一张人脸图像就能得到人物模仿待匹配音频中音频内容的目标视频,降低了制作目标视频的成本,提高了视频生成效率。

【技术实现步骤摘要】
视频生成方法、装置、终端及存储介质
本申请实施例涉及计算机
,特别涉及一种视频生成方法、装置、终端及存储介质。
技术介绍
随着计算机技术的发展,智能终端通常具有音频播放和视频拍摄功能。用户可以利用智能终端播放音频,同时开启视频拍摄功能,从而根据音频内容进行表演或模仿,例如在终端播放音乐时使其拍摄用户跟随音乐对嘴型的视频。相关技术中,终端在音频的播放起始时刻开始拍摄视频,并在音频的播放结束时刻停止拍摄,直接生成包含用户模仿画面的视频,或者在音频的播放起始时刻开始采集用户的动态图像,并将音频文件与图像文件进行编码,合成视频文件。然而,若采用相关技术中的视频生成方法,用户需要预先熟悉音频内容,并且需要根据音频内容对口型,从而达到逼真的效果,操作较为费时费力,拍摄视频的效率较低。
技术实现思路
本申请实施例提供了一种视频生成方法、装置、终端及存储介质,使得用户只需提供一张人脸图像就能得到人物模仿待匹配音频中音频内容的目标视频,从而降低制作目标视频的成本,提高视频生成效率。所述技术方案如下:一方面,本申请实施例提供了一种视频生成方法,所述方法包括:获得所选取的待匹配音频对应的发音嘴型序列;获取与所述发音嘴型序列对应的嘴型素材图像序列,所述嘴型素材图像序列中的嘴型素材图像与所述发音嘴型序列中的发音嘴型一一对应;利用所述嘴型素材图像序列对待匹配图像进行替换融合处理,得到目标图像序列,所述待匹配图像为包含嘴部的人脸图像;对所述待匹配音频与所述目标图像序列进行合并编码,生成目标视频;同一时刻下,所述目标视频中视频帧对应的所述发音嘴型与音频帧对应的所述发音嘴型相同。另一方面,本申请实施例提供了一种视频生成装置,所述装置包括:第一获取模块,用于获得所选取的待匹配音频对应的发音嘴型序列;第二获取模块,用于获取与所述发音嘴型序列对应的嘴型素材图像序列,所述嘴型素材图像序列中的嘴型素材图像与所述发音嘴型序列中的发音嘴型一一对应;替换模块,用于利用所述嘴型素材图像序列对待匹配图像进行替换融合处理,得到目标图像序列,所述待匹配图像为包含嘴部的人脸图像;生成模块,用于对所述待匹配音频与所述目标图像序列进行合并编码,生成目标视频;同一时刻下,所述目标视频中视频帧对应的所述发音嘴型与音频帧对应的所述发音嘴型相同。另一方面,本申请实施例提供了一种终端,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的视频生成方法。另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的视频生成方法。根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。终端的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该终端执行上述方面的各种可选实现方式中提供的视频生成方法。本申请实施例提供的技术方案的有益效果至少包括:本申请实施例中,根据待匹配音频对应的发音嘴型序列,利用嘴型素材图像对待匹配图像进行替换融合处理,从而得到不同嘴型的目标图像,通过替换待匹配图像中发音嘴型的方式生成目标图像,使目标图像的发音嘴型适配待匹配音频的内容,用户只需提供一张人脸图像就能得到人物模仿待匹配音频中音频内容的目标视频,降低了制作目标视频的成本,提高了视频生成效率。附图说明图1是根据本申请一示例性实施例示出的视频生成方法的流程图;图2是根据本申请一示例性实施例示出的不同发音嘴型的示意图;图3是根据本申请另一示例性实施例示出的视频生成方法的流程图;图4是根据本申请一示例性实施例示出的对待匹配图片进行替换融合处理的示意图;图5是根据本申请另一示例性实施例示出的视频生成方法的流程图;图6是根据本申请另一示例性实施例示出的视频生成方法的流程图;图7是根据本申请一示例性实施例示出的视频生成装置的结构框图;图8是根据本申请一示例性实施例示出的终端的结构框图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。相关技术中,用户在想要获取自身模仿他人说话、唱歌等的视频时,通常利用智能终端播放音频,同时开启视频拍摄功能,从而根据音频内容进行表演或模仿,例如在终端播放音乐时使其拍摄用户跟随音乐对嘴型的视频。终端在音频的播放起始时刻开始拍摄视频,并在音频的播放结束时刻停止拍摄,直接生成包含用户模仿画面的视频,或者在音频的播放起始时刻开始采集用户的动态图像,并将音频文件与图像文件进行编码,合成视频文件。然而,若采用相关技术中的视频生成方法,用户需要预先熟悉音频内容,并且需要根据音频内容对口型,并且需要保证自己的发音嘴型与同一时刻的音频内容的发音嘴型一致,操作较为费时费力,拍摄视频的效率较低。为了解决相关技术中存在的问题,本申请实施例提供了一种视频生成方法。本申请各个实施例提供的视频生成方法用于具有图像处理、音频处理以及视频处理和播放功能的终端,该终端可以是智能手机、平板电脑、电子书阅读器、个人便携式计算机等。通过本申请实施例提供的视频生成方法,终端可以通过替换待匹配图像中发音嘴型的方式生成目标图像,使目标图像的发音嘴型适配待匹配音频的内容,用户只需提供一张人脸图像就能得到人物模仿待匹配音频中音频内容的目标视频,从而降低制作目标视频的成本,提高视频生成效率。图1示出了本申请的一个实施例示出的视频生成方法的流程图。本实施例以视频生成方法用于具有图像处理、音频处理以及视频处理和播放功能的终端为例进行说明,该方法包括:步骤101,获得所选取的待匹配音频对应的发音嘴型序列。其中,发音嘴型是指人通过嘴部发声时对应的口型。例如,人在说话或唱歌时,每个字都对应有特定的发音,不同的发音需要人控制嘴部维持不同的嘴型。比如汉字“啊”对应的嘴型中上唇与下唇距离较大,而汉字“一”对应的嘴型中上唇与下唇距离较小。在一种可能的实施方式中,开发人员预先确定字母、文字或单词等发音单位的发音与嘴型之间的对应关系,并规定获取待匹配音频发音序列的方式,例如每隔预定时长获取该时刻待匹配音频中音频内容的发音,或者对待匹配音频进行音频识别,得到待匹配音频对应的音频内容,并解析得到每个文字或单词的首字母对应的本文档来自技高网...

【技术保护点】
1.一种视频生成方法,其特征在于,所述方法包括:/n获得所选取的待匹配音频对应的发音嘴型序列;/n获取与所述发音嘴型序列对应的嘴型素材图像序列,所述嘴型素材图像序列中的嘴型素材图像与所述发音嘴型序列中的发音嘴型一一对应;/n利用所述嘴型素材图像序列对待匹配图像进行替换融合处理,得到目标图像序列,所述待匹配图像为包含嘴部的人脸图像;/n对所述待匹配音频与所述目标图像序列进行合并编码,生成目标视频;同一时刻下,所述目标视频中视频帧对应的所述发音嘴型与音频帧对应的所述发音嘴型相同。/n

【技术特征摘要】
1.一种视频生成方法,其特征在于,所述方法包括:
获得所选取的待匹配音频对应的发音嘴型序列;
获取与所述发音嘴型序列对应的嘴型素材图像序列,所述嘴型素材图像序列中的嘴型素材图像与所述发音嘴型序列中的发音嘴型一一对应;
利用所述嘴型素材图像序列对待匹配图像进行替换融合处理,得到目标图像序列,所述待匹配图像为包含嘴部的人脸图像;
对所述待匹配音频与所述目标图像序列进行合并编码,生成目标视频;同一时刻下,所述目标视频中视频帧对应的所述发音嘴型与音频帧对应的所述发音嘴型相同。


2.根据权利要求1所述的方法,其特征在于,所述获取与所述发音嘴型序列对应的嘴型素材图像序列之前,所述方法包括:
对所述待匹配图像进行图像识别,得到所述待匹配图像的人脸属性;
根据所述人脸属性从候选素材库中确定第一目标素材库,所述第一目标素材库对应的素材属性与所述人脸属性的匹配度符合第一预设匹配条件,所述候选素材库中包含同一所述素材属性下不同所述发音嘴型的所述嘴型素材图像;
所述获取与所述发音嘴型序列对应的嘴型素材图像序列,包括:
根据所述发音嘴型序列,从所述第一目标素材库中获取所述嘴型素材图像,得到所述嘴型素材图像序列。


3.根据权利要求2所述的方法,其特征在于,所述人脸属性包括第一目标年龄、目标唇形和第一目标性别中的至少一种,所述素材属性包括素材年龄区间、素材唇形和素材性别中的至少一种;
所述第一预设匹配条件包括:
所述第一目标性别与所述素材性别相同;
和/或,所述第一目标年龄属于所述素材年龄区间;
和/或,所述目标唇形与所述素材唇形的相似度大于相似度阈值。


4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
响应于所述匹配度不符合所述第一预设匹配条件,对所述待匹配音频进行声音识别,得到所述待匹配音频的声音属性;
根据所述声音属性从所述候选素材库中确定第二目标素材库,所述第二目标素材库对应的所述素材属性与所述声音属性的匹配度符合第二预设匹配条件;
所述获取与所述发音嘴型序列对应的嘴型素材图像序列,包括:
根据所述发音嘴型序列,从所述第二目标素材库中获取所述嘴型素材图像,得到所述嘴型素材图像序列。


5.根据权利要求4所述的方法,其特征在于,所述声音属性包括第二目标年龄和第二目标性别中的至少一种,所述素材属性包括素材年龄区间和素材性别中的至少一种;
所述第二预设匹配条件包括:
所述第二目标性别与所述素材性别相同,和/或,所述第二目标年龄属于所述素材年龄区间。


6.根据权利要求1至5任一所述的方法,其特征在于,所述利用所述嘴型素材图像序列对待匹配图像进行替换融合处理,得到目标图像序列,包括:
根据所述待匹配图像中的所述发音嘴型与所述嘴型素材图像序列中各个所述嘴型素材图像的相似度,确定各个所述嘴型素材图像的透明度,所述相似度与所述透明度呈正相关关系;
按所述透明度对所述嘴型素材图像序列中的各个所述嘴型素材图像进行透明处理;
...

【专利技术属性】
技术研发人员:刘春宇
申请(专利权)人:广州酷狗计算机科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1