应用于合成虚拟形象的视频处理方法、装置及存储介质制造方法及图纸

技术编号:38754390 阅读:7 留言:0更新日期:2023-09-10 09:39
本申请实施例涉及人工智能技术领域,并提供一种应用于合成虚拟形象的视频处理方法、装置及存储介质,该方法包括:获取针对目标对象在第一场景下录制的基础根视频;获取目标对象在第一场景下的第一动作视频,获取驱动生成虚拟形象的音频文件所对应的文本内容,从文本内容中确定目标词;根据文本内容中出现目标词对应的位置确定指定时间节点,根据确定的指定时间节点,将该第一动作视频插入该基础根视频中的指定位置,并合成得到合成根视频;采用驱动生成虚拟形象的音频文件驱动合成根视频,得到目标对象的虚拟形象。本方案能够将需要的人物动作有机的融入整体视频中,从而得到自然变化的高质量虚拟形象。的高质量虚拟形象。的高质量虚拟形象。

【技术实现步骤摘要】
应用于合成虚拟形象的视频处理方法、装置及存储介质


[0001]本申请涉及人工智能
,进一步涉及计算机视觉
,尤其涉及一种应用于合成虚拟形象的视频处理方法、装置及存储介质。

技术介绍

[0002]目前,虚拟形象合成可以应用在不同的场合,例如:在线教育过程中,由虚拟老师提供教学服务,不仅可以大大减轻老师的负担,还可以降低教学成本,比单纯的录播课等有更好的教学体验。除此之外,虚拟形象还可以应用在更广泛的场合中,例如:人工智能(Artificial Intelligence,AI)新闻主播、游戏、动画和应用程序等实际的商业场景中具有极大的商业价值。现有技术中对虚拟形象的合成,可以基于输入的声音数据,生成对应的嘴唇变化图像,以模拟说话时的嘴部动作,但现有合成的虚拟形象不够真实,降低了互动体验,用户在使用虚拟形象时,显得比较单调。尽管加入动作能够提高互动性,但由于动作的高频重复,显得整体效果很不自然,容易审美疲劳。

技术实现思路

[0003]本申请实施例提供了一种应用于合成虚拟形象的视频处理方法、装置及存储介质,能够将需要的人物动作有机的融入整体视频中,从而得到自然变化的高质量虚拟形象。
[0004]第一方面中,本申请实施例提供一种应用于合成虚拟形象的视频处理方法,该方法包括:
[0005]获取针对目标对象在第一场景下录制的基础根视频,该基础根视频的录制时长包括第一时长,其中,该基础根视频中该目标对象的形象姿态保持不变;
[0006]获取该目标对象在该第一场景下的第一动作视频,该第一动作视频的录制时长包括第二时长;
[0007]其中,该第一时长大于该第二时长,该第一动作视频的起始帧和结束帧均与该基础根视频中的该目标对象的形象姿态保持一致;
[0008]获取驱动生成虚拟形象的音频文件所对应的文本内容,从该文本内容中确定目标词,该目标词为频次大于第一预设阈值的词;
[0009]根据该文本内容中出现该目标词对应的位置确定指定时间节点,其中该指定时间节点用于指示将该第一动作视频插入该基础根视频中的指定位置;
[0010]根据确定的该指定时间节点,将该第一动作视频插入该基础根视频中的指定位置,并合成得到合成根视频;
[0011]采用该驱动生成虚拟形象的音频文件驱动该合成根视频,得到该目标对象的虚拟形象。
[0012]一些实施方式中,目标对象的形象姿态保持不变包括:嘴唇保持闭合状态且人脸的俯仰角和偏航角均不超过20度。
[0013]一些实施方式中,该第一动作视频包括手势动作,该手势动作包括动作起始位置
和动作结束位置,该基础根视频包含与该动作起始位置和该动作结束位置保持一致的静默位置。
[0014]一些实施方式中,该第一动作视频源于该基础根视频,或者该第一动作视频为针对该目标对象在该第一场景下新录制的动作视频。
[0015]第二方面,本申请实施例提供了一种视频处理装置,应用于合成虚拟形象,该视频处理装置具有实现对应于上述第一方面提供的视频处理方法的功能。功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,模块可以是软件和/或硬件。
[0016]一些实施方式中,该视频处理装置包括:
[0017]获取模块,用于获取针对目标对象在第一场景下录制的基础根视频,以及获取该目标对象在该第一场景下的第一动作视频;其中,该基础根视频中该目标对象的形象姿态保持不变,该基础根视频的录制时长包括第一时长,该第一动作视频的录制时长包括第二时长;
[0018]其中,该第一时长大于该第二时长,该第一动作视频的起始帧和结束帧均与该基础根视频中的该目标对象的形象姿态保持一致;
[0019]处理模块,用于获取驱动生成虚拟形象的音频文件所对应的文本内容,从该文本内容中确定目标词,根据该文本内容中出现该目标词对应的位置确定指定时间节点,以及根据确定的该指定时间节点,将该第一动作视频插入该基础根视频中的指定位置,并合成得到合成根视频;
[0020]其中,该目标词为频次大于第一预设阈值的词,该指定时间节点用于指示将该第一动作视频插入该基础根视频中的指定位置;
[0021]该处理模块还用于采用该驱动生成虚拟形象的音频文件驱动该合成根视频,得到该目标对象的虚拟形象。
[0022]一些实施方式中,上述处理模块还用于:
[0023]根据该音频文件所对应的文本内容包含的时长,确定预设时间间隔;
[0024]将该第一动作视频按照该预设时间间隔均匀插入该基础根视频。
[0025]一些实施方式中,上述处理模块还用于:
[0026]当相邻的该第一动作视频之间的时间间隔小于该预设时间间隔,将相邻的该第一动作视频中的目标第一动作视频删除,其中该目标第一动作视频为按照该预设时间间隔均匀插入的第一动作视频。
[0027]一些实施方式中,上述处理模块具体用于:
[0028]根据该指定时间节点,确定该基础根视频中与该指定位置对应的第一待拼接帧和第二待拼接帧;
[0029]根据该第一动作视频的起始帧确定第一拼接点,根据该第一待拼接帧确定与该第一拼接点对应的第二拼接点;
[0030]根据该第一动作视频的结束帧确定第三拼接点,根据该第二待拼接帧确定与该第三拼接点对应的第四拼接点;
[0031]根据该第一拼接点和该第二拼接点将该第一动作视频的起始帧与该第一待拼接帧拼接;
[0032]根据该第三拼接点和该第四拼接点将该第一动作视频的结束帧与该第二待拼接帧拼接;
[0033]将拼接后的视频进行合成处理得到合成根视频。
[0034]一些实施方式中,上述处理模块具体用于:
[0035]根据该第一拼接点和该第二拼接点的间距对拼接后的该第一动作视频的起始帧与该第一待拼接帧进行运动轨迹的模拟平滑处理,以及根据该第三拼接点和该第四拼接点的间距对拼接后的该第一动作视频的结束帧与该第二待拼接帧进行运动轨迹的模拟平滑处理,得到该合成根视频。
[0036]一些实施方式中,目标对象的形象姿态保持不变包括:嘴唇保持闭合状态且人脸的俯仰角和偏航角均不超过20度。
[0037]一些实施方式中,该第一动作视频包括手势动作,该手势动作包括动作起始位置和动作结束位置,该基础根视频包含与该动作起始位置和该动作结束位置保持一致的静默位置。
[0038]一些实施方式中,该第一动作视频源于该基础根视频,或者该第一动作视频为针对该目标对象在该第一场景下新录制的动作视频。
[0039]一些实施方式中,上述处理模块还用于:
[0040]确定该目标词的属性,根据该目标词的属性从该第一动作视频中确定对应的待插入该基础根视频中的动作。
[0041]一些实施方式中,该目标词包括具有不同权重值的多个目标词,上述处理模块还用于:
[0042]从该多个目标词中确定有效目标词,其中该有效目标词为该权重值大于第二预设阈值的目标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种应用于合成虚拟形象的视频处理方法,其特征在于,包括:获取针对目标对象在第一场景下录制的基础根视频,所述基础根视频的录制时长包括第一时长,其中,所述基础根视频中所述目标对象的形象姿态保持不变;获取所述目标对象在所述第一场景下的第一动作视频,所述第一动作视频的录制时长包括第二时长;其中,所述第一时长大于所述第二时长,所述第一动作视频的起始帧和结束帧均与所述基础根视频中的所述目标对象的形象姿态保持一致;获取驱动生成虚拟形象的音频文件所对应的文本内容,从所述文本内容中确定目标词,所述目标词为频次大于第一预设阈值的词;根据所述文本内容中出现所述目标词对应的位置确定指定时间节点,其中所述指定时间节点用于指示将所述第一动作视频插入所述基础根视频中的指定位置;根据确定的所述指定时间节点,将所述第一动作视频插入所述基础根视频中的指定位置,并合成得到合成根视频;采用所述驱动生成虚拟形象的音频文件驱动所述合成根视频,得到所述目标对象的虚拟形象。2.根据权利要求1所述的视频处理方法,其特征在于,所述合成得到合成根视频之前,所述方法还包括:根据所述音频文件所对应的文本内容包含的时长,确定预设时间间隔;将所述第一动作视频按照所述预设时间间隔均匀插入所述基础根视频。3.根据权利要求2所述的视频处理方法,其特征在于,所述合成得到合成根视频之前,所述方法还包括:当相邻的所述第一动作视频之间的时间间隔小于所述预设时间间隔,将相邻的所述第一动作视频中的目标第一动作视频删除,其中所述目标第一动作视频为按照所述预设时间间隔均匀插入的第一动作视频。4.根据权利要求1至3中任一项所述的视频处理方法,其特征在于,所述根据确定的所述指定时间节点,将所述第一动作视频插入所述基础根视频中的指定位置,并合成得到合成根视频,包括:根据所述指定时间节点,确定所述基础根视频中与所述指定位置对应的第一待拼接帧和第二待拼接帧;根据所述第一动作视频的起始帧确定第一拼接点,根据所述第一待拼接帧确定与所述第一拼接点对应的第二拼接点;根据所述第一动作视频的结束帧确定第三拼接点,根据所述第二待拼接帧确定与所述第三拼接点对应的第四拼接点;根据所述第一拼接点和所述第二拼接点将所述第一动作视频的起始帧与所述第一待拼接帧拼接;根据所述第三拼接点和所述第四拼接点将所述第一动作视频的结束帧与所述第二待拼接帧拼接;将拼接后的视频进行合成处理得到合成根视频。5.根据权利要求4所述的视频处理方法,其特征在于,所述将拼接后的视频进行合成处
理得到合成根视频包括:根据所述第一拼接点和所述第二拼接点的间距对...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:北京生数科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1