一种基于文本驱动的真实感虚拟人生成方法及装置制造方法及图纸

技术编号:37295193 阅读:14 留言:0更新日期:2023-04-21 22:42
本发明专利技术提出一种基于文本驱动的真实感虚拟人生成方法:获取驱动视频与驱动文本;构造文本

【技术实现步骤摘要】
一种基于文本驱动的真实感虚拟人生成方法及装置


[0001]本专利技术涉及视频生成
,尤其涉及一种基于文本驱动的真实感虚拟人生成方法及装置。

技术介绍

[0002]基于文本驱动的虚拟人生成任务是指给定一段文字和源图像,生成保持源图像身份信息、唇部运动与文字内容一致、根据文本内容自动生成任务手部手势动作的视频序列。在人工智能、虚拟现实等技术浪潮的带动下,虚拟人生成越来越受到关注,并广泛应用于人机交互、影视制作、虚拟主播、智能员工等领域。受限于人脸结构的复杂性、头部运动不确定性以及唇部运动的多样性,具有真实感的虚拟人生成成为计算机视觉感知领域研究的重点和难点之一。基于文字驱动的虚拟人技术可为听力障碍人士提供从文字、音频生成相应唇语的辅助理解视频。
[0003]基于文字驱动的虚拟人生成存在以下几个挑战:1)虚拟人手部手势动作缺乏:手势动作是人在说话时自然而然会产生的动作,但是现在的虚拟人生成方案中,大多数针对只包含头部的虚拟人生成,而忽略了全身对整个虚拟人形象真实感的必要性;2)文字与唇部运动不一致:在虚拟人生成中,文字需要先转换成音频,进而促使虚拟人唇部运动,音频和视频的多模态特征匹配不准确,极易引起唇部运动与文字不匹配;3)图像质量较差:人眼对人脸视频比较敏感,当出现较小的瑕疵时,也很容易让人判定为生成视频,为了提高虚拟人视频的真实感,虚拟人图像质量显得尤为重要。

技术实现思路

[0004]为了解决基于文字驱动的虚拟人生成任务中存在的虚拟人手部手势动作缺乏、文字与唇部运动不一致以及图像质量较差的问题,本专利技术提出一种基于文本适配手势动作的真实感虚拟人生成方法和装置。
[0005]根据本专利技术的第一方面,提供了一种基于文本驱动的真实感虚拟人的生成方法,包括:
[0006]获取驱动视频与驱动文本;
[0007]构造文本

动作字典,根据文本中的内容来选定相应动作,并通过语音合成技术获得与文本对应的驱动音频,同时获得驱动文本中每个字段在音频中出现的字段时间戳,采用视频帧插值的中间流估计算法把动作帧插入到驱动视频中,生成语义语境与各种手势,动作一致的虚拟人;
[0008]引入音频到唇形生成模型,利用唇形判别器来获得准确而逼真的唇部运动,生成脸部动作与音频拟合度高的虚拟人;
[0009]利用面部增强模型,加强对人脸区域的约束,通过增强人脸分辨率和画面细节来提升虚拟人的视觉质量;
[0010]将音频与整个人物画面同步生成具有真实感的虚拟人视频,所述虚拟人可实现高
质量的文本播报。
[0011]根据本专利技术的第二方面,提供了一种基于文本驱动的真实感虚拟人的生成装置,包括:
[0012]获取模块,用于获取驱动视频与驱动文本;
[0013]动作插入模块,用于构造文本

动作字典,根据文本中的内容来选定相应动作,并通过语音合成技术获得与文本对应的驱动音频,同时获得驱动文本中每个字段在音频中出现的字段时间戳,采用视频帧插值的中间流估计算法把动作帧插入到驱动视频中,生成语义语境与各种手势,动作一致的虚拟人;
[0014]唇形生成模块,用于引入音频到唇形生成模型,利用唇形判别器来获得准确而逼真的唇部运动,生成脸部动作与音频拟合度高的虚拟人;
[0015]视觉质量增强模块,用于利用面部增强模型,加强对人脸区域的约束,通过增强人脸分辨率和画面细节来提升虚拟人的视觉质量;
[0016]视频生成模块,用于将音频与整个人物画面同步生成具有真实感的虚拟人视频,所述虚拟人可实现高质量的文本播报。
[0017]本专利技术第三方面,提出的非临时性计算机可读存储介质,其中,所述非临时性计算机可读存储介质存储有计算机程序;所述计算机程序被处理器执行时实现如上第一方面所示的方法。
[0018]与现有技术相比,本专利技术具有如下优点:
[0019]1.手势动作是人与人进行交流时,自然而然产生的动作,能够起到辅助交流的目的。本专利技术采用RIFE算法插入手势动作,把虚拟人的研究从头部生成拓展到半身生成,能够更好地应用于实际场景之中。
[0020]2.在唇形生成模块,引入唇形判别器来约束唇部区域图像生成,从而能够很好地解决文字唇形不匹配的问题。
[0021]3.在网络结构中,引入面部增强模型,加强对人脸区域的约束,从而能够很好地解决虚拟人面部图像质量较差的问题。
附图说明
[0022]图1是本专利技术一个实施例提供的基于文本驱动的真实感虚拟人生成方法的流程示意图;
[0023]图2是本专利技术一个实施例提供的基于文本驱动的真实感虚拟人生成装置的结构示意图。
具体实施方式
[0024]下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
[0025]下面参考附图描述本申请实施例的虚拟人生成方法及装置。
[0026]实施例一
[0027]图1为本专利技术一个实施例提供的基于文本驱动的真实感虚拟人生成方法的流程示
意图,如图所示,包括:
[0028]获取驱动视频与驱动文本,其中驱动视频的获取要求真人模特录制视频在绿幕前进行,视频录制过程中真人模特手部固定放置在自然的位置,唇部保持静止,头部具备自然律动如:眨眼、轻微晃动;驱动文本通过人为设置成虚拟人播报的文本。
[0029]构造文本

动作字典,根据文本中的内容来选定相应动作,并通过语音合成技术获得与文本对应的驱动音频,同时获得驱动文本中每个字段在音频中出现的字段时间戳,采用视频帧插值的中间流估计算法把动作帧插入到驱动视频中,生成语义语境与各种手势,动作一致的虚拟人。
[0030]其中,所述字典根据日常经验所获得,如:加油、努力等文本会触发握拳;很好、很棒等文本会触发竖起大拇指;动作插入时根据驱动文本的语义语境,以及语音合成模型输出的文本中每个字段在音频中出现的字段时间戳,决定在与此段音频对应的画面中插入何种动作,以及插入的时间戳;引入基于关键词动作字典触发动作的方法,每当有一段驱动文本输入,则对其做滑窗扫描,搜索该段文本中有无与字典匹配的关键词,当发现关键词,则在驱动视频中对应时间戳下插入对应动作视频,插入过程中利用视频帧插值的中间流估计算法为有插入痕迹的相邻两帧生成过渡视频,使动作的发生平滑自然。
[0031]语音合成的实现可分为两步,第一步是基于语音合成模型计算驱动文本中每个音素的发声周期、声幅、声调,输出人声对应的梅尔频谱。这里的音素可以理解为文字对应的汉语拼音,包含声母和韵母。随后通过声码器模型将频域信号转化为时域信号,即驱动音频。根据语音合成模型中对各音素的发声周期预测结果,易得驱动文本中各字段在驱动音频中得发声起始时间戳。
[0032]引入音频到唇形生成模型,利用唇形判别器来获得准确本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文本驱动的真实感虚拟人生成方法,其特征在于,步骤如下:获取驱动视频与驱动文本;构造文本

动作字典,根据文本中的内容来选定相应动作,并通过语音合成技术获得与文本对应的驱动音频,同时获得驱动文本中每个字段在音频中出现的字段时间戳,采用视频帧插值的中间流估计算法把动作帧插入到驱动视频中,生成语义语境与各种手势,动作一致的虚拟人;引入音频到唇形生成模型,利用唇形判别器来获得准确而逼真的唇部运动,生成脸部动作与音频拟合度高的虚拟人;利用面部增强模型,加强对人脸区域的约束,通过增强人脸分辨率和画面细节来提升虚拟人的视觉质量;将音频与整个人物画面同步生成具有真实感的虚拟人视频,所述虚拟人可实现高质量的文本播报。2.根据权利要求1所述的虚拟人生成方法,其特征在于,驱动视频的获取要求真人模特录制视频在绿幕前进行,视频录制过程中真人模特手部固定放置在自然的位置,唇部保持静止,头部具备自然律动如:眨眼、轻微晃动;驱动文本通过人为设置成虚拟人播报的文本。3.根据权利要求1所述的虚拟人生成方法,其特征在于,生成语义语境与各种手势,动作一致的虚拟人包括:构造文本

动作字典,所述字典根据日常经验所获得,如:加油、努力等文本会触发握拳;很好、很棒等文本会触发竖起大拇指;动作插入时根据驱动文本的语义语境,以及语音合成模型输出的文本中每个字段在音频中出现的字段时间戳,决定在与此段音频对应的画面中插入何种动作,以及插入的时间戳;引入基于关键词动作字典触发动作的方法,每当有一段驱动文本输入,则对其做滑窗扫描,搜索该段文本中有无与字典匹配的关键词,当发现关键词,则在驱动视频中对应时间戳下插入对应动作视频,插入过程中利用视频帧插值的中间流估计算法为有插入痕迹的相邻两帧生成过渡视频,使动作的发生平滑自然。4.根据权利要求1所述的虚拟人生成方法,其特征在于,唇部生成模型以驱动音频为控制参数,对原本不具备唇部动作的人脸图像做条件GAN操作,使面部动作与声音相协调,即以声音驱动人脸做出相应的唇形动作。5.根据权利要求1所述的虚拟人生成方法,其特征在于,面部增强模型采用与CycleGan类似的网络结构,将模糊和清晰视为两种人脸风格,使网络学习如何将模糊人脸翻译为清晰人脸,经过面部增强模块后,人脸的分辨率、清晰度、画面细节得到了极大增强。6.一种基于文本驱动的真实感虚拟人生成装置,包括:获取模块,用于获取驱动视频与驱动文本;动作插入模块,用于构造文本

动作...

【专利技术属性】
技术研发人员:百晓吴禹辰李嘉禾王晨
申请(专利权)人:北京航空航天大学江西研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1