【技术实现步骤摘要】
一种基于文本驱动的真实感虚拟人生成方法及装置
[0001]本专利技术涉及视频生成
,尤其涉及一种基于文本驱动的真实感虚拟人生成方法及装置。
技术介绍
[0002]基于文本驱动的虚拟人生成任务是指给定一段文字和源图像,生成保持源图像身份信息、唇部运动与文字内容一致、根据文本内容自动生成任务手部手势动作的视频序列。在人工智能、虚拟现实等技术浪潮的带动下,虚拟人生成越来越受到关注,并广泛应用于人机交互、影视制作、虚拟主播、智能员工等领域。受限于人脸结构的复杂性、头部运动不确定性以及唇部运动的多样性,具有真实感的虚拟人生成成为计算机视觉感知领域研究的重点和难点之一。基于文字驱动的虚拟人技术可为听力障碍人士提供从文字、音频生成相应唇语的辅助理解视频。
[0003]基于文字驱动的虚拟人生成存在以下几个挑战:1)虚拟人手部手势动作缺乏:手势动作是人在说话时自然而然会产生的动作,但是现在的虚拟人生成方案中,大多数针对只包含头部的虚拟人生成,而忽略了全身对整个虚拟人形象真实感的必要性;2)文字与唇部运动不一致:在虚拟人生成中,文字需要先转换成音频,进而促使虚拟人唇部运动,音频和视频的多模态特征匹配不准确,极易引起唇部运动与文字不匹配;3)图像质量较差:人眼对人脸视频比较敏感,当出现较小的瑕疵时,也很容易让人判定为生成视频,为了提高虚拟人视频的真实感,虚拟人图像质量显得尤为重要。
技术实现思路
[0004]为了解决基于文字驱动的虚拟人生成任务中存在的虚拟人手部手势动作缺乏、文字与唇部运动不一致以及图像质量较 ...
【技术保护点】
【技术特征摘要】
1.一种基于文本驱动的真实感虚拟人生成方法,其特征在于,步骤如下:获取驱动视频与驱动文本;构造文本
‑
动作字典,根据文本中的内容来选定相应动作,并通过语音合成技术获得与文本对应的驱动音频,同时获得驱动文本中每个字段在音频中出现的字段时间戳,采用视频帧插值的中间流估计算法把动作帧插入到驱动视频中,生成语义语境与各种手势,动作一致的虚拟人;引入音频到唇形生成模型,利用唇形判别器来获得准确而逼真的唇部运动,生成脸部动作与音频拟合度高的虚拟人;利用面部增强模型,加强对人脸区域的约束,通过增强人脸分辨率和画面细节来提升虚拟人的视觉质量;将音频与整个人物画面同步生成具有真实感的虚拟人视频,所述虚拟人可实现高质量的文本播报。2.根据权利要求1所述的虚拟人生成方法,其特征在于,驱动视频的获取要求真人模特录制视频在绿幕前进行,视频录制过程中真人模特手部固定放置在自然的位置,唇部保持静止,头部具备自然律动如:眨眼、轻微晃动;驱动文本通过人为设置成虚拟人播报的文本。3.根据权利要求1所述的虚拟人生成方法,其特征在于,生成语义语境与各种手势,动作一致的虚拟人包括:构造文本
‑
动作字典,所述字典根据日常经验所获得,如:加油、努力等文本会触发握拳;很好、很棒等文本会触发竖起大拇指;动作插入时根据驱动文本的语义语境,以及语音合成模型输出的文本中每个字段在音频中出现的字段时间戳,决定在与此段音频对应的画面中插入何种动作,以及插入的时间戳;引入基于关键词动作字典触发动作的方法,每当有一段驱动文本输入,则对其做滑窗扫描,搜索该段文本中有无与字典匹配的关键词,当发现关键词,则在驱动视频中对应时间戳下插入对应动作视频,插入过程中利用视频帧插值的中间流估计算法为有插入痕迹的相邻两帧生成过渡视频,使动作的发生平滑自然。4.根据权利要求1所述的虚拟人生成方法,其特征在于,唇部生成模型以驱动音频为控制参数,对原本不具备唇部动作的人脸图像做条件GAN操作,使面部动作与声音相协调,即以声音驱动人脸做出相应的唇形动作。5.根据权利要求1所述的虚拟人生成方法,其特征在于,面部增强模型采用与CycleGan类似的网络结构,将模糊和清晰视为两种人脸风格,使网络学习如何将模糊人脸翻译为清晰人脸,经过面部增强模块后,人脸的分辨率、清晰度、画面细节得到了极大增强。6.一种基于文本驱动的真实感虚拟人生成装置,包括:获取模块,用于获取驱动视频与驱动文本;动作插入模块,用于构造文本
‑
动作...
【专利技术属性】
技术研发人员:百晓,吴禹辰,李嘉禾,王晨,
申请(专利权)人:北京航空航天大学江西研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。