一种基于语音驱动的可控相似关键帧虚拟人脸视频生成方法以及交互装置制造方法及图纸

技术编号：40441838 阅读：11 留言：0更新日期：2024-02-22 23:04

本发明专利技术提出了一种基于语音驱动的可控相似关键帧虚拟人脸视频生成方法以及交互装置，该方法及装置包括：通过图像信息获得单元获得待输入的当前图像信息；通过音频信息获得单元获得待输入的当前语音信息；通过交互信息获取单元获得交互者输入的语音或文本信息；通过程序存储器存储基于语音驱动的可控相似关键帧虚拟人脸视频生成及交互程序，所述程序在被生成处理器或交互处理器读取时执行；通过生成处理器处理图像、音频信息输出虚拟人脸视频；通过交互处理器处理视频、交互信息完成虚拟人交互过程；通过交互界面协助交互者进行交互。通过该方法和装置，可将任意角色克隆为形象及语音特点一致的虚拟人，并且具有一定的交互能力，且该方法简化了虚拟人面部视频的生成过程，增强了虚拟人的真实性和交互能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能领域，具体涉及一种基于语音驱动的可控相似关键帧虚拟人脸视频生成方法以及交互装置。

技术介绍

1、随着人工智能和计算机图形学的飞速发展，虚拟人技术能够创造逼真的人物形象，使其表现出与真实人类类似的动作、情感和互动能力。虚拟人作为链接现实世界和虚拟世界的主要接口之一，在各行业逐渐成为一名优秀的员工，其中代言虚拟人和直播虚拟人很好地满足全天在线、不会人设崩塌、忠诚度高的条件，成为这个行业的最优解决方案。目前主要流行的建模方式是扫描重建和建模绑定，前者成本较高，后者精细程度较差，但随着人工智能的发展，后者逐渐成为一种趋势。

2、作为新兴的科技产品，它依旧存在着一些问题。产品定制成本较高，一个优质的虚拟人产品一般需要支付形象定制、软件服务、动捕设备的费用；虚拟人生命周期短，代言、直播行业的虚拟人更多是基于规则或者通过动捕设备进行驱动的，同时这样也带来交互性差、创新能力弱、运营成本高等问题，导致更多的虚拟人“出道即巅峰”。

技术实现思路

0、
技术实现思路
：

1、本申请提供基于语音驱动的可控相似关键帧虚拟人脸视频生成及交互方法，以解决虚拟人建模及交互驱动的问题。通过一张精致的人像图像实现3d模型的建立和渲染，将其通过语音进行驱动生成起始帧和结束帧被约束为人像图像的虚拟人脸视频。通过将多段视频衔接起来，并在期间插入静默状态以获取下次交互的输入，以此达到交互效果。

2、本申请提供一种基于语音驱动的可控相似关键帧虚拟人脸视频生成方法，包括：p>

3、输入图片信息和语音信息，图片以一张标准形象的证件照(中景、正面、中性面部表情、闭嘴、良好稳定的照明、与人物在颜色上可区分的背景、无面部遮挡)为最佳。

4、通过shape_predictor_68_face_landmarks.dat模型检测图片中人脸的68个特定区域(如眼睛，鼻子，嘴巴等)的关键点位置，将其作为基本的维度信息。

5、使用三维变形模型空间作为中间表示，α系数表示身份特征，β系数表示表情特征。将三维面形状s解耦如下：

6、

7、引入系数r和t分别表示头部的旋转和平移。从语音信息中单独学习头部姿势ρ＝[r,t]和表情系数β，运动的参数建模为{β,r,t}。以此生成隐式面部渲染运动系数。

8、使用双流transformer结构对音频和头部数据进行编码作为输入信号。音频和头部相关运动表示为：

9、

10、使用点积注意机制处理输入信号后，通过线性层嵌入后映射到具有相同维度的特征空间中。音频和头部运动的输出及关键姿态嵌入的序列表示为：

11、

12、

13、

14、

15、通过在相对时间距离的位置嵌入矩阵pe来限制生成视频的终结帧，将终结帧相对位置的嵌入矩阵表示为：

16、pel＝pe(|t-ti|,*)。

17、将头部数据与音频数据在时间维度上进行串联，将其输入跨模态transformer中学习两者之间的关联后输出涵盖头部编排的驱动信息。

18、将头部编排的驱动信息、关键帧坐标信息以及关键帧嵌入信息作为跨模态解码器的整体输入，整体输入表示为：

19、

20、通过关于隐式渲染映射函数和线性变换层映射输出序列中的动作结果，输出序列表示为：

21、

22、对输出序列进行渲染以生成最终视频。

23、本申请还提供一种基于语音驱动的可控相似关键帧虚拟人脸视频交互方法，包括：

24、该交互方法基于语音驱动的可控相似关键帧虚拟人脸视频生成方法的输出，即两段视频衔接处的帧保持一致。

25、该交互方法分为启动阶段、交互阶段和结束阶段。交互场景为一名真人交互者和虚拟人的多次交互问答。交互者作为交互的发起者和终结者。对虚拟人进行发问作为虚拟人的启动信号，在虚拟人回答后交互者在一定时间内未再次发问作为虚拟人的结束信号。

26、输入图像信息、语音克隆信息、问答系统信息作为虚拟人启动的前置条件。

27、根据图像信息，通过基于语音驱动的可控相似关键帧虚拟人脸视频生成方法生成对应的虚拟人视频0，该视频由静默的语音作为驱动，时长为10秒。

28、交互者对虚拟人发起问题1，可以使用语音、文本两种形式的其一进行发问。

29、虚拟人使用问答系统对问题生成答案1，此时答案1的状态为文本。

30、通过语音克隆将生成的答案转换成音频文件，此时答案1的状态为音频。

31、通过基于语音驱动的可控相似关键帧虚拟人脸视频生成方法生成对应的虚拟人视频1。

32、为交互者播放视频1作为问题1的回答。

33、视频1播放完毕后自动衔接视频0。因关键帧约束的先决条件，视频1的结束帧与视频0的起始帧一致。

34、视频0播放完毕后自动循环播放视频0。因关键帧约束的先决条件，视频0的结束帧与视频0的起始帧一致。

35、若在视频0循环3次的过程中交互者发起新问题，循环交互阶段进行人机交互。

36、若在视频0循环3次的过程中交互者没有发起新问题，进入结束阶段，虚拟人结束交互。

37、若在交互过程中交互者发起结束，进入结束阶段，虚拟人结束交互。

38、本申请还提供一种基于语音驱动的可控相似关键帧虚拟人脸视频交互装置，包括：

39、图像信息获得单元，用于获得待输入的当前图像信息。

40、音频信息获得单元，用于获得待输入的当前语音信息。

41、交互信息获取单元，用于获得交互者输入的语音或文本信息。

42、程序存储器，用于存储基于语音驱动的可控相似关键帧虚拟人脸视频生成及交互程序，所述程序在被生成处理器或交互处理器读取时执行。

43、生成处理器，用于处理图像、音频信息，以此完成视频生成。

44、交互处理器，用于处理视频、交互信息，以此完成交互过程。

45、交互界面，便于交互者进行交互的可视化窗口。

46、与现有技术相比，本申请具有以下优点：

47、本申请提供的基于语音驱动的可控相似关键帧虚拟人脸视频生成及交互方法，通过实时获取图像信息和语音信息来实现关键帧约束的虚拟人脸视频生成，在获得交互者的提问信息后，通过上述虚拟人脸视频生成方法，结合语音克隆、问答系统、视频衔接来实现交互。通过使用该交互方法，可将任意角色克隆为外貌及语音特点一致的虚拟人，并且具有一定的交互能力。该方法简化了虚拟人面部视频的生成过程，增强了虚拟人的真实性和交互能力。

本文档来自技高网...

【技术保护点】

1.一种基于语音驱动的可控相似关键帧虚拟人脸视频生成方法以及交互装置。主要包括以下步骤：

2.根据权利要求1所述的一种基于语音驱动的可控相似关键帧虚拟人脸视频生成方法以及交互装置，其特征在于：所描述的步骤(1)中，具有输入接口的特征，与外部设备具有接口特性，确保能够接收待输入的图像信息；具有采集方法特征，采集图像信息的方法可以包括涉及传感器、摄像头、扫描设备等；具有实时性特征，对当前图像信息的实时获取能力，以确保系统对信息的及时响应；具有数据处理特征，对获得的图像信息进行的任何预处理、滤波或其他数据处理步骤；具有形象克隆特征，包括克隆面部特征、头部、纹理映射、处理细节等。

3.根据权利要求1所述的一种基于语音驱动的可控相似关键帧虚拟人脸视频生成方法以及交互装置，其特征在于：所描述的步骤(2)中，具有输入接口的特征，与外部设备具有接口特性，确保能够接收待输入的语音信息；具有采集方法特征，采集语音信息的方法可以包括麦克风、语音文件导入等；具有实时性特征，对当前语音信息的实时获取能力，以确保系统对信息的及时响应；具有数据处理特征，对获得的语音信息进行的任何预处理

4.根据权利要求1所述的一种基于语音驱动的可控相似关键帧虚拟人脸视频生成方法以及交互装置，其特征在于：所描述的步骤(3)中，具有输入多样性特征，能够接收多种输入形式，不限于语音和文本；具有语音识别特征，对语音输入的识别方法，涉及语音识别算法和模型；具有文本处理特征，描对文本输入的处理方法，包括文本分析、关键词提取等；具有实时交互特征，对实时输入的获取和响应能力确保系统的即时性；具有自然语言处理特征，使用自然语言处理技术以提高对文本信息的理解和处理能力。

5.根据权利要求1所述的一种基于语音驱动的可控相似关键帧虚拟人脸视频生成方法以及交互装置，其特征在于：所描述的步骤(4)中，具有语音驱动特征，通过语音来驱动虚拟人脸视频生成和交互的；具有关键帧控制特征，可以生成可控的关键帧，以控制虚拟人脸视频的终结帧外观和动作；具有虚拟人脸视频生成特征，程序的生成算法包括三维建模、动画渲染等技术，以确保虚拟人脸视频的逼真性；具有交互处理特征，与用户进行交互包括语音命令的识别、实时响应等；具有存储与读取特征，程序存储于存储器中，当被生成处理器或交互处理器读取时执行的方式，确保程序在必要时能够有效执行。

6.根据权利要求1所述的一种基于语音驱动的可控相似关键帧虚拟人脸视频生成方法以及交互装置，其特征在于：所描述的步骤(5)中，具有多模态信息处理特征，同时处理图像和音频信息，以提供更综合的虚拟人脸视频生成；具有图像处理特征，对图像信息进行的处理方式包括三维建模、纹理映射等技术；具有音频处理特征，处理音频信息包括语音识别、音频合成等技术，以实现虚拟人脸视频的语音同步；具有实时生成特征，具有实时处理能力，确保在处理图像和音频信息时能够迅速输出虚拟人脸视频。

7.根据权利要求1所述的一种基于语音驱动的可控相似关键帧虚拟人脸视频生成方法以及交互装置，其特征在于：所描述的步骤(6)中，具有多模态信息处理特征，同时处理视频和交互信息，以实现综合的虚拟人交互；具有视频处理特征，对视频信息进行的处理方式包括图像识别、动作识别等技术；具有交互信息处理特征，处理用户的交互信息涉及语音识别、文本分析等技术；具有实时交互特征，实时处理能力，确保在处理视频和交互信息时能够迅速完成虚拟人交互过程。

8.根据权利要求1所述的一种基于语音驱动的可控相似关键帧虚拟人脸视频生成方法以及交互装置，其特征在于：所描述的步骤(7)中，具有多模态交互特征，支持多种交互方式，包括语音、手势、触摸等；具有用户界面设计特征，交互界面的设计包括布局、图标、颜色等，以提高用户体验和交互效率；具有实时交互特征，交互界面具有实时响应能力，确保在用户进行交互时能够迅速提供反馈；具有个性化交互特征，交互界面具有个性化定制的功能，以适应不同用户的交互偏好和需求。

...

【技术特征摘要】

1.一种基于语音驱动的可控相似关键帧虚拟人脸视频生成方法以及交互装置。主要包括以下步骤：

5.根据权利要求1所述的一种基于语音驱动的可控相似关键帧虚拟人脸视频生成方法以及交互装置，其特征在于：所描述的步骤(4)中，具有语音驱动特征，通过语音来驱动虚拟人脸视频...

【专利技术属性】
技术研发人员：李鹏，李响，刘鑫淼，顾恒文，尹莉莉，
申请(专利权)人：哈尔滨理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人