大模型驱动的2D实时交互式数字人驱动方法、设备及介质技术

技术编号：41087210 阅读：12 留言：0更新日期：2024-04-25 13:48

本发明专利技术属于数字人技术领域，涉及一种大模型驱动的2D实时交互式数字人驱动方法、设备及介质，所述方法包括：1)、获得多个原始视频图像帧、对应的人脸图像帧和对人脸图像帧缩放所需要的仿射变换数据；2)、获取对话输入文本并生成对话内容；3)、为对话内容生成对应的语音音频；4)、基于语音音频、原始视频图像帧和人脸图像帧，生成口型视频图像帧；5)、对口型视频图像帧进行超分，以获得超分后的口型视频图像帧；6)、播放语音，同时使用超分后的口型视频图像帧驱动2D实时交互式数字人。其解决了2D数字人口型动作驱动时存在的语义级同步精度不够、交互自然度不高的问题，实现了2D数字人实时交互的自然表现。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数字人，涉及一种2d实时交互式数字人驱动方法、设备及介质，尤其涉及一种大模型驱动的2d实时交互式数字人驱动方法、设备及介质。

技术介绍

1、2d数字人是人工智能领域的一个具像数字化身，是一系列概念(包括元宇宙、web3.0等)的基本组成单元，在休闲娱乐、客服问答、直播、广告、教育和医疗等领域有着广泛的应用于前景。

2、但是，现有的2d数字人在实时交互过程中的自然度表现不好，包括对话的逻辑不自然、面部口型和声音不匹配、语义一致性差等。

3、因此，针对上述现有技术中存在的缺陷，需要研发一种新型的2d实时交互式数字人驱动方法。

技术实现思路

1、为了克服现有技术的缺陷，本专利技术提出一种大模型驱动的2d实时交互式数字人驱动方法、设备及介质，其解决了2d数字人口型动作驱动时存在的语义级同步精度不够、交互自然度不高的问题，实现了2d数字人实时交互的自然表现。

2、为了实现上述目的，本专利技术提供如下技术方案：

3、一种大模型驱动的2d实时交互式数字人驱动方法，其特征在于，包括以下步骤：

4、1)、获取基于真人录制的底座视频并处理所述底座视频，以获得多个原始视频图像帧并从每一个所述原始视频图像帧中得到对应的人脸图像帧和对人脸图像帧缩放所需要的仿射变换数据；

5、2)、获取对话输入文本并将所述对话输入文本输入训练后的大语言模型中以生成对话内容；

6、3)、为所述对话内容生成对应的语音音频；

<p>7、4)、基于所述语音音频、原始视频图像帧和人脸图像帧，由口型生成模型生成对应的口型视频图像帧；

8、5)、基于所述对人脸图像帧缩放所需要的仿射变换数据对所述口型视频图像帧进行超分，以获得超分后的口型视频图像帧；

9、6)、播放语音，同时使用所述超分后的口型视频图像帧驱动2d实时交互式数字人。

10、优选地，所述步骤1)中的获取基于真人录制的底座视频并处理所述底座视频具体包括：

11、基于真人录制底座视频；

12、利用opencv将所述底座视频中的多个原始视频图像帧解析出来并保存；

13、利用人脸检测模型从每一个所述原始视频图像帧中将对应的人脸图像帧检测出来并保存，并且将对人脸图像帧缩放所需要的仿射变换数据也保存下来。

14、优选地，所述步骤2)中的训练后的大语言模型是基于chatglm大语言模型训练出的人设模型，且其部署在云端。

15、优选地，所述步骤3)具体为：将所述对话内容通过文本转语音服务转成对应的语音音频。

16、优选地，所述步骤4)具体为：将所述语言音频拆分成多个1秒长的音频，并将所述多个1秒长的音频、多个原始视频图像帧以及每一个所述原始视频图像帧对应的人脸图像帧输入到口型生成模型中，由所述口型生成模型生成多个口型视频图像帧，并将所述多个1秒长的音频和多个口型视频图像帧按照时间戳顺序存入到队列中。

17、优选地，所述口型生成模型为wav2lip模型。

18、优选地，所述步骤5)具体为：将所述多个口型视频图像帧和对人脸图像帧缩放所需要的仿射变换数据传入到人脸图像超分模型中，由所述人脸图像超分模型返回多个超分后的口型视频图像帧，并将所述多个超分后的口型视频图像帧保存到共享磁盘中。

19、优选地，所述步骤6)具体为：从所述队列中按照时间戳顺序读取所述多个1秒长的音频和多个口型视频图像帧并在所述共享磁盘中读取与所述多个口型视频图像帧对应的多个超分后的口型视频图像帧，通过推流工具将所述多个1秒长的音频和多个超分后的口型视频图像帧推送到客户端，实现2d实时交互式数字人的面部口型动画以及语音播放。

20、此外，本专利技术还提供一种大模型驱动的2d实时交互式数字人驱动设备，其特征在于，包括：

21、一个或多个处理器；

22、存储器，用于存储一个或多个程序；

23、当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如上所述的大模型驱动的2d实时交互式数字人驱动方法。

24、而且，本专利技术还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如上所述的大模型驱动的2d实时交互式数字人驱动方法中的步骤。

25、与现有技术相比，本专利技术的大模型驱动的2d实时交互式数字人驱动方法、设备及介质具有如下有益技术效果中的一者或多者：

26、1、本专利技术关注2d数字人实时交互过程中的自然度表现，包括对话的逻辑自然、面部口型和声音匹配、语义一致性等。

27、2、本专利技术基于大语言模型生成的对话内容来驱动2d数字人，能够实现2d数字人的实时交互。

28、3、本专利技术不需要人工参与、也不需要预先准备口型驱动数据，属于纯ai驱动的实时交互式2d数字人驱动方法。

本文档来自技高网...

【技术保护点】

1.一种大模型驱动的2D实时交互式数字人驱动方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的大模型驱动的2D实时交互式数字人驱动方法，其特征在于，所述步骤1)中的获取基于真人录制的底座视频并处理所述底座视频具体包括：

3.根据权利要求2所述的大模型驱动的2D实时交互式数字人驱动方法，其特征在于，所述步骤2)中的训练后的大语言模型是基于ChatGLM大语言模型训练出的人设模型，且其部署在云端。

4.根据权利要求3所述的大模型驱动的2D实时交互式数字人驱动方法，其特征在于，所述步骤3)具体为：将所述对话内容通过文本转语音服务转成对应的语音音频。

5.根据权利要求4所述的大模型驱动的2D实时交互式数字人驱动方法，其特征在于，所述步骤4)具体为：将所述语言音频拆分成多个1秒长的音频，将所述多个1秒长的音频、多个原始视频图像帧以及每一个所述原始视频图像帧对应的人脸图像帧输入到口型生成模型中，由所述口型生成模型生成多个口型视频图像帧，并将所述多个1秒长的音频和多个口型视频图像帧按照时间戳顺序存入到队列中。

6.根据权利要求

7.根据权利要求6所述的大模型驱动的2D实时交互式数字人驱动方法，其特征在于，所述步骤5)具体为：将所述多个口型视频图像帧和对人脸图像帧缩放所需要的仿射变换数据传入到人脸图像超分模型中，由所述人脸图像超分模型返回多个超分后的口型视频图像帧，并将所述多个超分后的口型视频图像帧保存到共享磁盘中。

8.根据权利要求7所述的大模型驱动的2D实时交互式数字人驱动方法，其特征在于，所述步骤6)具体为：从所述队列中按照时间戳顺序读取所述多个1秒长的音频和多个口型视频图像帧并在所述共享磁盘中读取与所述多个口型视频图像帧对应的多个超分后的口型视频图像帧，通过推流工具将所述多个1秒长的音频和多个超分后的口型视频图像帧推送到客户端，实现2D实时交互式数字人的面部口型动画以及语音播放。

9.一种大模型驱动的2D实时交互式数字人驱动设备，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一项所述的大模型驱动的2D实时交互式数字人驱动方法中的步骤。

...

【技术特征摘要】

1.一种大模型驱动的2d实时交互式数字人驱动方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的大模型驱动的2d实时交互式数字人驱动方法，其特征在于，所述步骤1)中的获取基于真人录制的底座视频并处理所述底座视频具体包括：

3.根据权利要求2所述的大模型驱动的2d实时交互式数字人驱动方法，其特征在于，所述步骤2)中的训练后的大语言模型是基于chatglm大语言模型训练出的人设模型，且其部署在云端。

4.根据权利要求3所述的大模型驱动的2d实时交互式数字人驱动方法，其特征在于，所述步骤3)具体为：将所述对话内容通过文本转语音服务转成对应的语音音频。

5.根据权利要求4所述的大模型驱动的2d实时交互式数字人驱动方法，其特征在于，所述步骤4)具体为：将所述语言音频拆分成多个1秒长的音频，将所述多个1秒长的音频、多个原始视频图像帧以及每一个所述原始视频图像帧对应的人脸图像帧输入到口型生成模型中，由所述口型生成模型生成多个口型视频图像帧，并将所述多个1秒长的音频和多个口型视频图像帧按照时间戳顺序存入到队列中。

6.根据权利要求5所述的大模型驱动的2d实时交互式...

【专利技术属性】
技术研发人员：苏启昌，张洽沺，杜冀中，
申请(专利权)人：北京智谱华章科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人