一种利用大语言模型驱动数字人动作的方法及系统技术方案

技术编号：44904010 阅读：13 留言：0更新日期：2025-04-08 18:50

本发明专利技术公开了一种利用大语言模型驱动数字人动作的方法及系统，方法包括调用大模型识别当前及前续会话内容，预测人物的情绪和动作，输出连贯的情绪和动作标签；根据不同情绪与动作的映射关系，结合深度学习与规则库构建方法，建立涵盖多样行为模式的数字人规则库；根据识别出的当前会话的情绪和动作标签，在数字人规则库中调用绑定的表情和动作渲染逻辑，生成实时会话视频流；实时逐帧播放生成的数字人会话视频流。优点为：能够让数字人更自然的结合会话内容，生成带有表情和动作的视频流，并通过循环执行以达到实时播放数字人对话视频流的效果，减少了传统方法中可能出现的表情动作僵硬或与会话内容不匹配情况。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能与虚拟人交互，尤其涉及一种利用大语言模型驱动数字人动作的方法及系统。

技术介绍

1、在现有的数字人互动技术中，主要采用基于规则的行为控制方法和简单的情绪识别模型来生成数字人的面部表情和肢体动作。这些技术通常依赖于预设的规则库和有限的情绪标签来进行动作匹配和生成，存在以下主要问题：

2、(1)、语义与情绪的解析精度不足：现有技术中，大多数系统采用的是基于关键词匹配或简单情绪分类的情绪解析方法。此类方法往往无法对复杂的对话情境进行准确的语义理解和情绪推断。例如，当用户表达含蓄或多层次情绪时，现有系统可能会误判其情绪强度或未能完全捕捉到潜在的情感变化，从而导致数字人的反应显得生硬、不自然。

3、(2)、情绪与行为映射不够灵活和自然：现有技术中，情绪与动作之间的映射关系较为固定，缺乏足够的灵活性来应对多轮对话中的动态情绪变化。例如，系统无法有效根据不同的情绪波动调整数字人的动作频率或表情细节，导致数字人在交互过程中表现出过于刻板的行为，无法做到自然过渡。

4、(3)、缺乏对情绪波动的平滑...

【技术保护点】

1.一种利用大语言模型驱动数字人动作的方法，其特征在于：包括如下步骤，

2.根据权利要求1所述的利用大语言模型驱动数字人动作的方法，其特征在于：步骤S1具体包括如下内容，

3.根据权利要求2所述的利用大语言模型驱动数字人动作的方法，其特征在于：所述情感识别与语义处理大模型基于Transformer网络结构，对会话文本中每个字、词的嵌入向量进行处理，利用对话序列的时间流和语言依赖关系，实现深层次的语义理解与推理；通过向量化编码方法，将会话情绪和动作预测结果转化为标签集合。

4.根据权利要求2所述的利用大语言模型驱动数字人动作的方法，其特征在于：步骤S1还...

【技术特征摘要】

1.一种利用大语言模型驱动数字人动作的方法，其特征在于：包括如下步骤，

2.根据权利要求1所述的利用大语言模型驱动数字人动作的方法，其特征在于：步骤s1具体包括如下内容，

3.根据权利要求2所述的利用大语言模型驱动数字人动作的方法，其特征在于：所述情感识别与语义处理大模型基于transformer网络结构，对会话文本中每个字、词的嵌入向量进行处理，利用对话序列的时间流和语言依赖关系，实现深层次的语义理解与推理；通过向量化编码方法，将会话情绪和动作预测结果转化为标签集合。

4.根据权利要求2所述的利用大语言模型驱动数字人动作的方法，其特征在于：步骤s1还包括，

5.根据权利要求4所述的利用大语言模型驱动数字人动作的方法，其特征在于：步骤s13具体为，结合情绪回归模型，利用前序会话标签的均值滤波与指数加权平滑方法，动态调整清光绪与行为标签的变化权重；使用移动平均窗口和指数加权技术，滤波动作与情绪变化曲线，确保标签输出更符合人类真实对话习惯。

6.根据权利要求1所述的利...

【专利技术属性】
技术研发人员：张华伟，
申请(专利权)人：新壹北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人