一种基于策略梯度优化的在线数字人动作生成方法和系统技术方案

技术编号：39732178 阅读：9 留言：0更新日期：2023-12-17 23:35

本发明专利技术公开了一种基于策略梯度优化的在线数字人动作生成方法和系统，属于人工智能技术领域

全部详细技术资料下载

【技术实现步骤摘要】
一种基于策略梯度优化的在线数字人动作生成方法和系统

[0001]本专利技术属于人工智能领域，尤其涉及一种基于策略梯度优化的在线数字人动作生成方法和系统
。

技术介绍

[0002]随着深度学习技术的飞速发展，对话系统
、
语音合成和视频合成能力日益进步，结合这些技术，如今已经可以实现高质量的实时
2.5D
数字人视频合成，合成的数字人形象和真人极为相似，一般看不出差异，而且还具备非常高的实时交互性能
。
因此这种
2.5D
数字人技术可以应用于多种场景，包括视频直播
、
教育
、
导购
、
客服等多种需要交互的场景中，其中一个很重要的应用场景便是交互终端上的助理或客服数字人
。
后面为了简单起见，将用数字人来简称
2.5D
数字人
。
[0003]目前数字人的动作是通过还原模板视频中的动作来实现的，具体来讲，目前的数字人技术是通过顺序播放模板视频中的肢体动作，然后通过语音驱动生成新的人脸，替换模板中的人脸，从而得到新的数字人视频
。
在交互场景下，这样的方案会存在一个问题：生成的数字人视频在动作上会出现不连续
。
这里面存在两个原因：第一，数字人模板视频长度是有限的，当生成长度超过模板长度时，数字人的动作就需要从最后帧回到初始帧，造成画面的跳动；第二，在交互场景中，当数字人回答完一个问题后，应该进行动作的归位，这里的归位是...

【技术保护点】

【技术特征摘要】
1.
一种基于策略梯度优化的在线数字人动作生成方法，其特征在于，包括：拍摄数字人静止状态模板和讲话状态模板，初始化轨迹列表和用于模板循环长度生成的值
‑
策略神经网络，对值
‑
策略神经网络中的策略网络进行预训练；接收交互指令，将当前用户语音输入转换为文本问题，生成回答文本，再根据回答文本合成待播放语音，计算当前状态；通过值
‑
策略神经网络中的策略网络，生成讲话状态模板中的选定模板片段的长度，在选定的视频模板片段上进行一次往复的数字人动作生成，直至回答自然结束
、
被打断或者视频模板片段耗尽；记录结束标识和回报值，将当前状态
、
选定模板片段的长度
、
回报值和结束标识元组加入到轨迹列表中；判断当前回答状态，若当前回答已完成，则切换到静止状态模板以让数字人动作归位或者开启新的交互，并在数字人空闲时根据轨迹列表中的数据更新值
‑
策略神经网络的参数，更新完成后清空轨迹列表；若当前回答未完成，则根据当前所剩的待播放语音和所剩的待回答文本更新当前状态，继续完成回答
。2.
根据权利要求1所述的基于策略梯度优化的在线数字人动作生成方法，其特征在于，所述的静止状态模板和讲话状态模板长度一致
。3.
根据权利要求1所述的基于策略梯度优化的在线数字人动作生成方法，其特征在于，所述的计算当前状态，包括：提取用户用户语音输入中的情绪特征向量
E
I
；获取当前所剩的待播放语音和所剩的待回答文本；计算当前所剩的待播放语音的长度，预测可打断时间点；拼接待播放语音的长度和可打断时间点，得到数字人播报语音的特征向量
E
W
；提取文本问题的语义嵌入向量
E
Q
和所剩的待回答文本的语义嵌入向量
E
A
；计算当前回答在此之前已经播放的时长
T
A
；生成用于决定下一次讲话状态模板片段选择长度的输入状态
s
＝
concat(E
w
,E
A
,E
I
,E
Q
,T
A
)。4.
根据权利要求3所述的基于策略梯度优化的在线数字人动作生成方法，其特征在于，所述的预测可打断时间点，包括：利用分句模型获得当前所剩的待播放语音中每句话的结束时间作为可打断时间点
{T1,T2,
…
,T
m
}
，每一个可打断时间点对应一个预测置信度；如果可打断时间点数量超过阈值，则保留置信度最高的
m
个可打断时间点；其中
T
m
为第
m
个可打断时间点，
m
为可打断时间点数量
。5.
根据权利要求1所述的基于策略梯度优化的在线数字人动作生成方法，其特征在于，所述的通过值
‑
策略神经网络中的策略网络，生成讲话状态模板中的选定模板片段的长度，在选定的视频模板片段上进行一次往复的数字人动作生成，直至回答自然结束
、
被打断或者视频模板片段耗尽，包括：通过策略网络计算
π
s
＝
P(s)
，其中
π
s
∈R
N
为策略概率向量，
π
s
的第
a
个元素
π
s,i
代表选择长度为
a
的模板片段，
N
表示视频模板的长度，
P(.)
为策略网络，
s
为输入的当前状态；从讲话状态模板中选择前
a
帧构成后续合成数字人画面的视频模板片段，利用语音驱动模型逐帧合成数字人画面用于实时播放，逐帧合成指的是先按照视频模板片段正序帧合
成，再按照视频模板片段倒叙帧合成，直至回答自然结束
、
被打断或者视频模板片段耗尽
。6.
根据权利要求1所述的基于策略梯度优化的在线数字人动作生成方法，其特征在于，所述的记录结束标识和回报值，包括：在逐帧合成过程中，实时判断数字人画面播放情况，一旦数字人播放中止，则依次判断属于回答自然结束
、
被...

【专利技术属性】
技术研发人员：薛弘扬，
申请(专利权)人：杭州一知智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人