一种基于策略梯度优化的在线数字人动作生成方法和系统技术方案

技术编号:39732178 阅读:9 留言:0更新日期:2023-12-17 23:35
本发明专利技术公开了一种基于策略梯度优化的在线数字人动作生成方法和系统,属于人工智能技术领域

【技术实现步骤摘要】
一种基于策略梯度优化的在线数字人动作生成方法和系统


[0001]本专利技术属于人工智能领域,尤其涉及一种基于策略梯度优化的在线数字人动作生成方法和系统


技术介绍

[0002]随着深度学习技术的飞速发展,对话系统

语音合成和视频合成能力日益进步,结合这些技术,如今已经可以实现高质量的实时
2.5D
数字人视频合成,合成的数字人形象和真人极为相似,一般看不出差异,而且还具备非常高的实时交互性能

因此这种
2.5D
数字人技术可以应用于多种场景,包括视频直播

教育

导购

客服等多种需要交互的场景中,其中一个很重要的应用场景便是交互终端上的助理或客服数字人

后面为了简单起见,将用数字人来简称
2.5D
数字人

[0003]目前数字人的动作是通过还原模板视频中的动作来实现的,具体来讲,目前的数字人技术是通过顺序播放模板视频中的肢体动作,然后通过语音驱动生成新的人脸,替换模板中的人脸,从而得到新的数字人视频

在交互场景下,这样的方案会存在一个问题:生成的数字人视频在动作上会出现不连续

这里面存在两个原因:第一,数字人模板视频长度是有限的,当生成长度超过模板长度时,数字人的动作就需要从最后帧回到初始帧,造成画面的跳动;第二,在交互场景中,当数字人回答完一个问题后,应该进行动作的归位,这里的归位是指动作回到不说话的状态,比如自然摆放到桌面上,或者自然下垂于身前等等,做出一个等待询问的姿态,而不是回答完毕,肢体动作却依然处于回答中的姿态,这样会大大影响数字人用于交互场景真实感

[0004]针对不连续和跳动的问题,目前一般采用循环播放的方法,即当数字人模板从初始帧已经前进到最后帧的时候,不采用跳回初始帧,而是通过倒序的方法,从最后帧倒退回第一帧,以此循环往复,来保证数字人动作的连续性

[0005]针对不归位的方法,目前一般采用拍摄两段不同模板的方式,第一段是一直保持静止或等待问询的状态,第二段则是正常讲话的视频,两段视频的初始帧会保证一致

当不处于回答状态的时候,会一直播放静止状态的视频;当回答的时候,会利用正常讲话视频的模板进行数字人合成

但是这样的归位方案,依然存在不连续的问题,当数字人视频合成到讲话结束时,动作依然处于讲话的状态,而下一帧则要开始播放归位的模板视频,中间会出现明显的跳动

[0006]综上,现有的数字人动作生成方法至少存在以下问题:
[0007](1)
数字人讲话完毕进行归位的过程中会出现动作不连续的问题

[0008](2)
数字人被交互式打断的时候,打断的方式会和外界环境,以及与之交互的人类行为有着很强的相关性,目前的方法难以以连续的方式进行动作归位

[0009](3)
部署到实际交互终端中的数字人,其动作生成方式在部署时就已经确定,无法根据实际使用场景中的交互情况,进行动作生成方案的优化


技术实现思路

[0010]为了解决现有的交互式数字人动作生成中归位或者打断归位造成的动作不连续问题,本专利技术提供了一种基于策略梯度优化的在线数字人动作生成方法和系统,通过选择合理的模板片段长度

预测打断的可能性

自适应的持续学习等方式保证了数字人动作归位更平滑与连续,提升了数字人动作生成的效果

[0011]为了实现上述目的,本专利技术采用的技术方案如下:
[0012]第一方面,本专利技术提供了一种基于策略梯度优化的在线数字人动作生成方法,包括:
[0013]拍摄数字人静止状态模板和讲话状态模板,初始化轨迹列表和用于模板循环长度生成的值

策略神经网络,对值

策略神经网络中的策略网络进行预训练;
[0014]接收交互指令,将当前用户语音输入转换为文本问题,生成回答文本,再根据回答文本合成待播放语音,计算当前状态;
[0015]通过值

策略神经网络中的策略网络,生成讲话状态模板中的选定模板片段的长度,在选定的视频模板片段上进行一次往复的数字人动作生成,直至回答自然结束

被打断或者视频模板片段耗尽;记录结束标识和回报值,将当前状态

选定模板片段的长度

回报值和结束标识元组加入到轨迹列表中;
[0016]判断当前回答状态,若当前回答已完成,则切换到静止状态模板以让数字人动作归位或者开启新的交互,并在数字人空闲时根据轨迹列表中的数据更新值

策略神经网络的参数,更新完成后清空轨迹列表;若当前回答未完成,则根据当前所剩的待播放语音和所剩的待回答文本更新当前状态,继续完成回答

[0017]第二方面,本专利技术提供了一种基于策略梯度优化的在线数字人动作生成系统,用于实现上述的在线数字人动作生成方法

[0018]第三方面,本专利技术提供了一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现上述的在线数字人动作生成方法

[0019]第四方面,本专利技术提供了一种机器可读存储介质,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,用于实现上述的在线数字人动作生成方法

[0020]本专利技术具备的有益效果是:
[0021](1)
本专利技术提出的数字人动作模板选择方法,能够选择合理的模板动作播放方式,在非打断的情形下,使得数字人动作归位尽可能平滑与连续

[0022](2)
在数字人回答被用户打断的情形下,本专利技术提出的方法可以较好地预测打断的时机,从而提前选择合适长度的模板片段,使得被打断后的数字人动作离初始状态尽可能接近,更容易归位

[0023](3)
数字人部署到交互终端后,本专利技术的方案能够根据实际使用场景中的交互,开展自适应的持续学习,从而不断提升回答时长预测的准确性和动作生成方法的合理性,提升数字人动作归位的连续性和自然性,以适应于其实际所处的场合

附图说明
[0024]图1是本专利技术实施例示出的基于策略梯度优化的在线数字人动作生成方法的流程示意图;
[0025]图2是本专利技术实施例示出的值网络
(V
网络
)
的结构示意图;
[0026]图3是本专利技术实施例示出的策略网络
(P
网络
)
的结构示意图;
[0027]图4是本专利技术实施例示出的基于策略梯度优化的在线数字人动作生成方法的电子设本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于策略梯度优化的在线数字人动作生成方法,其特征在于,包括:拍摄数字人静止状态模板和讲话状态模板,初始化轨迹列表和用于模板循环长度生成的值

策略神经网络,对值

策略神经网络中的策略网络进行预训练;接收交互指令,将当前用户语音输入转换为文本问题,生成回答文本,再根据回答文本合成待播放语音,计算当前状态;通过值

策略神经网络中的策略网络,生成讲话状态模板中的选定模板片段的长度,在选定的视频模板片段上进行一次往复的数字人动作生成,直至回答自然结束

被打断或者视频模板片段耗尽;记录结束标识和回报值,将当前状态

选定模板片段的长度

回报值和结束标识元组加入到轨迹列表中;判断当前回答状态,若当前回答已完成,则切换到静止状态模板以让数字人动作归位或者开启新的交互,并在数字人空闲时根据轨迹列表中的数据更新值

策略神经网络的参数,更新完成后清空轨迹列表;若当前回答未完成,则根据当前所剩的待播放语音和所剩的待回答文本更新当前状态,继续完成回答
。2.
根据权利要求1所述的基于策略梯度优化的在线数字人动作生成方法,其特征在于,所述的静止状态模板和讲话状态模板长度一致
。3.
根据权利要求1所述的基于策略梯度优化的在线数字人动作生成方法,其特征在于,所述的计算当前状态,包括:提取用户用户语音输入中的情绪特征向量
E
I
;获取当前所剩的待播放语音和所剩的待回答文本;计算当前所剩的待播放语音的长度,预测可打断时间点;拼接待播放语音的长度和可打断时间点,得到数字人播报语音的特征向量
E
W
;提取文本问题的语义嵌入向量
E
Q
和所剩的待回答文本的语义嵌入向量
E
A
;计算当前回答在此之前已经播放的时长
T
A
;生成用于决定下一次讲话状态模板片段选择长度的输入状态
s

concat(E
w
,E
A
,E
I
,E
Q
,T
A
)。4.
根据权利要求3所述的基于策略梯度优化的在线数字人动作生成方法,其特征在于,所述的预测可打断时间点,包括:利用分句模型获得当前所剩的待播放语音中每句话的结束时间作为可打断时间点
{T1,T2,

,T
m
}
,每一个可打断时间点对应一个预测置信度;如果可打断时间点数量超过阈值,则保留置信度最高的
m
个可打断时间点;其中
T
m
为第
m
个可打断时间点,
m
为可打断时间点数量
。5.
根据权利要求1所述的基于策略梯度优化的在线数字人动作生成方法,其特征在于,所述的通过值

策略神经网络中的策略网络,生成讲话状态模板中的选定模板片段的长度,在选定的视频模板片段上进行一次往复的数字人动作生成,直至回答自然结束

被打断或者视频模板片段耗尽,包括:通过策略网络计算
π
s

P(s)
,其中
π
s
∈R
N
为策略概率向量,
π
s
的第
a
个元素
π
s,i
代表选择长度为
a
的模板片段,
N
表示视频模板的长度,
P(.)
为策略网络,
s
为输入的当前状态;从讲话状态模板中选择前
a
帧构成后续合成数字人画面的视频模板片段,利用语音驱动模型逐帧合成数字人画面用于实时播放,逐帧合成指的是先按照视频模板片段正序帧合
成,再按照视频模板片段倒叙帧合成,直至回答自然结束

被打断或者视频模板片段耗尽
。6.
根据权利要求1所述的基于策略梯度优化的在线数字人动作生成方法,其特征在于,所述的记录结束标识和回报值,包括:在逐帧合成过程中,实时判断数字人画面播放情况,一旦数字人播放中止,则依次判断属于回答自然结束

被...

【专利技术属性】
技术研发人员:薛弘扬
申请(专利权)人:杭州一知智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1