基于随机游走的三维伴言手势实时生成方法、设备及介质技术

技术编号:37264589 阅读:25 留言:0更新日期:2023-04-20 23:36
本发明专利技术公开了一种基于随机游走的三维伴言手势实时生成方法、设备及介质。首先收集一定数量的人类短时间说话的人体关键点三维坐标样本。根据样本来源和最大标准差将其分为数个伴言手势群。再在每个群中,通过计算不同样本首尾帧之间的向量距离,生成样本之间的一对多有向连接图。而后搜索输入音频的连续低幅值区域(说话停顿处),计算每一段语音的时长;根据每一段语音的时长,利用随机数在有向连接图中选择节点(样本)及其邻接节点,通过插入过渡帧,最终拼接为与输入音频等时长的人体关键点三维坐标序列。本发明专利技术的优势在于,实现成本相较现有技术更低;相对于重复播放录制视频,本发明专利技术生成的伴言手势也几乎不存在重复的情况,效果更好。效果更好。效果更好。

【技术实现步骤摘要】
基于随机游走的三维伴言手势实时生成方法、设备及介质


[0001]本专利技术涉及一种基于随机游走的三维伴言手势实时生成方法、设备及介质。

技术介绍

[0002]近年来,信息科技发展日新月异。尤其是人工智能新技术、新方法层出不穷。虚拟人(Virtual Human),或称具象化会话智能体(Embodied Conversational Agent),以模拟真人形象和声音与自然人交互,取代低效的人人交互和生硬的传统人机界面交互,给人更贴合生活实际的体验的同时,也降低了行业人力资源成本。如果该项技术能够达到工业和商业的要求,即可被广泛应用在各个行业的客户服务方面,也可充当个人或组织的数字助理,用于收集信息、提供资讯、照顾病患等,使得人们的工作和生活更加便利。
[0003]具象化会话智能体本质上是一种图形(图像)化人机交互的形式,其能够与环境中的人类或其他类似实体产生语言、面部表情、肢体动作层面上的交互。自2000年,Justine Cassell等人正式提出了具象化会话智能体的概念。人们开始对具备多模态的(文本、语音、图像)机器智能产生需求。其中一项对人工智能和图形图像合成领域提出的艰难挑战——使会话智能体的外观在静态和动态两方面逼近自然人(拟人)。静态拟人要求会话智能体在机器生成的外观应当能够为自然人所感知,并与自然人外观接近。动态拟人要求会话智能体在人机交互时的外观(包括口唇动作、面部表情、肢体动作方面)应当能够为自然人所感知,并与自然人对应方面接近。
[0004]近两年学术研究领域内涌现出了大量关于具象化会话智能体的技术成果,特别是在语音转动画方面取得了较多研究成果,但其中也存在一些不足。
[0005]从实时性而言,目前公开的解决方案中,多数是以语音生成视频,并非实时输出。从实现方式层面考虑,它们大多使用冗余度较高的软件体系结构和运行效率低下的编程语言(如Python)。例如VOCA的算法步骤实现重复度较高,数秒的音频转化为视频往往需要十几分钟以上的时间。从软件部署层面考虑,这些成果往往采用对抗网络实现映射,需要大量的浮点运算和存储空间,对硬件存在较高的要求。基于对人类交流的观察,语音转动画的生动程度不仅仅取决于语音、唇形以及图形/图像输出的同步性和准确率,还取决于人物在说话时的面部表情和肢体动作,以及这两者与唇形变化(语音变化)的联动。伴言手势用于非语言交互(No

Verbal Communication),可强化人机的交互体验,从而提高具象化会话智能体的拟人程度。
[0006]最关键的是,学术研究领域和工业应用领域除以下少数文献外,多数语音转动画成果都没有结合伴言手势,这也是具象化会话智能体在拟人方面难以产生令人满意的交互体验的原因之一。以上原因都极大地限制了现有学术界解决方案的在工业领域的适用性和应用范围。
[0007]目前也有部分将动作与语音结合起来的方案,比如有面向实体机器人提出了一种端到端的神经网络模型,可将文本转化为机器人的手臂动作。但限于机器人的机能,其仅考虑了手臂的动作;伴言手势通常还会涉及脖颈、脊柱、手指等部位的关节,因此其适用范围
有限。也有采用循环神经网络建立了全身动作与语言描述之间的双向映射,利用动态贝叶斯网络试图建立语音内容与人物动作之间的联系,但大多数方法采用多为二维的手势数据,而且几乎都没有考虑手指动作,从而限制了人物动作的生动性和表现力。

技术实现思路

[0008]为了解决目前动作与语音的结合存在表现力不足的技术问题,本专利技术提供一种基于随机游走的三维伴言手势实时生成方法、设备及介质。
[0009]为了实现上述技术目的,本专利技术的技术方案是,
[0010]一种基于随机游走的三维伴言手势实时生成方法,包括以下步骤:
[0011]步骤一,采集不同人在说话时人体关键点的三维坐标序列,作为不同的样本;
[0012]步骤二,对所有样本基于来源进行分类,然后再根据每类中各样本三维坐标的变化大小情况来进行分群;
[0013]步骤三,基于每个群中的样本来生成连接图,其中连接图中每个节点对应一个样本,然后计算各节点之间的向量距离,并将每个节点和与其向量距离最小的前d个节点以有向边连接起来,从而形成一对多的有向连接图;
[0014]步骤四,采集语音音频,并将音频帧基于语音的停顿划分为全为停顿帧或全为非停顿帧的多个子序列;然后基于语音音频内容、使用场景及需求选择一个群以及相应的有向连接图;
[0015]步骤五,对每个全为停顿帧的子序列,基于默认姿势人体关键点的人体关键点三维坐标,生成对应的同帧数的人体关键点三维坐标序列;
[0016]步骤六,对每个全为非停顿帧的子序列,在连接图中,根据样本之间的有向连接,依次随机选取多个节点,并在首节点之前、末节点之后和相邻节点之间加入过渡帧;然后将样本和过渡帧拼接得到与全为非停顿帧的子序列帧数相等的人体关键点三维坐标序列;从而与步骤五的结果一起构成与语音音频相匹配的三维伴言手势。
[0017]所述的方法,所述的步骤一中,人体关键点包括人体的各个关节以及肢体末端。
[0018]所述的方法,所述的步骤二中,对所有样本基于来源进行分类,是根据样本来源的人的性别、年龄和职业来进行分类。
[0019]所述的方法,所述的步骤二中,分群是基于以下步骤实现:
[0020]对分类后的每个样本即三维坐标序列S=<s
i,k
>,计算最大标准差σ
max

[0021][0022]其中L为三维坐标序列S的长度;k=1,2,

,L,表示S中的帧标号;i=1,2,

,N
kp
×
3,表示三维坐标的值;N
kp
为人体关键点的数量;
[0023]对第n个类的所有样本,按最大标准差的数值分布,将其分为若干群。
[0024]所述的方法,所述的步骤三包括以下步骤:
[0025]对包含N
g
个样本的第n个群;作连接图G=<V,E>,其中V={S
j
},表示节点集合,边集合即G的每个节点都对应一个样本;
[0026]取第j个样本S
j
=<s
i,k
>;对所有m=1,2,

,N
g
且m≠j,计算S
j
尾帧与样本S
m
首帧之间的向量距离
[0027]对所有m=1,2,

,N
g
且m≠j,取向量距离最小的d个样本并以由小到大的顺序(S
m1
,S
m2

S
md
)排列,在G中以对应节点S
j
向节点S
m1
,S
m2

S
m本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于随机游走的三维伴言手势实时生成方法,其特征在于,包括以下步骤:步骤一,采集不同人在说话时人体关键点的三维坐标序列,作为不同的样本;步骤二,对所有样本基于来源进行分类,然后再根据每类中各样本三维坐标的变化大小情况来进行分群;步骤三,基于每个群中的样本来生成连接图,其中连接图中每个节点对应一个样本,然后计算各节点之间的向量距离,并将每个节点和与其向量距离最小的前d个节点以有向边连接起来,从而形成一对多的有向连接图;步骤四,采集语音音频,并将音频帧基于语音的停顿划分为全为停顿帧或全为非停顿帧的多个子序列;然后基于语音音频内容、使用场景及需求选择一个群以及相应的有向连接图;步骤五,对每个全为停顿帧的子序列,基于默认姿势人体关键点的人体关键点三维坐标,生成对应的同帧数的人体关键点三维坐标序列;步骤六,对每个全为非停顿帧的子序列,在连接图中,根据样本之间的有向连接,依次随机选取多个节点,并在首节点之前、末节点之后和相邻节点之间加入过渡帧;然后将样本和过渡帧拼接得到与全为非停顿帧的子序列帧数相等的人体关键点三维坐标序列;从而与步骤五的结果一起构成与语音音频相匹配的三维伴言手势。2.根据权利要求1所述的方法,其特征在于,所述的步骤一中,人体关键点包括人体的各个关节以及肢体末端。3.根据权利要求1所述的方法,其特征在于,所述的步骤二中,对所有样本基于来源进行分类,是根据样本来源的人的性别、年龄和职业来进行分类。4.根据权利要求1所述的方法,其特征在于,所述的步骤二中,分群是基于以下步骤实现:对分类后的每个样本即三维坐标序列S=<s
i,k
>,计算最大标准差σ
max
:其中L为三维坐标序列S的长度;k=1,2,

,L,表示S中的帧标号;i=1,2,

,N
kp
×
3,表示三维坐标的值;N
kp
为人体关键点的数量;对第n个类的所有样本,按最大标准差的数值分布,将其分为若干群。5.根据权利要求3所述的方法,其特征在于,所述的步骤三包括以下步骤:对包含N
g
个样本的第n个群;作连接图G=<V,E>,其中V={S
j
},表示节点集合,边集合即G的每个节点都对应一个样本;取第j个样本S
j
=<s
i,k
>;对所有m=1,2,

,N
g
且m≠j,计算S
j
尾帧与样本S
m
首帧之间的向量距离对所有m=1,2,

,N
g
且m≠j,取向量距离最小的d个样本并以由小到大的顺序(S
m1
,S
m2

S
md
)排列,在G中以对应节点S
j
向节点S
m1
,S
m2

S
md
作有向边,边的权重为
d为一对多有向连接图的度。6.根据权利要求1所述的方法,其特征在于,所述的步骤四包括:将语音音频分为τB
o
帧,其中τ为人类语音音频时长,B
o
为伴言手势的输出帧率;顺序检查其中幅值低于阈值A的音频帧,如果连续不少于x个音频帧满足此条件,即视为说话停顿处,称停顿帧,而除停顿帧之外的音频帧即为非停顿帧;此时整个音频即表示为音频帧序列V=<v
...

【专利技术属性】
技术研发人员:刘吉伟吴笛张沅王晓东陆武军
申请(专利权)人:长城信息股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1