基于随机游走的三维伴言手势实时生成方法、设备及介质技术

技术编号：37264589 阅读：25 留言：0更新日期：2023-04-20 23:36

本发明专利技术公开了一种基于随机游走的三维伴言手势实时生成方法、设备及介质。首先收集一定数量的人类短时间说话的人体关键点三维坐标样本。根据样本来源和最大标准差将其分为数个伴言手势群。再在每个群中，通过计算不同样本首尾帧之间的向量距离，生成样本之间的一对多有向连接图。而后搜索输入音频的连续低幅值区域(说话停顿处)，计算每一段语音的时长；根据每一段语音的时长，利用随机数在有向连接图中选择节点(样本)及其邻接节点，通过插入过渡帧，最终拼接为与输入音频等时长的人体关键点三维坐标序列。本发明专利技术的优势在于，实现成本相较现有技术更低；相对于重复播放录制视频，本发明专利技术生成的伴言手势也几乎不存在重复的情况，效果更好。效果更好。效果更好。

全部详细技术资料下载

【技术实现步骤摘要】
基于随机游走的三维伴言手势实时生成方法、设备及介质

[0001]本专利技术涉及一种基于随机游走的三维伴言手势实时生成方法、设备及介质。

技术介绍

[0002]近年来，信息科技发展日新月异。尤其是人工智能新技术、新方法层出不穷。虚拟人(Virtual Human)，或称具象化会话智能体(Embodied Conversational Agent)，以模拟真人形象和声音与自然人交互，取代低效的人人交互和生硬的传统人机界面交互，给人更贴合生活实际的体验的同时，也降低了行业人力资源成本。如果该项技术能够达到工业和商业的要求，即可被广泛应用在各个行业的客户服务方面，也可充当个人或组织的数字助理，用于收集信息、提供资讯、照顾病患等，使得人们的工作和生活更加便利。
[0003]具象化会话智能体本质上是一种图形(图像)化人机交互的形式，其能够与环境中的人类或其他类似实体产生语言、面部表情、肢体动作层面上的交互。自2000年，Justine Cassell等人正式提出了具象化会话智能体的概念。人们开始对具备多模态的(文本、语音、图像)机器智能产生需求。其中一项对人工智能和图形图像合成领域提出的艰难挑战——使会话智能体的外观在静态和动态两方面逼近自然人(拟人)。静态拟人要求会话智能体在机器生成的外观应当能够为自然人所感知，并与自然人外观接近。动态拟人要求会话智能体在人机交互时的外观(包括口唇动作、面部表情、肢体动作方面)应当能够为自然人所感知，并与自然人对应方面接近。
[0004]近两年学术研究领域内涌现出了大量关于具象...

【技术保护点】

【技术特征摘要】
1.一种基于随机游走的三维伴言手势实时生成方法，其特征在于，包括以下步骤：步骤一，采集不同人在说话时人体关键点的三维坐标序列，作为不同的样本；步骤二，对所有样本基于来源进行分类，然后再根据每类中各样本三维坐标的变化大小情况来进行分群；步骤三，基于每个群中的样本来生成连接图，其中连接图中每个节点对应一个样本，然后计算各节点之间的向量距离，并将每个节点和与其向量距离最小的前d个节点以有向边连接起来，从而形成一对多的有向连接图；步骤四，采集语音音频，并将音频帧基于语音的停顿划分为全为停顿帧或全为非停顿帧的多个子序列；然后基于语音音频内容、使用场景及需求选择一个群以及相应的有向连接图；步骤五，对每个全为停顿帧的子序列，基于默认姿势人体关键点的人体关键点三维坐标，生成对应的同帧数的人体关键点三维坐标序列；步骤六，对每个全为非停顿帧的子序列，在连接图中，根据样本之间的有向连接，依次随机选取多个节点，并在首节点之前、末节点之后和相邻节点之间加入过渡帧；然后将样本和过渡帧拼接得到与全为非停顿帧的子序列帧数相等的人体关键点三维坐标序列；从而与步骤五的结果一起构成与语音音频相匹配的三维伴言手势。2.根据权利要求1所述的方法，其特征在于，所述的步骤一中，人体关键点包括人体的各个关节以及肢体末端。3.根据权利要求1所述的方法，其特征在于，所述的步骤二中，对所有样本基于来源进行分类，是根据样本来源的人的性别、年龄和职业来进行分类。4.根据权利要求1所述的方法，其特征在于，所述的步骤二中，分群是基于以下步骤实现：对分类后的每个样本即三维坐标序列S＝<s
i,k
>，计算最大标准差σ
max
：其中L为三维坐标序列S的长度；k＝1,2,
…
,L，表示S中的帧标号；i＝1,2,
…
,N
kp
×
3，表示三维坐标的值；N
kp
为人体关键点的数量；对第n个类的所有样本，按最大标准差的数值分布，将其分为若干群。5.根据权利要求3所述的方法，其特征在于，所述的步骤三包括以下步骤：对包含N
g
个样本的第n个群；作连接图G＝<V,E>，其中V＝{S
j
}，表示节点集合，边集合即G的每个节点都对应一个样本；取第j个样本S
j
＝<s
i,k
>；对所有m＝1,2,
…
,N
g
且m≠j，计算S
j
尾帧与样本S
m
首帧之间的向量距离对所有m＝1,2,
…
,N
g
且m≠j，取向量距离最小的d个样本并以由小到大的顺序(S
m1
,S
m2
…
S
md
)排列，在G中以对应节点S
j
向节点S
m1
,S
m2
…
S
md
作有向边，边的权重为
d为一对多有向连接图的度。6.根据权利要求1所述的方法，其特征在于，所述的步骤四包括：将语音音频分为τB
o
帧，其中τ为人类语音音频时长，B
o
为伴言手势的输出帧率；顺序检查其中幅值低于阈值A的音频帧，如果连续不少于x个音频帧满足此条件，即视为说话停顿处，称停顿帧，而除停顿帧之外的音频帧即为非停顿帧；此时整个音频即表示为音频帧序列V＝<v
...

【专利技术属性】
技术研发人员：刘吉伟，吴笛，张沅，王晓东，陆武军，
申请(专利权)人：长城信息股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人