基于手势动作图的小样本数字人语音驱动动作重演方法技术

技术编号：39413263 阅读：9 留言：0更新日期：2023-11-19 16:04

本发明专利技术提供一种基于手势动作图的小样本数字人语音驱动动作重演方法，方法包括：对参考讲话数据进行节奏点检测

全部详细技术资料下载

【技术实现步骤摘要】
基于手势动作图的小样本数字人语音驱动动作重演方法

[0001]本专利技术涉及人工智能
，尤其涉及一种基于手势动作图的小样本数字人语音驱动动作重演方法
。

技术介绍

[0002]能够带来极高质量沉浸体验的扩展现实平台被广泛认为是最有可能取代视频内容成为下一代大众传媒的技术
。
然而，在这种人造的虚拟空间内实现与现实无异的人机交互体验却受到技术发展水平的制约
。
[0003]为了模仿现实世界人与人之间的交流，现有技术中已经可以利用自然语言处理和文本转语音技术使数字人通过讲话的方式与用户进行高质量的交流
。
然而，生成伴随讲话的手势动作却仍然面临较大的挑战
。
缺少了这些手势，数字人将显得呆板
、
不自然，严重破坏了用户的沉浸体验
。
[0004]早期采用基于手工规则和概率模型的语音驱动动作生成面临着成本高
、
局限性大
、
真实性差等诸多问题
。
近年来，随着人工智能技术不断发展，数据驱动的方法成为新的发展方向，基于不同架构的深度神经网络以及采用变分自动编码器
、
生成对抗网络
、
标准化流
、
扩散模型等生成式模型的语音驱动动作生成方法不断被提出
。
但这些方法均需要大量训练数据，其效果也受到训练数据质量的限制
。
目前公共数据集的质量参差不齐，不能满足实际应用需求
。
>而高质量的训练数据主要通过动作捕捉技术获得，成本极高
。
并且，这些方法在面对一些小样本应用场景时表现欠佳，如要求其模仿一个目标表演者讲话手势来生成新讲话的手势时，其生成结果局限于训练数据，生成期望手势较为困难
。
[0005]运动图结构能够较好地描述动作的连续关系，能够通过参考动作生成可控的新动作，在相关的动作检索
、
创建等任务上已经获得广泛应用，且能够较好地适用于不同规模的参考数据
。

技术实现思路

[0006]本专利技术提供一种基于手势动作图的小样本数字人语音驱动动作重演方法，用以解决现有技术中在面对一些小样本应用场景时表现欠佳，如要求其模仿一个目标表演者讲话手势来生成新讲话的手势时，其生成结果局限于训练数据，生成期望手势较为困难的缺陷
。
[0007]本专利技术提供一种基于手势动作图的小样本数字人语音驱动动作重演方法，包括：
[0008]获取参考讲话数据和测试讲话数据，并对所述参考讲话数据中的参考音频数据进行音频节奏点检测，得到第一节奏点的位置，对所述参考讲话数据中的参考文本数据进行文本关键词检测，得到第一关键词和所述第一关键词对应的位置；对所述参考讲话数据中的参考手势序列数据进行运动连续性检测，得到所述参考手势序列数据中的非自然帧间连续关系；
[0009]基于所述第一节奏点的位置
、
所述第一关键词和所述第一关键词对应的位置以及所述非自然帧间连续关系，构建手势运动图；
[0010]对所述测试讲话数据中的测试音频数据进行音频节奏点检测，得到第二节奏点的位置，并对所述测试讲话数据中的测试文本数据进行文本关键词检测，得到第二关键词和所述第二关键词对应的位置；
[0011]基于所述第二节奏点的位置
、
所述第二关键词和所述第二关键词对应的位置，确定搜索分段，并基于所述搜索分段对所述手势运动图进行搜索，得到搜索局部最优路径；
[0012]基于所述搜索局部最优路径，得到重演手势，所述重演手势包括语义性手势和节奏性手势；
[0013]将所述语义性手势和预录制语义性手势输入至手势风格融合网络中，由所述手势风格融合网络得到并输出融合手势，基于所述融合手势和所述节奏性手势，确定最终手势，并基于所述最终手势驱动数字人进行动作重演；所述手势风格融合网络是基于生成判别网络构建的
。
[0014]根据本专利技术提供的一种基于手势动作图的小样本数字人语音驱动动作重演方法，所述基于所述第一节奏点的位置
、
所述第一关键词和所述第一关键词对应的位置以及所述非自然帧间连续关系，构建手势运动图，包括：
[0015]以所述参考手势序列数据中的各帧作为一个节点，并根据所述第一节奏点的位置标记节奏性关键节点，根据所述第一关键词和所述第一关键词对应的位置标记语义性关键节点，根据所述参考手势序列数据中不连续的帧对应的位置标记间断性关键节点；
[0016]对所述参考手势序列数据中的自然连续关系的两帧间建立第一加权有向边，所述第一加权有向边的边权重设置为零；
[0017]对所述参考手势序列数据中的所述非自然帧间连续关系的两帧间建立第二加权有向边，并基于姿态距离，设置所述第二加权有向边的边权重，得到所述手势运动图，所述姿态距离是基于具有所述非自然帧间连续关系的两帧间关键点对应的位置和所述非自然帧间连续关系的两帧间关键点对应的速度确定的
。
[0018]根据本专利技术提供的一种基于手势动作图的小样本数字人语音驱动动作重演方法，所述对所述参考讲话数据中的参考音频数据进行音频节奏点检测，得到第一节奏点的位置，包括：
[0019]基于短时距傅里叶变换算法和所述参考音频数据，得到所述参考音频数据的梅尔频谱图；
[0020]基于所述梅尔频谱图，得到节奏点强度包络，并基于所述节奏点强度包络和峰值检测算法，得到所述第一节奏点的位置
。
[0021]根据本专利技术提供的一种基于手势动作图的小样本数字人语音驱动动作重演方法，所述对所述参考讲话数据中的参考手势序列数据进行运动连续性检测，得到所述参考手势序列数据中的非自然帧间连续关系，包括：
[0022]基于姿态距离
、
动态阈值和剪枝策略，对所述参考讲话数据中的参考手势序列数据进行运动连续性检测，得到所述参考手势序列数据中的非自然帧间连续关系；所述动态阈值是基于当前左帧和所述当前左帧后的预设数量的帧之间的均值姿态距离确定的
。
[0023]根据本专利技术提供的一种基于手势动作图的小样本数字人语音驱动动作重演方法，所述手势风格融合网络的训练步骤包括：
[0024]获取样本语义性手势
、
样本预录制语义性手势
、
初始手势风格融合网络
、
假标签和
真标签；
[0025]将所述样本语义性手势和所述样本预录制语义性手势输入至所述初始手势风格融合网络中，由所述初始手势风格融合网络中的手势特征提取器对所述样本语义性手势和所述样本预录制语义性手势分别进行手势重建，得到重建语义性手势和重建预录制语义性手势；
[0026]将所述手势特征提取器中的编码器对所述样本语义性手势和所述样本预录制语义性手势分别编码后的特征进行拼接，得到拼接特征，并将所述拼接特征输入至双输入解码器中，由所述双输入解码器得到并输出融合本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种基于手势动作图的小样本数字人语音驱动动作重演方法，其特征在于，包括：获取参考讲话数据和测试讲话数据，并对所述参考讲话数据中的参考音频数据进行音频节奏点检测，得到第一节奏点的位置，对所述参考讲话数据中的参考文本数据进行文本关键词检测，得到第一关键词和所述第一关键词对应的位置；对所述参考讲话数据中的参考手势序列数据进行运动连续性检测，得到所述参考手势序列数据中的非自然帧间连续关系；基于所述第一节奏点的位置
、
所述第一关键词和所述第一关键词对应的位置以及所述非自然帧间连续关系，构建手势运动图；对所述测试讲话数据中的测试音频数据进行音频节奏点检测，得到第二节奏点的位置，并对所述测试讲话数据中的测试文本数据进行文本关键词检测，得到第二关键词和所述第二关键词对应的位置；基于所述第二节奏点的位置
、
所述第二关键词和所述第二关键词对应的位置，确定搜索分段，并基于所述搜索分段对所述手势运动图进行搜索，得到搜索局部最优路径；基于所述搜索局部最优路径，得到重演手势，所述重演手势包括语义性手势和节奏性手势；将所述语义性手势和预录制语义性手势输入至手势风格融合网络中，由所述手势风格融合网络得到并输出融合手势，基于所述融合手势和所述节奏性手势，确定最终手势，并基于所述最终手势驱动数字人进行动作重演；所述手势风格融合网络是基于生成判别网络构建的
。2.
根据权利要求1所述的基于手势动作图的小样本数字人语音驱动动作重演方法，其特征在于，所述基于所述第一节奏点的位置
、
所述第一关键词和所述第一关键词对应的位置以及所述非自然帧间连续关系，构建手势运动图，包括：以所述参考手势序列数据中的各帧作为一个节点，并根据所述第一节奏点的位置标记节奏性关键节点，根据所述第一关键词和所述第一关键词对应的位置标记语义性关键节点，根据所述参考手势序列数据中不连续的帧对应的位置标记间断性关键节点；对所述参考手势序列数据中的自然连续关系的两帧间建立第一加权有向边，所述第一加权有向边的边权重设置为零；对所述参考手势序列数据中的所述非自然帧间连续关系的两帧间建立第二加权有向边，并基于姿态距离，设置所述第二加权有向边的边权重，得到所述手势运动图，所述姿态距离是基于具有所述非自然帧间连续关系的两帧间关键点对应的位置和所述非自然帧间连续关系的两帧间关键点对应的速度确定的
。3.
根据权利要求1所述的基于手势动作图的小样本数字人语音驱动动作重演方法，其特征在于，所述对所述参考讲话数据中的参考音频数据进行音频节奏点检测，得到第一节奏点的位置，包括：基于短时距傅里叶变换算法和所述参考音频数据，得到所述参考音频数据的梅尔频谱图；基于所述梅尔频谱图，得到节奏点强度包络，并基于所述节奏点强度包络和峰值检测算法，得到所述第一节奏点的位置
。4.
根据权利要求1所述的基于手势动作图的小样本数字人语音驱动动作重演方法，其
特征在于，所述对所述参考讲话数据中的参考手势序列数据进行运动连续性检测，得到所述参考手势序列数据中的非自然帧间连续关系，包括：基于姿态距离
、
动态阈值和剪枝策略，对所述参考讲话数据中的参考手势序列数据进行运动连续性检测，得到所述参考手势序列数据中的非自然帧间连续关系；所述动态阈值是基于当前左帧和所述当前左帧后的预设数量的帧之间的均值姿态距离确定的
。5.
根据权利要求1至4中任一项所述的基于手势动作图的小样本数字人语音驱动动作重演方法，其特征在于，所述手势风格融合网络的训练步骤包括：获取样本语义性手势
、
样本预录制语义性手势
、
初始手势风格融合网络
、
假标签和真标签；将所述样本语义性手势和所述样本预录制语义性手势输入至所述初始手势风格融合网络中，由所述初始手势风格融合网络中的手势特征提取器对所述样本语义性手势和所述样本预录制语义性手势分别进行手势重建，得到重建语义性手势和重建预录制语义性手势；将所述手势特征提取器中的编码器对所述样本语义性手势和所述样本预录制语义性手势分别编码后的特征进行拼接，得到拼接特征，并将所述拼...

【专利技术属性】
技术研发人员：赵泽宇，曾智，高楠，张桂煊，张树武，
申请(专利权)人：中国科学院自动化研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人