一种基于隐空间桥梁机制的手语生成方法、系统、设备及介质技术方案

技术编号：41156848 阅读：5 留言：0更新日期：2024-04-30 18:20

一种基于隐空间桥梁机制的手语生成方法、系统、设备及介质，方法包括，提取手语关键点并进行数据预处理，获取手语关键点序列的隐空间表征，并通过隐空间表征重构手语关键点序列，对手语重构网络SLAE进行训练，获取手语注解序列、音频序列与目标手语姿态序列作训练样本，对手语注解序列与音频序列特征融合进行隐空间建模，结合不同模态数据来预测手语关键点序列的隐空间表征；引入物理感知损失函数协同训练手语重构网络和手语隐空间预测网络，预测手语关键点序列隐空间表征并利用手语重构网络合成手语视频；系统、设备及介质，用于实现一种基于隐空间桥梁机制的手语生成方法；本发明专利技术得到的手部动作的精准度提高、生成结果的流畅、生成结果语义信息高。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及手语生成，特别涉及一种基于隐空间桥梁机制的手语生成方法、系统、设备及介质。

技术介绍

1、手语是聋哑群体主要的交流方式，为改善正常人群与聋哑群体的沟通，文本驱动的手语生成研究崭露头角。目前的研究主要聚焦于直接通过神经网络学习手语注解序列和手语之间的映射关系，尤其注重预测的手部动作的准确性以提高生成手语的高可理解性。目前的方法多以映射关系库、神经机器翻译、自注意力机制以及扩散模型架构作为研究基础，文献“progressive transformers for end-to-end sign language production[c]”提出的ptr模型，利用近期热门的transformer模型，构建基于注意力机制的编解码器架构，将输入的手语注释序列编码，再输入到解码器中直接去生成手语关键点，最后生成手语关键点序列视频。(saunders b,camgozn c,bowden r.progressive transformers for end-to-end sign language production[c]//computer vision–eccv 2020:16th europeanconference,glasgow,uk,august 23–28,2020,proceedings,part xi 16.springerinternational publishing,2020:687-705.)

2、虽然上述方法都取得了一定的成效，但在生成质量上还是存在一定缺陷，这些方法很可能面临以下两个问题

技术实现思路

1、为了克服上述现有技术的缺点，本专利技术的目的在于提出了一种基于隐空间桥梁机制的手语生成方法、系统、设备及介质，通过预测隐空间表征的方式实现跨模态预测，可以使得预测结果更加精准，同时音频模态与物理感知损失函数的引入，使得结果有更高的语义准确性、精准度以及流畅性。

2、为了实现上述目的，本专利技术所采用的技术方案是：

3、一种基于隐空间桥梁机制的手语生成方法，包括以下步骤：

4、步骤1：利用人体骨骼关键点提取网络从图片中提取手语关键点，并进行数据预处理；

5、步骤2：利用步骤1得到的手语关键点，获取手语关键点序列的隐空间表征，并通过隐空间表征重构手语关键点序列，对手语重构网络slae进行训练；

6、步骤3：获取手语注解序列、音频序列与目标手语姿态序列作为训练样本，采用融合特征预测隐空间表征手语隐空间预测网络(fusion2latent网络)，即对手语注解序列与音频序列特征融合进行隐空间建模，结合不同模态数据来预测手语关键点序列的隐空间表征；

7、步骤4：引入物理感知损失函数，协同训练手语重构网络和手语隐空间预测网络，预测手语关键点序列隐空间表征，并利用手语重构网络合成手语视频。

8、所述步骤1具体过程如下：

9、步骤1.1：利用人体骨骼关键点提取网络从图片中提取手语关键点，包括上半身、手与手指相对应的关节，每个关节使用二位坐标进行表征；

10、步骤1.2：由于分辨率和遮挡问题，步骤1.1得到的手语关键点会存在部分缺失，使用逆运动学方法补齐关键点，得到关节三维表征，归一化处理后作为训练数据。

11、所述步骤2具体过程如下：

12、步骤2.1：利用手语关键点序列构建生成隐空间表征的编码器e(z|s)；

13、步骤2.2：构建从隐空间表征重构手语关键点序列的解码器

14、步骤2.3：利用重构损失函数训练步骤2.1得到的编码器e(z|s)和步骤2.2得到的解码器编码器e(z|s)和解码器可以通过针对输入与输出数据的均方误差指标作为损失函数进行端到端的训练：

15、

16、其中，n代表手语关键点序列中的帧总数，k表示人体关节数据。

17、所述步骤3具体过程如下：

18、步骤3.1：采用一系列卷积块作为特征提取模块编码手语注解序列的语义特征，每个卷积块内部由多个卷积层、激活函数、最大池化层和标准化层组成，通过卷积块，逐步提取出手语注解序列的高级特征，t代表输入的手语注解序列，表示为

19、步骤3.2：给定与步骤3.1中的手语注解序列相对应的音频序列，同样的，采用一系列卷积块作为特征提取模块，并通过多层堆叠来获取更多的结构信息，最后提取出音频序列的高级特征，a代表输入的音频，表示为

20、步骤3.3：将手语注解序列的高级特征与音频序列的高级特征在数据维度上进行融合，通过线性层实现数据维度的改变；

21、步骤3.4：利用步骤3.3融合后的特征，预测手语关键点序列的隐空间表征：在特征融合后使用一个多模态融合注意力模块来获取融合特征的上下文信息，最后将该特征转化为与步骤2.1中网络编码器e(z|s)编码出的隐空间特征相一致的形状，并送入联合训练的解码器中得到最终的预测手语关键点特征：

22、latentfusion＝attention(qfusion,kfusion,vfusion)

23、其中，qfusion,kfusion,vfusion代表将步骤3.1得到的ft和步骤3.2得到的fa在特征维度上相接之后得到的矩阵，latentfusion代表预测得到的手语关键点序列隐空间表征。

24、所述步骤4具体方法如下：

25、步骤4.1：物理感知损失函数由帧间损失函数linter-frame和多区域损失函数lmulti-region组成，帧间损失函数linter-frame通过对前后两帧之间关节点位移情况进行判断，来衡量预测与真实之间的差距，用于表征前后帧间的差距；多区域损失函数lmulti-region用于对身体各部位分别进行约束，该函数将数据根据躯干、左手、右手拆分为三个部分，并分别对每一个部位进行单独约束：

26、linter-frame＝mse(pre([1:n]-[0:m-1]),gt([1:n]-[0:m-1]))

27、lmulti-region＝α*ltrunk+β*lleft-right+γ*lright-left

28、其中，pre和gt分表代表预测的手语关键点序列和目标手语姿态序列，α、β、γ代表三个区域的损失权重，可进行人为调整；

29、步骤4.2：利用步骤4.1中的物理感知损失函数，协同训练手语重构网络和手语隐空间预测网络，预测手语关键点序列隐空间表征，并利用手语重构网络合成手语视频：

30、lphysicalpercepti本文档来自技高网...

【技术保护点】

1.一种基于隐空间桥梁机制的手语生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于隐空间桥梁机制的手语生成方法，其特征在于，所述步骤1具体过程如下：

3.根据权利要求1所述的一种基于隐空间桥梁机制的手语生成方法，其特征在于，所述步骤2具体过程如下：

4.根据权利要求1所述的一种基于隐空间桥梁机制的手语生成方法，其特征在于，所述步骤3具体过程如下：

5.根据权利要求1所述的一种基于隐空间桥梁机制的手语生成方法，其特征在于，所述步骤4具体过程如下：

6.根据权利要求3所述的一种基于隐空间桥梁机制的手语生成方法，其特征在于，所述步骤2.1的具体过程为：

7.根据权利要求3所述的一种基于隐空间桥梁机制的手语生成方法，其特征在于，所述步骤2.2的具体过程为：

8.一种基于隐空间桥梁机制的手语生成系统，其特征在于，包括：

9.一种基于隐空间桥梁机制的手语生成设备，其特征在于，包括：

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序

...

【技术特征摘要】

1.一种基于隐空间桥梁机制的手语生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于隐空间桥梁机制的手语生成方法，其特征在于，所述步骤1具体过程如下：

3.根据权利要求1所述的一种基于隐空间桥梁机制的手语生成方法，其特征在于，所述步骤2具体过程如下：

4.根据权利要求1所述的一种基于隐空间桥梁机制的手语生成方法，其特征在于，所述步骤3具体过程如下：

5.根据权利要求1所述的一种基于隐空间桥梁机制的手语生成方法，其特征在于，所述步骤4具体过程如下：

【专利技术属性】
技术研发人员：苗启广，冯冠文，刘安，李宇楠，马健歆，李超能，冯清扬，武越，谢琨，刘如意，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人