多层时序注意力融合机制的弱监督神经网络手语识别方法技术

技术编号：30433457 阅读：23 留言：0更新日期：2021-10-24 17:29

一种多层时序注意力融合机制的弱监督神经网络手语识别方法，采用多层注意力机制融合的编码器

全部详细技术资料下载

【技术实现步骤摘要】
多层时序注意力融合机制的弱监督神经网络手语识别方法

[0001]本专利技术涉及到计算机视觉，人工智能，数据挖掘，自然语言处理，深度学习等
具体涉及一种多层时序注意力融合机制的弱监督神经网络手语识别方法。

技术介绍

[0002]计算机视觉是一种让计算机或者机器模仿人类用眼睛去感知的技术，被广泛的应用于图形图像，三维重建，目标跟踪，人脸检测，视频理解领域。而自然语言处理是一种让计算机或者机器能够像人类一样去认知思考的技术，被广泛应用于机器翻译，阅读理解，语言生成，多轮对话等任务中。在深度学习技术兴起之前，传统的计算机视觉技术和自然语言处理领域大量依靠人手工提取的特征和人手工定义语法规则的方法。而随着数据量的增多和GPU算力的成本降低，以深度神经网络为代表的深度学习技术逐渐兴起。基于深度学习的计算机视觉技术和自然语言技术开始流行起来。因为深度学习具有强大的表示学习能力，只需要通过通过端到端的数据和标签的联合训练而不需要原本人手工进行复杂的特征和规则的提取制定，就能让神经网络学习并理解到某种知识。所以，结合基于深度学习技术的计算机视觉的感知和自然语言处理的认知技术，设计一种用于连续手语视频识别和翻译的多层时序注意力融合机制的弱监督神经网络算法能够有效的让计算机去理解手语视频中手语者所表达的内容。

技术实现思路

[0003]为了克服现有技术的不足，本专利技术的目的是设计一种用于连续手语视频识别和翻译的多层时序注意力融合机制的弱监督神经网络算法，用来解决连续手语视频的识别和翻译困难的问题，从而让计算机能够...

【技术保护点】

【技术特征摘要】
1.一种多层时序注意力融合机制的弱监督神经网络手语识别方法，其特征在于，包括以下步骤：1)一个手语视频V，含有(f1,...f
u
)的视频帧，对于连续手语识别任务，神经网络学习条件概率P(G/V)用来生成手语识别序列G(g1,...g
n
),对于连续手语翻译任务网络学习条件概率P(L/G)用来生成自然语言序列L(l1,....l
u
)；利用opencv库将每一个手语视频数据进行均匀随机的帧采样，从而保证每个手语视频的帧数一致，对手语视频的语料标签句子进行分词并利用python编程语言为每一个手语视频自动打上标注；2)将按规定大小的批次数量的手语视频按帧传入神经网络的编码器部分，首先经过预训练的卷积神经网络模块，对每一个手语视频帧进行特征提取，再经过两层残差全连接层，从而能得到有效的姿态信息，作为网络的空间嵌入：S
u
＝SpatialEmbedding(f
u
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中f
u
代表手语视频帧，S
u
是经过卷积网咯特征提取后的空间嵌入向量；手语视频的空间嵌入向量包含丰富的特征信息，将空间嵌入向量输入下一个模块双向门控循环网络当中，门控循环网络能够对时间维度的手语视频帧序列数据进行有效的特征建模，通过前向和后向的双向建模方式获得手语动作上下文信息B
u
，将B
u
经过三层残差堆叠单向门控循环网络得到更高维的抽象信息E
u
；经过上述操作，神经网络编码器部分将手语视频经过时空编码得到隐藏向量h
u
，并将h
u
传递到神经网络的解码器部分当中，解码器网络结合h
u
向量和通过多层时序注意力机制融合得到的C
mix
向量，在多层残差门控循环网络的每一个时间步得到手语识别的单词，并最终结合成一个完整的手语句子；其中多层时序注意力机制融合向量包含如下步骤：首先计算一个分数,将解码器每个时间步前一步的隐藏向量h
n
‑1作为查询项，用查询项h
n
‑1分别和E
U
和B
u
进行运算得到两个分数向量score1和score2如下：数向量score1和score2如下：使用上面分值函数来得到的两个score，其中W和D都是可训练的神经网络权重参数，接着利用score得到手语视频时序注意力权重r和p，用来对齐手语视频帧和单词，其运算如下:下:其中k代表编码器网络时序维度上的第k个时间...

【专利技术属性】
技术研发人员：袁甜甜，周乐员，张剑华，陈胜勇，
申请(专利权)人：天津理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人