多层时序注意力融合机制的弱监督神经网络手语识别方法技术

技术编号:30433457 阅读:23 留言:0更新日期:2021-10-24 17:29
一种多层时序注意力融合机制的弱监督神经网络手语识别方法,采用多层注意力机制融合的编码器

【技术实现步骤摘要】
多层时序注意力融合机制的弱监督神经网络手语识别方法


[0001]本专利技术涉及到计算机视觉,人工智能,数据挖掘,自然语言处理,深度学习等
具体涉及一种多层时序注意力融合机制的弱监督神经网络手语识别方法。

技术介绍

[0002]计算机视觉是一种让计算机或者机器模仿人类用眼睛去感知的技术,被广泛的应用于图形图像,三维重建,目标跟踪,人脸检测,视频理解领域。而自然语言处理是一种让计算机或者机器能够像人类一样去认知思考的技术,被广泛应用于机器翻译,阅读理解,语言生成,多轮对话等任务中。在深度学习技术兴起之前,传统的计算机视觉技术和自然语言处理领域大量依靠人手工提取的特征和人手工定义语法规则的方法。而随着数据量的增多和GPU算力的成本降低,以深度神经网络为代表的深度学习技术逐渐兴起。基于深度学习的计算机视觉技术和自然语言技术开始流行起来。因为深度学习具有强大的表示学习能力,只需要通过通过端到端的数据和标签的联合训练而不需要原本人手工进行复杂的特征和规则的提取制定,就能让神经网络学习并理解到某种知识。所以,结合基于深度学习技术的计算机视觉的感知和自然语言处理的认知技术,设计一种用于连续手语视频识别和翻译的多层时序注意力融合机制的弱监督神经网络算法能够有效的让计算机去理解手语视频中手语者所表达的内容。

技术实现思路

[0003]为了克服现有技术的不足,本专利技术的目的是设计一种用于连续手语视频识别和翻译的多层时序注意力融合机制的弱监督神经网络算法,用来解决连续手语视频的识别和翻译困难的问题,从而让计算机能够学会理解手语者表达的意思,可促进健听人和手语者的交流与沟通。
[0004]本专利技术的技术方案:
[0005]一种多层时序注意力融合机制的弱监督神经网络手语识别方法,包括以下步骤:
[0006]1)一个手语视频V,含有(f1,...f
u
)的视频帧,对于连续手语识别任务,神经网络学习条件概率P(G/V)用来生成手语识别序列G(g1,...g
n
),对于连续手语翻译任务网络学习条件概率P(L/G)用来生成自然语言序列L(l1,....l
u
);
[0007]利用opencv库将每一个手语视频数据进行均匀随机的帧采样,从而保证每个手语视频的帧数一致,对手语视频的语料标签句子进行分词并利用python编程语言为每一个手语视频自动打上标注;
[0008]2)将按规定大小的批次数量的手语视频按帧传入神经网络的编码器部分,首先经过预训练的卷积神经网络模块,对每一个手语视频帧进行特征提取,再经过两层残差全连接层,从而能得到有效的姿态信息,作为网络的空间嵌入:
[0009]S
u
=SpatialEmbedding(f
u
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0010]其中f
u
代表手语视频帧,S
u
是经过卷积网咯特征提取后的空间嵌入向量;
[0011]手语视频的空间嵌入向量包含丰富的特征信息,将空间嵌入向量输入下一个模块双向门控循环网络当中,门控循环网络能够对时间维度的手语视频帧序列数据进行有效的特征建模,通过前向和后向的双向建模方式获得手语动作上下文信息B
u
,将B
u
经过三层残差堆叠单向门控循环网络得到更高维的抽象信息E
u

[0012]经过上述操作,神经网络编码器部分将手语视频经过时空编码得到隐藏向量h
u
,并将h
u
传递到神经网络的解码器部分当中,解码器网络结合h
u
向量和通过多层时序注意力机制融合得到的C
mix
向量,在多层残差门控循环网络的每一个时间步得到手语识别的单词,并最终结合成一个完整的手语句子;
[0013]其中多层时序注意力机制融合向量包含如下步骤:首先计算一个分数,将解码器每个时间步前一步的隐藏向量h
n
‑1作为查询项,用查询项h
n
‑1分别和E
U
和B
u
进行运算得到两个分数向量score1和score2如下:
[0014]score1(h
n
‑1,E
u
)=E
u
Wh
n

1T
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0015]score2(h
n
‑1,B
u
)=B
u
Wh
n

1T
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0016]使用上面分值函数来得到的两个score,其中W和D都是可训练的神经网络权重参数,接着利用score得到手语视频时序注意力权重r和p,用来对齐手语视频帧和单词,其运算如下:
[0017][0018][0019]其中k代表编码器网络时序维度上的第k个时间步,n代表解码器网络时序维度上第n个时间步,然后将得到的手语视频时序注意力权重r和p分别和E
u
和B
u
和进行运算,得到两个手语注意力背景向量C
t
和C
b
,运算如下:
[0020][0021][0022]然后将C
t
和C
b
这两个背景向量进行融合,得到C
mix
,运算如下:
[0023][0024]这个注意力背景向量称之为手语序列上下文融合向量C
mix

[0025]3)在解码阶段,首先从输入<BOS>符号开始,<BOS>符号作为每次网络训练的开始符号,输入解码器网络的第一个时间步,同时将C
mix
和手语嵌入词汇进行拼接,输入当前时间步的解码器中,经过解码器四层堆叠残差结构的门控循环网络的非线性运算后得到输出,再经过一层全连接层生成当前时间步的最大概率的单词,一直循环解码直到遇到<End>符号结束,一个完整的手语识别句子生成完毕。
[0026]进一步,语言模型生成符合口语表述的自然语言文本,使用Tranformer作为语言模型来进行语言学习,从而进一步得到连续手语翻译的结果,在Transformer结构中,将原本静态的位置编码更改为了动态的可训练的位置编码。
[0027]再进一步,语言模型使用pytorch深度学习框架搭建,配置网络参数设置如下:在编码器网络的空间嵌入模块中,使用在Imagenet上进行预训练的卷积神经网络,冻结卷积神经网络上的全部参数;使用了resnet152预训练卷积网络,并使用其倒数第二层的输出或最后一层的输出,在预训练的卷积神经网络后面,添加了两层2600维度的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多层时序注意力融合机制的弱监督神经网络手语识别方法,其特征在于,包括以下步骤:1)一个手语视频V,含有(f1,...f
u
)的视频帧,对于连续手语识别任务,神经网络学习条件概率P(G/V)用来生成手语识别序列G(g1,...g
n
),对于连续手语翻译任务网络学习条件概率P(L/G)用来生成自然语言序列L(l1,....l
u
);利用opencv库将每一个手语视频数据进行均匀随机的帧采样,从而保证每个手语视频的帧数一致,对手语视频的语料标签句子进行分词并利用python编程语言为每一个手语视频自动打上标注;2)将按规定大小的批次数量的手语视频按帧传入神经网络的编码器部分,首先经过预训练的卷积神经网络模块,对每一个手语视频帧进行特征提取,再经过两层残差全连接层,从而能得到有效的姿态信息,作为网络的空间嵌入:S
u
=SpatialEmbedding(f
u
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中f
u
代表手语视频帧,S
u
是经过卷积网咯特征提取后的空间嵌入向量;手语视频的空间嵌入向量包含丰富的特征信息,将空间嵌入向量输入下一个模块双向门控循环网络当中,门控循环网络能够对时间维度的手语视频帧序列数据进行有效的特征建模,通过前向和后向的双向建模方式获得手语动作上下文信息B
u
,将B
u
经过三层残差堆叠单向门控循环网络得到更高维的抽象信息E
u
;经过上述操作,神经网络编码器部分将手语视频经过时空编码得到隐藏向量h
u
,并将h
u
传递到神经网络的解码器部分当中,解码器网络结合h
u
向量和通过多层时序注意力机制融合得到的C
mix
向量,在多层残差门控循环网络的每一个时间步得到手语识别的单词,并最终结合成一个完整的手语句子;其中多层时序注意力机制融合向量包含如下步骤:首先计算一个分数,将解码器每个时间步前一步的隐藏向量h
n
‑1作为查询项,用查询项h
n
‑1分别和E
U
和B
u
进行运算得到两个分数向量score1和score2如下:数向量score1和score2如下:使用上面分值函数来得到的两个score,其中W和D都是可训练的神经网络权重参数,接着利用score得到手语视频时序注意力权重r和p,用来对齐手语视频帧和单词,其运算如下:下:其中k代表编码器网络时序维度上的第k个时间...

【专利技术属性】
技术研发人员:袁甜甜周乐员张剑华陈胜勇
申请(专利权)人:天津理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1