一种适用于小样本动作识别的基于注意力的双原型网络制造技术

技术编号：40958912 阅读：6 留言：0更新日期：2024-04-18 20:36

本发明专利技术提供了一种适用于小样本动作识别的基于注意力的双原型网络，包括两个原型网络，两个原型网络分别基于两套注意力机制构建，其中第一个原型网络为基于以查询集为中心的注意力机制，第二个原型网络基于以支持集为中心的注意力机制。本发明专利技术双原型网络中，以支持集为中心构造的注意力机制，通过计算类内相似度，加强支持集样本的表征能力，并弱化离群样本和噪声样本；而以查询集为中心构造的注意力机制则主要为了构建特定查询样本的原型，通过计算支持集与查询集之间的相似性，加强原型的表征能力，进而提高动作的识别能力。相比于其他现有同类网络，本发明专利技术双原型网络在小样本动作识别领域具有更高准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉，具体涉及一种适用于小样本动作识别的基于注意力的双原型网络。

技术介绍

1、动作识别是计算机视觉领域的基础性问题，深度学习模型的成功应用使得动作识别任务取得了大跨度的进步。但是深度学习任务往往需要大量的标注数据，成本极高；因而小样本动作学习任务(fsar)成为未来动作识别领域的一个热点研究方向。小样本学习旨在少量标注数据中学习新的类别，基于度量学习的原型网络便是其中的一种代表网络。

2、目前，fsar的解决方法主要是基于二维卷积的方法，通过利用二维卷积获取视频的空间信息的同时，对时序信息进行建模，从而对连贯的动作信息进行提取。例如(wang x,zhang s,qing z,et al.hybrid relation guided set matching for few-shot actionrecognition[c]//proceedings of the ieee/cvf conference on computer vision andpattern recognition.2022:19948-19957.)利用混合关系模块分别对空间信息和时间信息分别进行建模。在此基础上，最新方法还有采用时间对齐策略来匹配时间维度上的视频帧或片段，以此促进利用时间信息来区分时序敏感动作；例如(perrett t,masullo a,burghardt t,et al.temporal-relational crosstransformers for few-shot actionrecogniti

3、然而，fsar面临的挑战依然非常突出。由于视频序列较长而样本较少，因此如何更好地获取高质量时空信息成为动作识别任务的关键问题。而注意力机制的出现为推动fsar发展提供了可能。注意力机制能够提高网络模型对输入数据不同特征的针对性关注能力，可以有效处理长序列的视频数据，最大限度减少动作信息的丢失。然而简单地引入注意力机制，会导致整个模型完全以任务为导向，大大降低其在复杂问题中的泛化能力；当新样本的动作多样以及动作背景复杂的时候，网络就会被样本噪声带偏，导致动作识别出现偏差。

技术实现思路

1、针对现有技术中存在的不足，本专利技术提供了一种适用于小样本动作识别的基于注意力的双原型网络，用以解决fsar中如何从少量标记样本中获得充足时空信息的问题，提高动作的识别分类精度。

2、本专利技术通过以下技术手段实现上述技术目的。

3、一种基于注意力的双原型网络，包括两个原型网络，两个原型网络分别基于两套注意力机制构建，其中第一个原型网络为基于以查询集为中心的注意力机制，第二个原型网络基于以支持集为中心的注意力机制。

4、进一步地，所述以查询集为中心的注意力机制中，key值和value值均由支持集样本进行映射，query值由查询集样本进行映射；

5、所述以支持集为中心的注意力机制中，key值和value值均由支持集样本进行映射，query值由查询集中的其它样本进行映射。

6、进一步地，通过以下函数式计算样本落入各动作类的概率：

7、

8、其中prc表示样本落入第c动作类的概率，c为动作类的总数，λ为权重系数；为第一个原型网络中，样本距离其中原型的距离；为第二个原型网络中，样本距离其中原型的距离。

9、进一步地，损失函数为：

10、

11、其中为第一个原型网络的损失，为第二个原型网络的损失。

12、进一步地，损失和的函数式分别为：

13、

14、

15、其中，为第一个原型网络中，样本距离其中原型的距离；为第二个原型网络中，样本距离其中原型的距离；c为动作类的总数。

16、进一步地，和的函数式分别为：

17、

18、

19、其中qf为查询集中全部样本经合并后的结果，而在测试或应用时，qf替换为待测样本；λ为value值的映射参数；为第一个原型网络中第c动作类的原型，为第二个原型网络中第c动作类的原型。

20、进一步地，在训练阶段，由训练集生成支持集s和查询集q：

21、s＝{s1,1…sc,k…sc,k}

22、q＝{q1,q2…qc…qc}

23、其中支持集s由c个动作类每个类k个视频样本组成，查询集q由c个动作类每个类1个视频样本组成；sc,k为支持集s内第c个动作类中的第k个视频样本，qc为查询集q中第c个动作类的视频样本；

24、每个视频样本均采样采样f帧图像；对于所述f帧图像，在保留前后时序关系的基础上对各视频样本构造元组，其中每个元组内包含ω帧图像，所构造的元组数量应包括所有图像组合；对于查询集q，将查询集中全部样本的所有元组进行排列组合，合并为qf。

25、进一步地，所述视频样本通过resnet-50进行空间特征提取，特征提取中保留时序信息。

26、进一步地，的函数式为：

27、

28、其中，为注意力矩阵，其函数式为：

29、

30、其中dk为key值长度；为key值与query值之间的相似度，其函数式为：

31、

32、其中l(·)表示归一化处理，υ为query值的映射参数，γ为key值的映射参数。

33、进一步地，的函数式为：

34、

35、为注意力矩阵，其函数式为：

36、

37、其中dk为key值长度；为key值与query值之间的相似度，其函数式为：

38、

39、其中l(·)表示归一化处理，υ为query值的映射参数，γ为key值的映射参数。

40、本专利技术的有益效果为：

41、(1)本专利技术提供了一种基于注意力的双原型网络，能够适用于小样本动作识别任务领域。具体分别以查询集为中心和以支持集为中心构造注意力机制，并在上述两套注意力机制的基础上构建双原型网络。其中以支持集为中心构造的注意力机制，通过计算类内相似度，加强支持集样本的表征能力，并弱化离群样本和噪声样本；而以查询集为中心构造的注意力机制则主要为了构建特定查询样本的原型，通过计算支持集与查询集之间的相似性，加强原型的表征能力，进而提高动作的识别能力。

42、(2)本专利技术提出的双原型网络，在同等小样本训练情况下，相比其他现有网络具有综合更高的动作识别准确率。

本文档来自技高网...

【技术保护点】

1.一种基于注意力的双原型网络，其特征在于：包括两个原型网络，两个原型网络分别基于两套注意力机制构建，其中第一个原型网络为基于以查询集为中心的注意力机制，第二个原型网络基于以支持集为中心的注意力机制。

2.根据权利要求1所述的基于注意力的双原型网络，其特征在于：所述以查询集为中心的注意力机制中，Key值和Value值均由支持集样本进行映射，Query值由查询集样本进行映射；

3.根据权利要求1所述的基于注意力的双原型网络，其特征在于：通过以下函数式计算样本落入各动作类的概率：

4.根据权利要求1所述的基于注意力的双原型网络，其特征在于：损失函数为：

5.根据权利要求4所述的基于注意力的双原型网络，其特征在于：损失和的函数式分别为：

6.根据权利要求3或5所述的基于注意力的双原型网络，其特征在于：和的函数式分别为：

7.根据权利要求6所述的基于注意力的双原型网络，其特征在于：在训练阶段，由训练集生成支持集S和查询集Q：

8.根据权利要求7所述的基于注意力的双原型网络，其特征在于：所述视频样本通过Re

9.根据权利要求7所述的基于注意力的双原型网络，其特征在于：

10.根据权利要求7所述的基于注意力的双原型网络，其特征在于：

...

【技术特征摘要】

2.根据权利要求1所述的基于注意力的双原型网络，其特征在于：所述以查询集为中心的注意力机制中，key值和value值均由支持集样本进行映射，query值由查询集样本进行映射；

3.根据权利要求1所述的基于注意力的双原型网络，其特征在于：通过以下函数式计算样本落入各动作类的概率：

4.根据权利要求1所述的基于注意力的双原型网络，其特征在于：损失函数为：

<...

【专利技术属性】
技术研发人员：江磊，姜震，詹永照，
申请(专利权)人：江苏大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人