基于拆解掩码建模的事件数据自监督学习系统及方法技术方案

技术编号：41324581 阅读：4 留言：0更新日期：2024-05-13 15:02

本发明专利技术公开了一种基于拆解掩码建模的事件数据自监督学习系统及方法，至少包括语义均匀掩码模块、局部重建模块和全局语义重建模块，语义均匀掩码模块将事件体素划分为具有不同局部语义的多个部分，对每部分应用相同的掩码比例；局部重建模块使用可见的体素局部特征完成局部特征的重建；全局语义重建模块通过在高级语义特征上直接进行掩码和重建，再在各个局部表达中进行随机掩码并使用未被掩码的局部语义重建其它被掩码的局部语义特征，促使编码器学习全局语义及局部之间的关系；局部重建模块和全局语义重建模块协同工作，使编码器在不依赖下游任务标签下实现全局和局部特征的学习，保留事件相机的高速时间信息，提高模型对事件数据的泛化能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉领域，涉及事件相机技术和自监督学习方法的结合应用,公开了一种基于拆解掩码建模的事件数据自监督学习系统及方法。

技术介绍

1、近年来，事件相机作为一种仿生传感器，在计算机视觉领域引起了广泛关注。该相机通过异步报告单个像素亮度变化超过预定阈值时的事件点，具有记录稀疏照明变化、高时间分辨率和动态范围的能力。相对于传统相机，事件相机具有低延迟、高动态范围和低功耗等优点。因此，事件相机在图像去噪、语义分割、高帧率视频重建、hdr等领域得到了广泛应用。

2、然而，事件相机领域面临标注数据稀缺等挑战，限制了模型的潜力。为了解决这一问题，研究者们探索了自监督学习方法，如将事件序列转换为2d图像，但现有方法，牺牲了事件相机在捕捉高速时间信息和利用数据稀疏性方面的核心优势。

3、事件数据的自监督学习方法是为了应对标注数据不足的问题。现有方法主要是将事件数据转换成2d图像，以适应传统自监督学习框架，但这种做法削弱了事件相机在捕捉高速时间信息和充分利用数据稀疏性方面的优势。目前主要的自监督方法包括将事件数据转换成图像后应用传统图像领域的方法，以及引入rgb图像进行对比学习。然而，这些方法主要遵循图像领域的自监督思路，导致了动态信息的丢失和模型的泛化能力受限。

4、当前，事件相机技术在计算机视觉领域表现出巨大的潜力，但标注数据的不足也成为其发展的瓶颈。现有方法多数采用传统图像领域的技术，无法充分发挥事件相机在高速时间信息和数据稀疏性方面的独特优势。因此，需要一种特定设计用于事件数据的自监督模型，

技术实现思路

1、本专利技术正是针对事件相机领域中存在的标注数据不足以及自监督学习方法应用局限性的问题，公开了一种基于拆解掩码建模的事件数据自监督学习系统及方法，至少包括语义均匀掩码模块、局部重建模块和全局语义重建模块，语义均匀掩码模块将事件体素划分为具有不同局部语义的多个部分，对每部分应用相同的掩码比例，平衡不同区域的重建难度；局部重建模块使用可见的体素局部特征完成局部特征的重建；全局语义重建模块通过在高级语义特征上直接进行掩码和重建，再在各个局部表达中进行随机掩码并使用未被掩码的局部语义重建其它被掩码的局部语义特征，促使编码器学习全局语义及局部之间的关系；局部重建模块和全局语义重建模块协同工作，使编码器在不依赖下游任务标签下实现全局和局部特征的学习，克服了当前技术的局限性，保留事件相机的高速时间信息，提高模型对事件数据的泛化能力。

2、为了实现上述目的，本专利技术采取的技术方案是：基于拆解掩码建模的事件数据自监督学习系统，至少包括语义均匀掩码模块、局部重建模块和全局语义重建模块，

3、所述语义均匀掩码模块：将事件体素划分为具有不同局部语义的多个部分，对每部分应用相同的掩码比例，平衡不同区域的重建难度；

4、所述局部重建模块：使用可见的体素局部特征完成局部特征的重建；

5、所述全局语义重建模块：通过在高级语义特征上直接进行掩码和重建，再在各个局部表达中进行随机掩码并使用未被掩码的局部语义重建其它被掩码的局部语义特征，促使编码器学习全局语义及局部之间的关系；

6、所述局部重建模块和全局语义重建模块协同工作，使编码器在不依赖下游任务标签下实现全局和局部特征的学习。。

7、作为本专利技术的一种改进，所述局部重建模块中输入的特征大小为2048*5*5，输出的特征大小为2048*5*5；所述全局语义重建模块中输入的特征大小为2048*5*5，输出的特征大小为16*768。

8、为了实现上述目的，本专利技术还采取的技术方案是：基于拆解掩码建模的事件数据自监督学习方法，包括如下步骤：

9、s1：获取事件数据自监督训练数据集，所述数据集至少包括事件流信息，来源于现实场景或者仿真；

10、s2：对步骤s1获取的数据集数据进行预处理，将其转换为体素表示，通过编码器提取体素自身特征以及体素间的关系；

11、s3：基于自监督学习目标进行预训练，所述预训练至少包括语义均匀掩码、局部重建和全局语义重建步骤，其中，

12、在语义均匀掩码过程中，将事件体素划分为具有不同局部语义的多个部分，对每部分应用相同的掩码比例；

13、在局部重建过程中，基于可见的体素局部特征、位置嵌入、被掩码局部体素的位置嵌入和可学习的掩码来完成局部特征的重建；

14、在全局语义重建中，将最后一个编码器阶段的输出进行均值池化，得到一组语义向量，使用随机掩码策略，利用可见语义向量以及掩码语义向量的预测，完成全局特征的预测；

15、s4：根据步骤s3预训练后得到的编码器完成下游任务，在任务过程中利用预训练阶段学习到的事件数据的时空特征进行参数调整；所述下游任务包括但不限于目标分类、语义分割、目标检测和动作识别。

16、作为本专利技术的一种改进，所述步骤s2中的编码器由四个阶段组成，每个阶段内部由多头自注意(mhsa)模块和全连接网络(mlp)组成，其数学表示为:

17、x＝mhsa(ln(x),p)+x

18、x＝mlp(ln(x))+x

19、每个阶段之间引入一个下采样层，从多级编码器中，获得了区域xi中可见体素的s-阶段表示

20、作为本专利技术的一种改进，所述自监督学习的损失函数为:

21、

22、其中，为局部重建的目标函数，即最小化重建局部特征与真实局部特征的欧氏距离损失；为全局语义重建的目标函数，即最小化语义向量token之间的余弦相似度损失；超参数λ设置为1。

23、作为本专利技术的另一种改进，所述局部重建的目标函数为：

24、

25、其中，n为局部的数目，km为局部内部被遮蔽的体素数目，为局部重建解码器所预测的局部特征，为真实局部特征；

26、所述全局语义重建的目标函数为：

27、

28、其中，可见语义向量token掩码语义向量token

29、作为本专利技术的又一种改进，所述步骤s3预训练模型参数采用adam优化器进行更新，其公式为：

30、

31、

32、其中，θt为t时间步的参数集，gt为t时间步的梯度。

33、与现有技术相比，本专利技术具有的有益效果：

34、(1)本专利技术提出了在事件相机领域第一个专门为基于时空体素的主干设计的自监督方法，充分考虑了这些特殊性质，使得模型更适应于事件相机产生的数据，提高了实际场景中的可用性。

35、(2)本专利技术提出的语义均匀掩码模块解决了传统全局掩码方法在不同区域带来的难度不均衡问题。这一创新性的方法使得模型能够更全面地学习局部语义和全局理解。在实际场景中，这意味着本专利技术更能够捕捉并理解不同区域的特征，提高了在复杂环境下的应用性。

36、(3)本专利技术提出的局部重建模块使模型学本文档来自技高网...

【技术保护点】

1.基于拆解掩码建模的事件数据自监督学习系统，其特征在于：至少包括语义均匀掩码模块、局部重建模块和全局语义重建模块，

2.如权利要求1所述的基于拆解掩码建模的事件数据自监督学习系统，其特征在于：所述局部重建模块中输入的特征大小为2048*5*5，输出的特征大小为2048*5*5；所述全局语义重建模块中输入的特征大小为2048*5*5，输出的特征大小为16*768。

3.使用如权利要求1所述系统的基于拆解掩码建模的事件数据自监督学习方法，其特征在于，包括如下步骤：

4.如权利要求3所述的基于拆解掩码建模的事件数据自监督学习方法，其特征在于：所述步骤S2中的编码器由四个阶段组成，每个阶段内部由多头自注意(MHSA)模块和全连接网络(MLP)组成，其数学表示为:

5.如权利要求3所述的基于拆解掩码建模的事件数据自监督学习方法，其特征在于：所述自监督学习的损失函数为:

6.如权利要求5所述的基于拆解掩码建模的事件数据自监督学习方法，其特征在于：所述局部重建的目标函数为：

7.如权利要求6所述的基于拆解掩码建模的事件数

...

【技术特征摘要】

1.基于拆解掩码建模的事件数据自监督学习系统，其特征在于：至少包括语义均匀掩码模块、局部重建模块和全局语义重建模块，

3.使用如权利要求1所述系统的基于拆解掩码建模的事件数据自监督学习方法，其特征在于，包括如下步骤：

4.如权利要求3所述的基于拆解掩码建模的...

【专利技术属性】
技术研发人员：陈浩，黄振鹏，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人