时序动作分割方法、装置及模型训练方法、装置和存储介质制造方法及图纸

技术编号：40992473 阅读：3 留言：0更新日期：2024-04-18 21:34

本公开提出一种时序动作分割方法、装置及模型训练方法、装置和存储介质，涉及人工智能技术领域。本公开的一种时序动作分割模型的训练方法包括：对样本数据中每个模态的数据进行高维特征提取，获取每个模态的第一特征；根据第一特征，通过降维处理，获取中间损失函数，并通过维度恢复获取每个模态的第二特征；根据第二特征和补充特征，通过对不同模态的特征的融合，获取运动表示；分别通过类别编码器网络、边界编码器网络处理运动表示，获取动作类别预测向量和时序边界预测向量，确定动作类别预测结果，并确定预测损失函数，其中，时序动作分割模型根据中间损失函数和预测损失函数调整参数，直至完成训练。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能，特别是一种时序动作分割方法、装置及模型训练方法、装置和存储介质。

技术介绍

1、时序动作分割技术是指，给定一段视频，预测出每一帧中的人体动作类别。相关技术中，时序动作分割技术通常分为动作识别和时序推理两部分。在动作识别部分，首先提取视频帧的视觉特征，然后通过机器学习技术(如深度神经网络)将视频帧特征转换为度量空间中的特征向量，在度量空间中，不同动作类别的视频帧特征距离较大，从而便于动作分类。在时序推理部分，将重点关注人体动作在时序上的连续性，将一个连续的时间片段内的所有帧预测出相同的动作类别。

2、相关技术中，时序动作分割技术通常采用深度卷积神经网络作为视频特征提取器和度量空间学习器，采用循环神经网络、时间卷积网络和transformer架构对帧级的动作特征进行时序建模，采用大规模视频标注数据训练深度神经网络，采用交叉熵损失函数优化深度卷积神经网络。

技术实现思路

1、本公开的一个目的在于如何提高动作分割的准确度。

2、根据本公开的一些实施例的一个方面，提出一种时序动作分割模型的训练方法，包括：对样本数据中每个模态的数据进行高维特征提取，获取每个模态的第一特征；根据第一特征，通过降维处理，获取中间损失函数，并通过维度恢复获取每个模态的第二特征；根据第二特征和补充特征，通过对不同模态的特征的融合，获取运动表示；分别通过类别编码器网络、边界编码器网络处理运动表示，获取动作类别预测向量和时序边界预测向量，确定动作类别预测结果，并确定预测损失函数

3、在一些实施例中，根据第二特征和补充特征，通过对不同模态的特征的融合，获取运动表示包括：根据第二特征和补充特征获取注意力增强的运动流特征和注意力增强的空间流特征；通过多头交叉注意力机制获取跨流注意力特征；根据跨流注意力特征、注意力增强的运动流特征和注意力增强的空间流特征，获取运动特征向量和空间特征向量；根据运动特征向量和空间特征向量，确定运动表示。

4、在一些实施例中，根据第一特征，通过降维处理，获取中间损失函数，并通过维度恢复获取每个模态的第二特征包括：对第一特征进行时序编码，经过全连接层确定中间类别特征，并确定中间类别损失函数；将中间类别特征恢复维度，并与第一特征相加，获取第二特征；将第二特征，通过降维处理和时序信息提取获取中间边界特征，并根据中间边界特征获取中间边界损失函数，其中，中间损失函数包括中间类别损失函数和中间边界损失函数。

5、在一些实施例中，分别通过类别编码器网络、边界编码器网络处理运动表示，获取动作类别预测向量和时序边界预测向量，确定动作类别预测结果包括：在编码器网络的起始处将类别编码器网络中的查询特征向量用于检索边界编码器网络中的键值对特征向量，获取边界特征；在编码器网络的末尾处将边界编码器网络中的查询特征向量用于检索边界编码器中的键值对特征向量，获取类别特征；根据边界特征和类别特征，通过维度调整获取动作类别预测向量和时序边界预测向量；在时序边界预测向量中根据置信度筛选出边界值，并根据边界值调整动作类别预测向量，获取动作类别预测结果。

6、在一些实施例中，确定预测损失函数包括：获取动作类别预测结果对应的动作分类损失函数；根据时序边界预测向量获取边界概率向量，并根据边界概率向量确定时序边界损失函数，其中，预测损失函数包括动作分类损失函数和时序边界损失函数。

7、在一些实施例中，根据第二特征和补充特征获取注意力增强的运动流特征和注意力增强的空间流特征包括：根据惯性模态的第二特征获取初始运动流特征，根据关键点模态的第二特征和边界框模态的第二特征获取初始空间流特征，其中，模态包括惯性、关键点和边界框；分别将初始运动流特征、初始空间流特征与补充特征相加，获取辅助增强运动流特征和辅助增强空间流特征；根据辅助增强运动流特征和补充特征，利用多头注意力机制，获取注意力增强的运动流特征和注意力增强的空间流特征。

8、在一些实施例中，根据跨流注意力特征、注意力增强的运动流特征和注意力增强的空间流特征，获取运动特征向量和空间特征向量包括：通过逐帧卷积层处理第一跨流注意力特征和注意力增强的运动流特征，获取第三特征；通过逐帧卷积层处理第二跨流注意力特征和注意力增强的空间流特征，获取第四特征；将第三特征、第一跨流注意力特征和注意力增强的运动流特征相加，获取运动特征向量；将第四特征、第二跨流注意力特征和注意力增强的空间流特征相加，获取空间特征向量，其中，第一跨流注意力特征为通过将空间流的查询特征向量来匹配运动流的键值对特征向量所获取的跨流注意力特征，第二跨流注意力特征为通过将运动流的查询特征向量来匹配空间流的键值对特征向量所获取的跨流注意力特征。

9、在一些实施例中，根据运动特征向量和空间特征向量，确定运动表示包括：将运动特征向量与空间特征向量相加，作为运动表示。

10、在一些实施例中，将第二特征，通过降维处理和时序信息提取获取中间边界特征，并根据中间边界特征获取中间边界损失函数包括：通过一层卷积神经网络处理第二特征，获取第五特征；通过具有残差连接的多层卷积神经网络获取第五特征中的时序信息，并与第五特征相加，确定中间边界特征；将中间边界特征通过激活函数获得边界分类概率向量；根据边界分类概率向量确定中间边界损失函数。

11、在一些实施例中，该训练方法还包括：获取中间类别损失函数、中间边界损失函数、动作分类损失函数和时序边界损失函数的加权和，作为损失函数值，其中，时序动作分割模型根据损失函数值调整参数，中间损失函数包括中间类别损失函数和中间边界损失函数，预测损失函数包括动作分类损失函数和时序边界损失函数。

12、在一些实施例中，补充特征为根据物联网设备的工作日志确定。

13、根据本公开的一些实施例的一个方面，提出一种时序动作分割方法，包括：获取目标的每个模态的数据和补充数据；将每个模态的数据和补充维度数据输入时序动作分割模型，获取目标的动作类别预测结果，其中，时序动作分割模型为根据上文中提到的任意一种时序动作分割模型的训练方法生成。

14、在一些实施例中，该方法符合以下至少一项：模态包括惯性、关键点和边界框；或补充数据包括物联网设备的工作日志。

15、根据本公开的一些实施例的一个方面，提出一种时序动作分割模型的训练装置，包括：特征提取模块，被配置为对样本数据中每个模态的数据进行高维特征提取，获取每个模态的第一特征；特征约束模块，被配置为根据第一特征，通过降维处理，获取中间损失函数，并通过维度恢复获取每个模态的第二特征；融合模块，被配置为根据第二特征和补充特征，通过对不同模态的特征的融合，获取运动表示；和交互双分支模块，被配置为分别通过类别编码器网络、边界编码器网络处理运动表示，获取动作类别预测向量和时序边界预测向量，确定动作类别预测结果，并确定预测损失函数，其中，时序动作分割模型根据中间损失函数和预测损失函数调整本文档来自技高网...

【技术保护点】

1.一种时序动作分割模型的训练方法，包括：

2.根据权利要求1所述的训练方法，其中，所述根据所述第二特征和补充特征，通过对不同模态的特征的融合，获取运动表示包括：

3.根据权利要求1所述的训练方法，其中，所述根据所述第一特征，通过降维处理，获取中间损失函数，并通过维度恢复获取每个模态的第二特征包括：

4.根据权利要求1所述的训练方法，其中，所述分别通过类别编码器网络、边界编码器网络处理所述运动表示，获取动作类别预测向量和时序边界预测向量，确定动作类别预测结果包括：

5.根据权利要求1或4所述的训练方法，其中，所述确定预测损失函数包括：

6.根据权利要求2所述的训练方法，其中，所述根据所述第二特征和补充特征获取注意力增强的运动流特征和注意力增强的空间流特征包括：

7.根据权利要求2或6所述的训练方法，其中，所述根据所述跨流注意力特征、所述注意力增强的运动流特征和所述注意力增强的空间流特征，获取运动特征向量和空间特征向量包括：

8.根据权利要求2所述的训练方法，其中，所述根据所述运动特征向量和所述空间

9.根据权利要求3所述的训练方法，其中，所述将所述第二特征，通过降维处理和时序信息提取获取中间边界特征，并根据所述中间边界特征获取中间边界损失函数包括：

10.根据权利要求1所述的训练方法，还包括：

11.根据权利要求1所述的训练方法，其中，所述补充特征为根据物联网设备的工作日志确定。

12.一种时序动作分割方法，包括：

13.根据权利要求12所述的方法，其中，所述方法符合以下至少一项：

14.一种时序动作分割模型的训练装置，包括：

15.一种时序动作分割装置，包括：

16.一种数据处理装置，包括：

17.一种非瞬时性计算机可读存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现权利要求1至13任意一项所述的方法的步骤。

...

【技术特征摘要】

1.一种时序动作分割模型的训练方法，包括：

2.根据权利要求1所述的训练方法，其中，所述根据所述第二特征和补充特征，通过对不同模态的特征的融合，获取运动表示包括：

3.根据权利要求1所述的训练方法，其中，所述根据所述第一特征，通过降维处理，获取中间损失函数，并通过维度恢复获取每个模态的第二特征包括：

5.根据权利要求1或4所述的训练方法，其中，所述确定预测损失函数包括：

6.根据权利要求2所述的训练方法，其中，所述根据所述第二特征和补充特征获取注意力增强的运动流特征和注意力增强的空间流特征包括：

7.根据权利要求2或6所述的训练方法，其中，所述根据所述跨流注意力特征、所述注意力增强的运动流特征和所述注意力增强的空间流特征，获取运动特征向...

【专利技术属性】
技术研发人员：刘武，刘鑫辰，刘鲲，何晓冬，
申请(专利权)人：北京沃东天骏信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人