视频处理方法、电子设备、存储介质及程序产品技术

技术编号：41417924 阅读：4 留言：0更新日期：2024-05-21 20:50

本申请实施例提供了一种视频处理方法、电子设备、存储介质及程序产品，涉及人工智能技术领域。该方法包括：获取视频的视频特征；视频包括至少两个视频帧；使用神经网络，基于视频特征确定视频的目标物体表示；基于目标物体表示确定视频的全景分割结果。本申请的实施通过片段级的目标物体表示预测视频的全景分割结果，可以有效简化网络结构，提升分割精度和鲁棒性。同时，由电子设备执行的上述视频处理方法可以使用人工智能模型来执行。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及人工智能，具体而言，本申请涉及一种视频处理方法、电子设备、存储介质及程序产品。

技术介绍

1、图像全景分割，是对二维图像上的每个像素赋予一个标签信息的过程。而视频全景分割，是图像全景在时域上的扩展，除了对每张图做全景分割之外，还结合了物体跟踪任务，即对于不同图像上属于同一个实例的像素，赋予相同的标签。

2、在现有的视频全景分割技术中是针对单帧图像确定全景物体表示，全景分割的精度低；另一方面，所得到的是单帧图像上的分割结果，为了获得视频中各视频帧之间的对应信息，需要额外的跟踪模块，使得网络结构复杂化。

技术实现思路

1、本申请实施例提供了一种视频处理方法、电子设备、存储介质及程序产品，旨在简化网络结构，提升全景分割精度和鲁棒性。该技术方案如下：

2、根据本申请实施例的一个方面，提供了一种视频处理方法，该方法包括：

3、获取视频的视频特征，所述视频包括至少两个视频帧；

4、使用神经网络，基于所述视频特征，确定所述视频的目标物体表示；

5、基于所述目标物体表示确定所述视频的全景分割结果。

6、在一可行的实施例中，所述使用神经网络，基于所述视频特征，确定所述视频的目标物体表示，包括：

7、使用神经网络，针对所述视频特征进行若干次迭代处理，确定所述视频的目标物体表示；

8、每次迭代处理包括：基于所述视频特征与所述视频的上一次迭代的物体表示进行迭代处理，确定所述视频当前次迭代的物体表示。</p>

9、在一可行的实施例中，若为首次迭代，则所述上一次迭代的物体表示为预配置的初始物体表示。

10、在一可行的实施例中，所述基于所述视频特征与所述视频的上一次迭代的物体表示进行迭代处理，确定所述视频当前次迭代的物体表示，包括：

11、针对所述上一次迭代的物体表示进行转化处理，得到掩模；

12、将所述视频特征、所述上一次迭代的物体表示以及所述掩模进行处理，得到第一物体表示；

13、基于所述第一物体表示确定当前次迭代的物体表示。

14、在一可行的实施例中，所述将所述视频特征、所述上一次迭代的物体表示以及所述掩模进行处理，得到第一物体表示，包括：

15、针对所述视频特征、所述上一次迭代的物体表示、以及所述掩模进行注意力处理，得到掩模相关的物体表示；

16、基于所述掩模相关的物体表示与所述上一次迭代的物体表示，依序执行自注意力处理和分类处理，得到第一物体表示。

17、在一可行的实施例中，所述针对所述视频特征、所述上一次迭代的物体表示以及所述掩模进行注意力处理，得到掩模相关的物体表示，包括：

18、根据所述视频特征对应的键特征、所述上一次迭代的物体表示、以及所述掩膜，得到第二物体表示；

19、基于所述第二物体表示，确定第一概率，所述第一概率指示所述视频包括的物体类别；

20、根据所述第一概率、所述视频特征对应的值特征、以及所述视频特征，得到所述掩模相关的物体表示。

21、在一可行的实施例中，所述基于所述第一物体表示确定当前次迭代的物体表示，包括：

22、基于所述视频特征与所述第一物体表示，确定至少一个视频帧中的每个视频帧对应的物体表示；

23、基于所述第一物体表示和所确定的视频帧对应的物体表示，确定当前次迭代的物体表示。

24、在一可行的实施例中，所述基于所述视频特征与所述第一物体表示，确定至少一个视频帧中的每个视频帧对应的物体表示，包括：

25、根据所述视频特征对应的键特征和所述第一物体表示，确定第四物体表示；

26、基于所述第四物体表示确定第二概率，所述第二概率指示所述视频包括的物体类别；

27、根据所述第二概率和所述视频特征对应的值特征，确定至少一个视频帧中的每个视频帧对应的物体表示。

28、在一可行的实施例中，所述基于所述第一物体表示和所确定的视频帧对应的物体表示，确定当前次迭代的物体表示，包括：

29、针对所确定的视频帧对应的物体表示，依序执行分类处理和自注意力处理，得到所述视频对应的第三物体表示；

30、基于所述第一物体表示与所述第三物体表示，确定当前次迭代的物体表示。

31、在一可行的实施例中，所述基于所述目标物体表示确定所述视频的全景分割结果，包括：

32、对所述目标物体表示进行线性变换处理；

33、基于线性变换后的目标物体表示与所述视频特征确定所述视频的掩模信息，以及基于线性变换后的目标物体表示确定所述视频的类别信息。

34、在一可行的实施例中，通过预训练的全景分割模型执行所述视频处理方法；所述全景分割模型包括第一模块和第二模块；

35、所述全景分割模型的训练步骤包括：

36、获取训练数据；所述训练数据包括训练视频、训练视频的第一视频特征以及与训练视频对应的样本全景分割结果；

37、基于所述训练数据对所述全景分割模型进行训练，得到训练后的全景分割模型；

38、其中，在训练时，调换所述第一视频特征的帧次序，得到第二视频特征；通过所述第一模块分别基于所述第一视频特征和所述第二视频特征确定所述训练视频的第一预测物体表示和第二预测物体表示；通过所述第二模块分别基于所述第一预测物体表示和所述第二预测物体表示确定所述训练视频的第一预测结果和第二预测结果；基于所述样本全景分割结果、所述第一预测物体表示、所述第二预测物体表示、所述第一预测结果和所述第二预测结果，采用目标损失函数训练所述全景分割模型。

39、在一可行的实施例中，所述基于所述样本全景分割结果、所述第一预测物体表示、所述第二预测物体表示、所述第一预测结果和所述第二预测结果，采用目标损失函数训练所述全景分割模型，包括：

40、基于所述第一预测物体表示与所述第二预测物体表示，确定物体表示之间的第一相似矩阵；

41、基于所述样本全景分割结果、所述第一预测结果和所述第二预测结果，确定分割结果之间的第二相似矩阵；

42、若基于所述第一相似矩阵与所述第二相似矩阵确定目标损失函数达最小，则输出训练后的全景分割模型。

43、根据本申请实施例的另一个方面，提供了一种电子设备，该电子设备包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行该计算机程序以实现上述视频处理方法的步骤。

44、根据本申请实施例的再一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述视频处理方法的步骤。

45、根据本申请实施例的一个方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述视频处理方法的步骤。

46、本申请实施例提供的技术方案带来的有益效果是：

47、本申请提供一种视频处理方法、本文档来自技高网...

【技术保护点】

1.一种视频处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述使用神经网络，基于所述视频特征，确定所述视频的目标物体表示，包括：

3.根据权利要求2所述的方法，其特征在于，若为首次迭代，则所述上一次迭代的物体表示为预配置的初始物体表示。

4.根据权利要求2所述的方法，其特征在于，所述基于所述视频特征与所述视频的上一次迭代的物体表示进行迭代处理，确定所述视频当前次迭代的物体表示，包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述视频特征、所述上一次迭代的物体表示以及所述掩模进行处理，得到第一物体表示，包括：

6.根据权利要求5所述的方法，其特征在于，所述针对所述视频特征、所述上一次迭代的物体表示以及所述掩模进行注意力处理，得到掩模相关的物体表示，包括：

7.根据权利要求4所述的方法，其特征在于，所述基于所述第一物体表示确定当前次迭代的物体表示，包括：

8.根据权利要求7所述的方法，其特征在于，所述基于所述视频特征与所述第一物体表示，确定至少一个视频帧中的每个视频帧对应的物体表示，包括：

9.根据权利要求7所述的方法，其特征在于，所述基于所述第一物体表示和所确定的视频帧对应的物体表示，确定当前次迭代的物体表示，包括：

10.根据权利要求1所述的方法，其特征在于，所述基于所述目标物体表示确定所述视频的全景分割结果，包括：

11.根据权利要求1所述的方法，其特征在于，通过预训练的全景分割模型执行所述视频处理方法；所述全景分割模型包括第一模块和第二模块；

12.根据权利要求11所述的方法，其特征在于，所述基于所述样本全景分割结果、所述第一预测物体表示、所述第二预测物体表示、所述第一预测结果和所述第二预测结果，采用目标损失函数训练所述全景分割模型，包括：

13.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1-12任一项所述方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-12任一项所述方法的步骤。

15.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-12任一项所述方法的步骤。

...

【技术特征摘要】

1.一种视频处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述使用神经网络，基于所述视频特征，确定所述视频的目标物体表示，包括：

3.根据权利要求2所述的方法，其特征在于，若为首次迭代，则所述上一次迭代的物体表示为预配置的初始物体表示。

5.根据权利要求4所述的方法，其特征在于，所述将所述视频特征、所述上一次迭代的物体表示以及所述掩模进行处理，得到第一物体表示，包括：

7.根据权利要求4所述的方法，其特征在于，所述基于所述第一物体表示确定当前次迭代的物体表示，包括：

8.根据权利要求7所述的方法，其特征在于，所述基于所述视频特征与所述第一物体表示，确定至少一个视频帧中的每个视频帧对应的物体表示，包括：

9.根据权利要...

【专利技术属性】
技术研发人员：周仪，张辉，朴升忍，俞炳仁，郑相一，
申请(专利权)人：北京三星通信技术研究有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人