基于transformer第一视角下的下一个交互物体预测方法技术

技术编号:34208396 阅读:26 留言:0更新日期:2022-07-20 12:29
本发明专利技术公开了一种基于transformer第一视角下的下一个交互物体预测方法,该方法的步骤包括:使用slowfast网络在第一视角视频上对当前视频片段的交互物体进行识别训练,提取已观察视频特征并进行标准化;将待预测视频特征初始化为可训练的参数;将已观察视频特征与待预测视频特征进行拼接;将拼接后特征作为transformer网络输入,分类已观察视频和待预测视频的所有交互物体,达到对下一个交互物体预测的粗分类;将通过transformer网络后的待预测视频特征进行时间最大值池化;池化后的待预测视频特征经过全连接层得到下一个交互物体的预测。本发明专利技术解决在预测下一个交互物体的时候忽视预测间隔特征的问题,使得下一个交互物体预测的性能得到提高。物体预测的性能得到提高。物体预测的性能得到提高。

Next interactive object prediction method based on Transformer's first perspective

【技术实现步骤摘要】
基于transformer第一视角下的下一个交互物体预测方法


[0001]本专利技术涉及视频处理与识别
,具体涉及一种基于transformer第一视角下的下一个交互物体预测方法。

技术介绍

[0002]第一视角视频是通过头戴式摄像机以人眼的视角捕捉的视频。交互物体是指人在发生动作时候,施加动作的对象物体,即人与物体交互。在第一视角视频下,对于交互物体的识别对于第一视角视频下的行为识别的性能具有显著影响。行为识别是指识别出当前的动作,行为预期指识别未来的动作。在第一视角视频下,行为预期任务相比起行为识别问题难度更大,也更有意义。因为第一视角下的视频的行为预期可以反应出人的意图,使得机器能够学习出人的意图,变得更加智能。与行为识别相同,下一个交互物体识别的性能也显著影响着行为预期任务。
[0003]在第一视角视频下下一个交互物体预测问题已经有相关的研究。Furnari等人2017年在JVCI期刊和Jiang等人2021年在Neurocomputing期刊提出了下一个交互物体预测的方法。但是他们的方法都需要额外的标注,比如物体检测框标注和手部框的标注,在实际应用场景中不一定能够获得这些额外的标注。在没有额外标注,只有交互物体类别作为标签的情况下,如何有效的预测下一个交互物体成为一个困难和挑战。而在第一视角的行为预期的研究上,研究主要是针对动作进行预测,并通过动作分解出动词和名词,使用名词来指代交互物体,这类方法忽视了对交互物体的预测。并且现有的研究方法只考虑已观察视频的特征并没有考虑到预测间隔的信息对下一个交互物体预测的影响。

技术实现思路

[0004]为了克服现有技术存在的缺陷与不足,本专利技术提供一种基于transformer第一视角下的下一个交互物体预测方法,本专利技术将需要预测视频的特征(包括预测间隔的特征和下一个交互物体的特征)初始化为可训练的参数并与已观察视频的特征拼接作为transformer网络的输入,识别视频下的所有交互物体,通过transformer网络来获取已观察视频的特征和需要预测视频的特征之间的关系,因此本专利技术不仅考虑到已观察视频的特征,也考虑到预测间隔视频的特征,为了进一步利用下一个交互物体发生动作前预测间隔的特征,本专利技术将通过transformer网络的需要预测视频的特征进行池化,并通过分类器细化对下一个交互物体的预测,在模型效果上取得进一步提升。
[0005]本专利技术的第二目的在于提供一种基于transformer第一视角下的下一个交互物体预测系统。
[0006]本专利技术的第三目的在于提供一种存储介质。
[0007]本专利技术的第四目的在于提供一种计算设备。
[0008]为了达到上述目的,本专利技术采用以下技术方案:
[0009]本专利技术提供一种基于transformer第一视角下的下一个交互物体预测方法,包括
下述步骤:
[0010]采用slowfast网络作为特征提取网络,在第一视角视频上对当前视频片段的交互物体进行识别训练,以识别交互物体;
[0011]将训练后的slowfast网络用于已观察视频帧的特征提取;
[0012]将提取的已观察视频的特征进行标准化;
[0013]用可训练的参数初始化待预测视频的特征;
[0014]将已观察视频的特征和待预测视频的特征进行拼接;
[0015]预处理交互物体的标签;
[0016]将拼接后的特征作为transformer网络和全连接分类网络的输入,对已观察和待预测的视频上的所有交互物体进行识别,使用交叉熵损失函数进行训练;
[0017]提取出通过transformer网络之后、全连接分类网络之前待预测的视频的特征;
[0018]将提取出的全连接网络之前待预测视频的特征进行池化,通过另一个全连接分类网络对下一个交互物体进行预测。
[0019]作为优选的技术方案,所述采用slowfast网络作为特征提取网络,在第一视角视频上对当前视频片段的交互物体进行识别训练,以识别交互物体,具体步骤包括:
[0020]slowfast网络在Kinetics

400进行预训练,并使用预训练参数初始化slowfast网络;
[0021]在视频片段上随机选取视频帧作为slowfast网络的输入,在随机选取的视频帧上等间隔采样不同帧数的视频帧,分别作为fast通道和slow通道的输入;
[0022]对输入数据进行数据增强;
[0023]构建交叉熵损失函数,采用交叉熵损失函数对slowfast的预测结果交互物体的标签进行损失计算和梯度计算,并通过反向传播更新基准网络;
[0024]采用端到端的训练方式训练slowfast网络,设置初始学习率,在迭代训练过程中使用学习率下降策略,达到预设的迭代次数后,保存模型训练参数文件。
[0025]作为优选的技术方案,所述slowfast网络设有slow通道和fast通道,slow通道采用3D ResNet101作为基准网络,fast通道采用3D ResNet50作为基准网络。
[0026]作为优选的技术方案,所述将训练后的slowfast网络用于已观察视频帧的特征提取,具体步骤包括:
[0027]slowfast网络加载在第一视角视频上对当前视频片段的交互物体进行识别训练的参数,作为特征提取网络的初始化;
[0028]对于每一个交互物体的预测,从交互物体开始的时间的前σ
a
到σ
a

o
秒提取特征,σ
a
为预测间隔时间,σ
o
为观察时间;
[0029]以观察时间为中心提取多帧视频片段作为slowfast网络的输入,以提取特征;
[0030]使用slowfast网络进行特征提取时,移除最后的全连层,对于每一个交互物体的预测,已观察视频最终提取出的特征大小为N
×
C,其中,N为片段数量,C为通道大小。
[0031]作为优选的技术方案,所述用可训练的参数初始化待预测视频的特征,具体步骤包括:
[0032]F
as
=Concat(F
a
,F
s
)
[0033]其中,F
a
表示预测间隔部分的特征,F
s
表示为下一个交互物体的特征,F
as
为拼接后
的特征,Concat表示为特征拼接;
[0034]待预测视频的特征分为预测间隔部分和下一个交互物体交互部分,设为一组可训练参数。
[0035]作为优选的技术方案,所述预处理交互物体的标签,具体步骤包括:
[0036]伪标签的生成:在第一人称的视频片段中,如果有片段没有标注交互物体标签,如果此片段与某一有标注物体标签的片段重叠,则把此片段的标签设为与其有重叠且有标签的片段的标签;
[0037]如果没有任何一个有标签的片段与其本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于transformer第一视角下的下一个交互物体预测方法,其特征在于,包括下述步骤:采用slowfast网络作为特征提取网络,在第一视角视频上对当前视频片段的交互物体进行识别训练,以识别交互物体;将训练后的slowfast网络用于已观察视频帧的特征提取;将提取的已观察视频的特征进行标准化;用可训练的参数初始化待预测视频的特征;将已观察视频的特征和待预测视频的特征进行拼接;预处理交互物体的标签;将拼接后的特征作为transformer网络和全连接分类网络的输入,对已观察和待预测的视频上的所有交互物体进行识别,使用交叉熵损失函数进行训练;提取出通过transformer网络之后、全连接分类网络之前待预测的视频的特征;将提取出的全连接网络之前待预测视频的特征进行池化,通过另一个全连接分类网络对下一个交互物体进行预测。2.根据权利要求1所述的基于transformer第一视角下的下一个交互物体预测方法,其特征在于,所述采用slowfast网络作为特征提取网络,在第一视角视频上对当前视频片段的交互物体进行识别训练,以识别交互物体,具体步骤包括:slowfast网络在Kinetics

400进行预训练,并使用预训练参数初始化slowfast网络;在视频片段上随机选取视频帧作为slowfast网络的输入,在随机选取的视频帧上等间隔采样不同帧数的视频帧,分别作为fast通道和slow通道的输入;对输入数据进行数据增强;构建交叉熵损失函数,采用交叉熵损失函数对slowfast的预测结果交互物体的标签进行损失计算和梯度计算,并通过反向传播更新基准网络;采用端到端的训练方式训练slowfast网络,设置初始学习率,在迭代训练过程中使用学习率下降策略,达到预设的迭代次数后,保存模型训练参数文件。3.根据权利要求1或2所述的基于transformer第一视角下的下一个交互物体预测方法,其特征在于,所述slowfast网络设有slow通道和fast通道,slow通道采用3D ResNet101作为基准网络,fast通道采用3D ResNet50作为基准网络。4.根据权利要求1所述的基于transformer第一视角下的下一个交互物体预测方法,其特征在于,所述将训练后的slowfast网络用于已观察视频帧的特征提取,具体步骤包括:slowfast网络加载在第一视角视频上对当前视频片段的交互物体进行识别训练的参数,作为特征提取网络的初始化;对于每一个交互物体的预测,从交互物体开始的时间的前σ
a
到σ
a

o
秒提取特征,σ
a
为预测间隔时间,σ
o
为观察时间;以观察时间为中心提取多帧视频片段作为slowfast网络的输入,以提取特征;使用slowfast网络进行特征提取时,移除最后的全连层,对于每一个交互物体的预测,已观察视频最终提取出的特征大小为N
×
C,其中,N为片段数量,C为通道大小。5.根据权利要求1所述的基于transformer第一视角下的下一个交互物体预测方法,其特征在于,所述用可训练的参数初始化待预测视频的特征,具体步骤包括:
F
as
=Concat(F
a
,F
s
...

【专利技术属性】
技术研发人员:江泽宇丁长兴
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1