【技术实现步骤摘要】
视频的自监督训练方法、装置、设备及介质
[0001]本专利技术涉及人工智能
,特别涉及一种视频的自监督训练方法、装置、设备及介质。
技术介绍
[0002]随着互联网的进一步发展,崛起了类似快手、抖音等一大批短视频APP。视频一般都是同时包括了语言、图像、文本等多种元素。深度学习的发展,视频相关的算法,比如视频分类、视频检索、视频分割等都得到了极大的发展,其广泛应用于电子商务中。目前对视频识别模型的一般是采用有监督学习的训练方法,然而这种得到的神经网络模型鉴于视频数据的标注的成本极高,不利于推广。
技术实现思路
[0003]本专利技术的主要目的为提供一种视频的自监督训练方法、装置、设备及介质,旨在解决目前对视频识别模型的一般是采用有监督学习的训练方法,鉴于视频数据的标注的成本极高,不利于推广的问题。
[0004]本专利技术提供了一种视频的自监督训练方法,包括:
[0005]获取待训练的视频数据;
[0006]将所述视频数据进行三维卷积,得到具有时空信息的立方体;
[0007]将所述立方体输入至目标视频模型中,得到所述立方体对应的图像模态信息、语音模态信息以及文本模态信息;
[0008]将所述图像模态信息、所述语音模态信息以及所述文本模态信息输入至预设的共享空间,并分别映射到图像
‑
语音空间图像和图像
‑
文本空间图像;
[0009]分别计算图像
‑
语音空间图像以及图像
‑
文本空间图
【技术保护点】
【技术特征摘要】
1.一种视频的自监督训练方法,其特征在于,包括:获取待训练的视频数据;将所述视频数据进行三维卷积,得到具有时空信息的立方体;将所述立方体输入至目标视频模型中,得到所述立方体对应的图像模态信息、语音模态信息以及文本模态信息;将所述图像模态信息、所述语音模态信息以及所述文本模态信息输入至预设的共享空间,并分别映射到图像
‑
语音空间图像和图像
‑
文本空间图像;分别计算图像
‑
语音空间图像以及图像
‑
文本空间图像的损失值;根据所述损失值对所述目标视频模型中的参数进行调整,得到训练完成的视频识别模型。2.如权利要求1所述的视频的自监督训练方法,其特征在于,所述分别计算图像
‑
语音空间图像以及图像
‑
文本空间图像的损失值的步骤,包括:获取所述图像模态信息、所述语音模态信息以及所述文本模态信息在所述目标视频模型中各池化层中的平均池化的结果,得到所述图像模态信息对应的多个第一池化结果、所述语音模态信息的多个第二池化结果以及所述文本模态信息的第三池化结果;通过公式ι计算图像
‑
语音空间图像与图像
‑
文本空间图像损失值,其中,x
i
表示第i个第一池化结果,x
k
表示第k个第二池化结果或者第k个第三池化结果,sim(x
i
,x
k
)表示x
k
与x
i
的相似度,maxsim(x
i
,x
j
)表示各层池化层中x
k
与x
i
的相似度的最大值,K表示池化层的层数,ι
i,
表示损失值,τ是预设参数。3.如权利要求1所述的视频的自监督训练方法,其特征在于,所述将所述立方体输入至目标视频模型中,得到所述立方体对应的图像模态信息、语音模态信息以及文本模态信息的步骤之前,还包括:获取多个训练视频数据;将所述训练视频数据进行三维卷积,得到第一训练立方体;将所述第一训练立方体通过随机掩码的方式进行处理,得到第二训练立方体;将所述第一训练立方体输入至预设的第二原始视频模型中,并将所述第二训练立方体输入至第一原始视频模型中,分别得到第一输出结果和第二输出结果;根据第一输出结果和第二输出结果的值调整所述第一原始视频中的参数,直至所述第一输出结果与第二输出结果的误差值在预设范围内,从而得到目标视频模型。4.如权利要求1所述的视频的自监督训练方法,其特征在于,所述根据所述损失值对所述目标视频模型中的参数进行调整,得到训练完成的视频识别模型的步骤之后,还包括:获取测试数据集,所述测试数据集包括多个测试视频数据以及各个测试视频数据对应的实际图像模态信息、实际语音模态信息以及实际文本模态信息;将所述测试数据集中的测试视频数据输入至视频识别模型中,得到预测图像模态信息、预测语音模态信息以及预测文本模态信息;根据损失函数公式计算所述视频识别模型的损失值,其中,所述损失函数为:
y
i
表示测试数据集中的第i个实际模态信息,实际模态信息表示实际语音模态信息或实...
【专利技术属性】
技术研发人员:唐小初,舒畅,陈又新,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。