视频的自监督训练方法、装置、设备及介质制造方法及图纸

技术编号:37876607 阅读:20 留言:0更新日期:2023-06-15 21:05
本发明专利技术涉及人工智能技术领域,提供了一种视频的自监督训练方法、装置、设备及介质,其中方法包括:通过获取的视频数据进行三维卷积,以获取具有时空信息的立方体,然后利用立方体生成的图像模态信息、语音模态信息以及文本模态信息进行自监督训练。本发明专利技术的有益效果:实现了对图像

【技术实现步骤摘要】
视频的自监督训练方法、装置、设备及介质


[0001]本专利技术涉及人工智能
,特别涉及一种视频的自监督训练方法、装置、设备及介质。

技术介绍

[0002]随着互联网的进一步发展,崛起了类似快手、抖音等一大批短视频APP。视频一般都是同时包括了语言、图像、文本等多种元素。深度学习的发展,视频相关的算法,比如视频分类、视频检索、视频分割等都得到了极大的发展,其广泛应用于电子商务中。目前对视频识别模型的一般是采用有监督学习的训练方法,然而这种得到的神经网络模型鉴于视频数据的标注的成本极高,不利于推广。

技术实现思路

[0003]本专利技术的主要目的为提供一种视频的自监督训练方法、装置、设备及介质,旨在解决目前对视频识别模型的一般是采用有监督学习的训练方法,鉴于视频数据的标注的成本极高,不利于推广的问题。
[0004]本专利技术提供了一种视频的自监督训练方法,包括:
[0005]获取待训练的视频数据;
[0006]将所述视频数据进行三维卷积,得到具有时空信息的立方体;
[0007]将所述立方体输入至目标视频模型中,得到所述立方体对应的图像模态信息、语音模态信息以及文本模态信息;
[0008]将所述图像模态信息、所述语音模态信息以及所述文本模态信息输入至预设的共享空间,并分别映射到图像

语音空间图像和图像

文本空间图像;
[0009]分别计算图像

语音空间图像以及图像

文本空间图像的损失值;
[0010]根据所述损失值对所述目标视频模型中的参数进行调整,得到训练完成的视频识别模型。
[0011]进一步地,所述分别计算图像

语音空间图像以及图像

文本空间图像的损失值的步骤,包括:
[0012]获取所述图像模态信息、所述语音模态信息以及所述文本模态信息在所述目标视频模型中各池化层中的平均池化的结果,得到所述图像模态信息对应的多个第一池化结果,所述语音模态信息的多个第二池化结果以及所述文本模态信息的第三池化结果;
[0013]通过公式计算图像

语音空间图像与图像

文本空间图像损失值,其中,x
i
表示第i个第一池化结果,x
k
表示第k个第二池化结果或者第k个第三池化结果,sim(x
i
,x
k
)表示x
k
与x
i
的相似度,maxsim(x
i
,x
j
)表示各层池化层中x
k
与x
i
的相似度的最大值,K表示池化层的层数,ι
i,k
表示损失值,τ是预设参数。
[0014]进一步地,所述将所述立方体输入至目标视频模型中,得到所述立方体对应的图像模态信息、语音模态信息以及文本模态信息的步骤之前,还包括:
[0015]获取多个训练视频数据;
[0016]将所述训练视频数据进行三维卷积,得到第一训练立方体;
[0017]将所述第一训练立方体通过随机掩码的方式进行处理,得到第二训练立方体;
[0018]将所述第一训练立方体输入至预设的第二原始视频模型中,并将所述第二训练立方体输入至第一原始视频模型中,分别得到第一输出结果和第二输出结果;
[0019]根据第一输出结果和第二输出结果的值调整所述第一原始视频中的参数,直至所述第一输出结果与第二输出结果的误差值在预设范围内,从而得到目标视频模型。
[0020]进一步地,所述根据所述损失值对所述目标视频模型中的参数进行调整,得到训练完成的视频识别模型的步骤之后,还包括:
[0021]获取测试数据集,所述测试数据集包括多个测试视频数据以及各个测试视频数据对应的实际图像模态信息、实际语音模态信息以及实际文本模态信息;
[0022]将所述测试数据集中的测试视频数据输入至视频识别模型中,得到预测图像模态信息、预测语音模态信息以及预测文本模态信息;
[0023]根据损失函数公式计算所述视频识别模型的损失值,其中,所述损失函数为:
[0024][0025]y
i
表示测试数据集中的第i个实际模态信息,实际模态信息表示实际语音模态信息或实际文本模态信息或实际图像模态信息,x
i
表示第i个测试视频数据,f(x
i
)表示根据第i个测试视频数据训练数据得到的预测模态信息,n表示模态信息的个数,表示所述视频识别模型的损失值,为预设的参数;
[0026]判断所述损失值是否小于预设损失值;
[0027]若小于预设损失值,则判定所述视频识别模型训练完成。
[0028]进一步地,所述获取待训练的视频数据的步骤,包括:
[0029]通过sqoop脚本获取各平台数据的视频数据以及对应的视频标签;
[0030]根据所述视频标签计算各个视频数据之间的相似度;
[0031]根据所述相似度对各个视频数据进行聚类处理,得到多个类型的视频数据库;
[0032]从其中一个类型的视频数据库获取待训练的视频数据。
[0033]进一步地,所述根据所述损失值对所述目标视频模型中的参数进行调整,得到训练完成的视频识别模型的步骤之后,还包括:
[0034]获取所述视频数据的类别;
[0035]通过所述类别为所述视频识别模型设置标签。
[0036]本专利技术还提供了一种视频的自监督训练装置,包括:
[0037]获取模块,用于获取待训练的视频数据;
[0038]卷积模块,用于将所述视频数据进行三维卷积,得到具有时空信息的立方体;
[0039]第一输入模块,用于将所述立方体输入至目标视频模型中,得到所述立方体对应的图像模态信息、语音模态信息以及文本模态信息;
[0040]第二输入模块,用于将所述图像模态信息、所述语音模态信息以及所述文本模态信息输入至预设的共享空间,并分别映射到图像

语音空间图像和图像

文本空间图像;
[0041]计算模块,用于分别计算图像

语音空间图像以及图像

文本空间图像的损失值;
[0042]调整模块,用于根据所述损失值对所述目标视频模型中的参数进行调整,得到训练完成的视频识别模型。
[0043]进一步地,所述计算模块,包括:
[0044]获取子模块,用于获取所述图像模态信息、所述语音模态信息以及所述文本模态信息在所述目标视频模型中各池化层中的平均池化的结果,得到所述图像模态信息对应的多个第一池化结果,所述语音模态信息的多个第二池化结果以及所述文本模态信息的第三池化结果;
[0045]计算子模块,用于通过公式计算图像

语音空间图像与图像
...

【技术保护点】

【技术特征摘要】
1.一种视频的自监督训练方法,其特征在于,包括:获取待训练的视频数据;将所述视频数据进行三维卷积,得到具有时空信息的立方体;将所述立方体输入至目标视频模型中,得到所述立方体对应的图像模态信息、语音模态信息以及文本模态信息;将所述图像模态信息、所述语音模态信息以及所述文本模态信息输入至预设的共享空间,并分别映射到图像

语音空间图像和图像

文本空间图像;分别计算图像

语音空间图像以及图像

文本空间图像的损失值;根据所述损失值对所述目标视频模型中的参数进行调整,得到训练完成的视频识别模型。2.如权利要求1所述的视频的自监督训练方法,其特征在于,所述分别计算图像

语音空间图像以及图像

文本空间图像的损失值的步骤,包括:获取所述图像模态信息、所述语音模态信息以及所述文本模态信息在所述目标视频模型中各池化层中的平均池化的结果,得到所述图像模态信息对应的多个第一池化结果、所述语音模态信息的多个第二池化结果以及所述文本模态信息的第三池化结果;通过公式ι计算图像

语音空间图像与图像

文本空间图像损失值,其中,x
i
表示第i个第一池化结果,x
k
表示第k个第二池化结果或者第k个第三池化结果,sim(x
i
,x
k
)表示x
k
与x
i
的相似度,maxsim(x
i
,x
j
)表示各层池化层中x
k
与x
i
的相似度的最大值,K表示池化层的层数,ι
i,
表示损失值,τ是预设参数。3.如权利要求1所述的视频的自监督训练方法,其特征在于,所述将所述立方体输入至目标视频模型中,得到所述立方体对应的图像模态信息、语音模态信息以及文本模态信息的步骤之前,还包括:获取多个训练视频数据;将所述训练视频数据进行三维卷积,得到第一训练立方体;将所述第一训练立方体通过随机掩码的方式进行处理,得到第二训练立方体;将所述第一训练立方体输入至预设的第二原始视频模型中,并将所述第二训练立方体输入至第一原始视频模型中,分别得到第一输出结果和第二输出结果;根据第一输出结果和第二输出结果的值调整所述第一原始视频中的参数,直至所述第一输出结果与第二输出结果的误差值在预设范围内,从而得到目标视频模型。4.如权利要求1所述的视频的自监督训练方法,其特征在于,所述根据所述损失值对所述目标视频模型中的参数进行调整,得到训练完成的视频识别模型的步骤之后,还包括:获取测试数据集,所述测试数据集包括多个测试视频数据以及各个测试视频数据对应的实际图像模态信息、实际语音模态信息以及实际文本模态信息;将所述测试数据集中的测试视频数据输入至视频识别模型中,得到预测图像模态信息、预测语音模态信息以及预测文本模态信息;根据损失函数公式计算所述视频识别模型的损失值,其中,所述损失函数为:
y
i
表示测试数据集中的第i个实际模态信息,实际模态信息表示实际语音模态信息或实...

【专利技术属性】
技术研发人员:唐小初舒畅陈又新
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1