视觉模型训练和视频处理方法、装置、设备及存储介质制造方法及图纸

技术编号：32900202 阅读：26 留言：0更新日期：2022-04-07 11:50

本申请实施例提供了一种视觉模型训练和视频处理方法、装置、设备及存储介质，涉及人工智能技术领域，该方法包括：结合预训练和微调训练的方式对待训练的视觉模型进行训练获得目标视觉模型。每次迭代预训练中，基于样本视频帧集合中各个样本视频帧的正样本视觉特征，以及历史迭代预训练中使用的其他样本视频帧的负样本视觉特征获得第一损失函数。在每次迭代微调训练中，基于样本视频帧集合中各个样本视频帧对应的预测视频类别获得第二损失函数，从而使得目标视觉模型的特征表征力会更强，特征区分度更高。采用目标视觉模型提取待处理视频帧的视觉特征并基于视觉特征进行视频相似性判决时，可以有效提高视频相似性判别的准确度。度。度。

全部详细技术资料下载

【技术实现步骤摘要】
视觉模型训练和视频处理方法、装置、设备及存储介质

[0001]本专利技术实施例涉及人工智能
，尤其涉及一种视觉模型训练和视频处理方法、装置、设备及存储介质。

技术介绍

[0002]随着互联网技术的发展，各种视频应用层出不穷，目标对象可以从各类视频应用中获取视频内容，也可以通过视频应用上传和分享视频内容。由于视频内容库对应的视频来源众多，导致视频内容库中往往存在大量重复的视频内容。在视频推荐场景下容易向用户推荐重复的视频内容，从而影响视频推荐效果。
[0003]相关技术在判别一个视频的相似视频时，采用哈希算法(比如均值哈希算法AHash)将视频帧进行哈希转化，生成一组二进制数字作为视频帧的视觉特征。然而，在对视频帧进行裁剪、缩放等情况下，采用上述方法提取的视觉特征差异较大，故基于视频帧的特征进行视频相似性判别时，容易将相似视频错误地判定为不相似的视频，从而导致相似视频检测的准确性较低。

技术实现思路

[0004]本申请实施例提供了一种视觉模型训练和视频处理方法、装置、设备及存储介质，用于提高检测相

【技术保护点】

【技术特征摘要】
1.一种视觉模型训练方法，其特征在于，包括：获取样本数据，其中，所述样本数据包括多个不同样本视频各自对应的样本视频帧集合；基于所述样本数据对待训练的视觉模型进行至少一次迭代预训练，输出预训练后的视觉模型，其中，在每次迭代预训练中，基于选取的样本视频帧集合中各个样本视频帧各自对应的正样本视觉特征，以及历史迭代预训练中使用的其他样本视频帧各自对应的负样本视觉特征，获得相应的第一损失函数，并采用所述第一损失函数对所述待训练的视觉模型进行参数调整；基于所述样本数据对预训练后的视觉模型进行至少一次迭代微调训练，输出已训练的目标视觉模型，其中，在每次迭代微调训练中，基于选取的样本视频帧集合中各个样本视频帧各自对应的预测视频类别，获得相应的第二损失函数，并采用所述第二损失函数对所述预训练后的视觉模型进行参数调整。2.如权利要求1所述的方法，其特征在于，所述各个样本视频帧包括至少一个第一样本视频帧和至少一个第二样本视频帧；所述基于选取的样本视频帧集合中各个样本视频帧各自对应的正样本视觉特征，以及历史迭代预训练中使用的其他样本视频帧各自对应的负样本视觉特征，获得相应的第一损失函数之前，还包括：采用所述待训练的视觉模型对所述至少一个第一样本视频帧进行特征提取，获得所述至少一个第一样本视频帧各自对应的第一正样本视觉特征；采用参考视觉模型分别对所述至少一个第二样本视频帧进行特征提取，分别获得所述至少一个第二样本视频帧各自对应的第二正样本视觉特征。3.如权利要求2所述的方法，其特征在于，所述采用所述第一损失函数对所述待训练的视觉模型进行参数调整，包括：基于所述至少一个第一样本视频帧各自对应的第一正样本视觉特征，分别确定所述至少一个第一样本视频帧各自对应的预测画布区域；基于所述至少一个第一样本视频帧各自对应的预测画布区域和所述至少一个第一样本视频帧各自对应的基准画布区域，确定第三损失函数；采用所述第一损失函数和所述第三损失函数，对所述待训练的视觉模型进行参数值调整。4.如权利要求2或3所述的方法，其特征在于，在每次迭代预训练中，还包括：基于参数调整后的所述待训练的视觉模型，对所述参考视觉模型进行参数值调整。5.如权利要求1所述的方法，其特征在于，所述基于选取的样本视频帧集合中各个样本视频帧各自对应的预测视频类别，获得相应的第二损失函数之前，包括：采用所述预训练后的视觉模型，分别对所述各个样本视频帧进行特征提取，获得所述各个样本视频帧各自对应的目标样本视觉特征；基于获得的目标样本视觉特征，分别预测所述各个样本视频帧各自对应的预测视频类别。6.如权利要求5所述的方法，其特征在于，所述采用所述第二损失函数对所述预训练后的视觉模型进行参数调整，包括：
基于所述各个样本视频帧各自对应的目标样本视觉特征，确定所述各个样本视频帧分别对应的预测画布区域；基于所述各个样本视频帧分别对应的预测画布区域，以及所述各个样本视频帧分别对应的基准画布区域，确定第四损失函数；采用所述第二损失函数和所述第四损失函数，对所述预训练后的视觉模型进行参数值调整。7.如权利要求1所述的方法，其特征在于，所述获取样本数据，包括：获取多个样本视频，并从每个样本视频中获取多个样本视频帧；基于所述多个样本视频各自对应的样本视频帧，分别确定所述多个样本视频各自对应的视频特征；基于所述多个样本视频各自对应的视频特征，对所述多个样本视频去重，并将保留的样本视频对应的样本视频帧集合作为样本数据。8.如权利要求7所述的方法，其特征在于，所述基于所述多个样本视频分别对应的样本视频帧，分别确定所述多个样本视频各自对应的视频特征，包括：针对所述多个样本视频中的各个样本视频，分别执行以下步骤：对一个样本视频中的多个样本视频帧按照时间顺序进行排列，并确定相邻两个样本视频帧之间的第一相似度；将所述第一相似度大于第一阈值的两个样本视频帧划分为同一视频片段中的视频帧，获得至少一个视频片段；将所述至少一个视频片段中，包含最多样本视频帧的视频片段，作为目标视频片段，并将所述目标视频片段中多个样本视频帧的平均视觉特征，作为所述一个样本视频的视频特征。9....

【专利技术属性】
技术研发人员：李明达，郑镇鑫，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人