【技术实现步骤摘要】
视频识别模型训练方法与装置、视频识别方法与装置
[0001]本公开涉及人工智能领域,具体地,涉及视频识别
,更具体地,涉及一种视频识别模型训练方法、一种视频识别方法、一种视频识别模型训练装置和一种视频识别装置。
技术介绍
[0002]随着互联网的普及,人们习惯于从互联网上获取信息,其中,视频是互联网中信息的重要载体。然而,随着人工智能技术的发展,互联网上开始出现大量虚假视频,例如,通过换脸操作改变视频中人物的身份而得到的虚假视频,或者通过修改视频的音频而得到的虚假视频等。互联网上的大量虚假视频严重威胁着互联网环境安全。
[0003]在实现本公开构思的过程中专利技术人发现,相关技术中的视频识别方法使用的音频特征和视频特征的关联性不强,识别精度较低。
技术实现思路
[0004]有鉴于此,本公开提供了一种视频识别模型训练方法、一种视频识别方法、一种视频识别模型训练装置和一种视频识别装置。
[0005]本公开的一个方面提供了一种视频识别模型训练方法,包括:从第一视频样本中提取第一预设时长的视频样 ...
【技术保护点】
【技术特征摘要】
1.一种视频识别模型训练方法,包括:从第一视频样本中提取第一预设时长的视频样本的音频信息和图像信息,以得到第一音频样本和多帧第一图像样本,其中,所述第一视频样本具有分类标签;基于预设预处理方法分别对多帧所述第一图像样本进行预处理,得到多帧第二图像样本;将多帧所述第二图像样本输入初始模型中的图像特征提取网络中,得到多个第一图像特征向量;将所述第一音频样本输入所述初始模型中的音频特征提取网络中,得到多个第一音频特征向量,其中,所述第一音频特征向量和所述第一图像特征向量的数量和维度均相同;对多个所述第一音频特征向量和多个所述第一图像特征向量进行相似性分析,得到相似性分析结果;以及基于所述相似性分析结果和所述第一视频样本的分类标签来计算第一损失值,以训练所述音频特征提取网络和所述图像特征提取网络。2.根据权利要求1所述的方法,还包括:使用第二视频样本对初始音频特征提取网络进行预训练,以得到所述音频特征提取网络;以及使用第三视频样本对初始图像特征提取网络进行预训练,以得到所述图像特征提取网络。3.根据权利要求2所述的方法,其中,所述使用第二视频样本对初始音频特征提取网络进行预训练,包括:从所述第二视频样本中获取第二音频样本,其中,所述第二音频样本具有第一文本标签;将所述第二音频样本输入所述初始音频特征提取网络中,得到多个第二音频特征向量;将多个所述第二音频特征向量输入第一时序网络中,输出得到第一文本信息;以及基于所述第一文本标签和所述第一文本信息来计算第二损失值,以训练所述初始音频特征提取网络和所述第一时序网络。4.根据权利要求2所述的方法,其中,所述使用第三视频样本对初始图像特征提取网络进行预训练,包括:从所述第三视频样本中获取多帧第三图像样本,其中,所述多帧第三图像样本具有第二文本标签;基于所述预设预处理方法分别对多帧所述第三图像样本进行预处理,得到多帧第四图像样本;将多帧所述第四图像样本输入所述初始图像特征提取网络中,得到多个第二图像特征向量;将多个所述第二图像特征向量输入第二时序网络中,输出得到第二文本信息;以及基于所述第二文本标签和所述第二文本信息来计算第三损失值,以训练所述初始图像特征提取网络和所述第二时序网络。5.根据权利要求1所述的方法,其中,所述对多个所述第一音频特征向量和多个所述第
一图像特征向量进行相似性分析,得到相似性分析结果,包括:将多个所述第一音频特征向量和多个所述第一图像特征向量分为多组特征向量,其中,每一组所述特征向量包括一个所述第一音频特征向量和一个所述第一图像特征向量;分别对每一组所述特征向量中所述第一音频特征向量和所述第一图像特征向量进行相似性分析,得到多个中间分析结果;以及计算所述多个中间分析结果的均值,得到所述相似性分析结果。6.根据权利要求1~5中任一项所述的方法,其中,所述预设预处理方法包括:确定所述第一图像样本或第三图像样本的目标区域...
【专利技术属性】
技术研发人员:于灵云,方鸣骐,谢洪涛,张勇东,
申请(专利权)人:合肥综合性国家科学中心人工智能研究院安徽省人工智能实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。