一种神经网络训练方法、视频帧处理方法以及相关设备技术

技术编号:24855529 阅读:48 留言:0更新日期:2020-07-10 19:08
本申请实施例公开一种神经网络训练方法、视频帧处理方法以及相关设备,该方法可用于人工智能的图像处理领域中。方法可以包括:将至少两组输入视频帧分别输入学生网络和教师网络,得到学生网络输出的至少两个第一输出结果和教师网络输出的至少两个第二输出结果,根据至少两个第一输出结果,获取第一输出结果之间的第一相似度,根据至少两个第二输出结果,获取第二输出结果之间的第二相似度,通过指示第一相似度与第二相似度之间的相似度的第一损失函数对学生网络进行训练,直至满足收敛条件,得到执行过训练操作的学生网络,在训练阶段使执行训练操作过程中学生网络的帧间稳定性向教师网络的帧间稳定性靠拢,以提升学生网络的帧间稳定性。

【技术实现步骤摘要】
一种神经网络训练方法、视频帧处理方法以及相关设备
本申请涉及人工智能领域,尤其涉及一种神经网络训练方法、视频帧处理方法以及相关设备。
技术介绍
人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。利用人工智能进行视频分析是人工智能常见的一个应用方式。视频分析算法(videoanalyzingalgorithms)是对视频内容进行解析的一系列算法,包含视频目标检测、视频语义分割等算法。帧间稳定性指的是视频分析算法在对视频中不同的视频帧进行处理时得到的输出结果之间的稳定性和连续性,帧间稳定性直接影响到实际应用的稳定性和流畅度体验。然而目前的视频分析算法的帧间稳定性较差。r>因此,一种提升视本文档来自技高网...

【技术保护点】
1.一种神经网络训练方法,其特征在于,所述方法包括:/n将至少两组输入视频帧输入学生网络,并获取所述学生网络输出的至少两个第一输出结果,其中,所述至少两组输入视频帧中每组输入视频帧包括至少一个输入视频帧,所述至少两组输入视频帧包括于同一视频,每个所述至少两个第一输出结果分别对应于所述至少两组输入视频帧中的一组输入视频帧的输出结果;/n将所述至少两组输入视频帧输入教师网络,并获取所述教师网络输出的至少两个第二输出结果,每个所述至少两个第二输出结果分别对应于所述至少两组输入视频帧中的一组输入视频帧的输出结果,所述教师网络和所述学生网络均为神经网络模型;/n根据所述至少两个第一输出结果,获取第一相似...

【技术特征摘要】
1.一种神经网络训练方法,其特征在于,所述方法包括:
将至少两组输入视频帧输入学生网络,并获取所述学生网络输出的至少两个第一输出结果,其中,所述至少两组输入视频帧中每组输入视频帧包括至少一个输入视频帧,所述至少两组输入视频帧包括于同一视频,每个所述至少两个第一输出结果分别对应于所述至少两组输入视频帧中的一组输入视频帧的输出结果;
将所述至少两组输入视频帧输入教师网络,并获取所述教师网络输出的至少两个第二输出结果,每个所述至少两个第二输出结果分别对应于所述至少两组输入视频帧中的一组输入视频帧的输出结果,所述教师网络和所述学生网络均为神经网络模型;
根据所述至少两个第一输出结果,获取第一相似度,所述第一相似度用于指示所述第一输出结果之间的相似度;
根据所述至少两个第二输出结果,获取第二相似度,所述第二相似度用于指示所述第二输出结果之间的相似度;
通过第一损失函数对所述学生网络进行训练,直至满足收敛条件,得到执行过训练操作的所述学生网络,所述第一损失函数根据所述第一相似度与所述第二相似度之间的相似度获得。


2.根据权利要求1所述的方法,其特征在于,所述将至少两组输入视频帧输入学生网络,并获取所述学生网络输出的至少两个第一输出结果,包括:
将至少三组输入视频帧输入所述学生网络,并获取所述学生网络输出的至少三个第一输出结果;
所述将所述至少两组输入视频帧输入教师网络,并获取所述教师网络输出的至少两个第二输出结果,包括:
将所述至少三组输入视频帧输入所述教师网络,并获取所述教师网络输出的至少三个第二输出结果;
获取所述学生网络输出的至少两个第一输出结果,具体为,获取至少三个第一输出结果,所述获取所述教师网络输出的至少两个第二输出结果,具体为,获取至少三个第二输出结果;
所述通过第一损失函数对所述学生网络进行训练,直至满足收敛条件,得到执行过训练操作的所述学生网络之前,所述方法还包括:
获取所述至少三个第一输出结果的第一变化趋势,以及获取所述至少三个第二输出结果的第二变化趋势;
所述通过第一损失函数对所述学生网络进行训练,直至满足收敛条件,得到执行过训练操作的所述学生网络,包括:
通过所述第一损失函数和第二损失函数对所述学生网络进行训练,直至满足收敛条件,得到执行过训练操作的所述学生网络,所述第二损失函数根据所述第一变化趋势和所述第二变化趋势之间的相似度获得。


3.根据权利要求2所述的方法,其特征在于,所述获取所述至少两个第一输出结果之间的第一相似度,并获取所述至少两个第二输出结果之间的第二相似度,包括:
从所述至少三个第一输出结果中选取两个第一输出结果,并生成所述两个第一输出结果之间的所述第一相似度;
从所述至少三个第二输出结果中选取两个第二输出结果,并生成所述两个第二输出结果之间的所述第二相似度。


4.根据权利要求1至3中任一项所述的方法,其特征在于,所述至少两组输入视频帧包括所述输入视频帧为至少三组,所述将至少两组输入视频帧输入学生网络之后,所述方法还包括:
获取所述学生网络在进行视频帧处理过程中生成的至少三组第一特征图,其中,所述至少三组第一特征图中的每组第一特征图分别对应于所述至少三组输入视频帧中的一组输入视频帧的视频帧特征提取结果;
所述将所述至少两组输入视频帧输入教师网络之后,所述方法还包括:
获取所述教师网络在进行视频帧处理过程中生成的至少三组第二特征图,其中,所述至少三组第二特征图中的每组第二特征图分别对应于所述至少三组输入视频帧中的一组输入视频帧的视频帧特征提取结果;
所述通过第一损失函数对所述学生网络进行训练,直至满足收敛条件,得到执行过训练操作的所述学生网络之前,所述方法还包括:
获取所述至少三组第一特征图的第三变化趋势,以及获取所述至少三组第二特征图的第四变化趋势;
所述通过第一损失函数对所述学生网络进行训练,直至满足收敛条件,得到执行过训练操作的所述学生网络,包括:
通过所述第一损失函数和第三损失函数对所述学生网络进行训练,直至满足收敛条件,得到执行过训练操作的所述学生网络,所述第三损失函数根据所述第三变化趋势和所述第四变化趋势之间的相似度获取。


5.根据权利要求4所述的方法,其特征在于,所述获取所述至少三组第一特征图的第三变化趋势,以及获取所述至少三组第二特征图的第四变化趋势,包括:
对所述第一特征图进行维度变换,并对所述第二特征图进行维度变换,其中,执行过维度变换操作的所述第一特征图与执行过维度变换操作的所述第二特征图的维度数一致;
通过神经网络对执行过维度变换操作的所述第一特征图进行向量化编码,得到所述第三变化趋势;
通过神经网络对执行过维度变换操作的所述第二特征图进行向量化编码,得到所述第四变化趋势。


6.根据权利要求1至3中任一项所述的方法,其特征在于,所述将至少两组输入视频帧输入学生网络之后,所述方法还包括:
获取所述学生网络在进行视频帧处理过程中生成的至少两组第一特征图,其中,所述至少两组第一特征图中的每组第一特征图分别对应于所述至少两组输入视频帧中的一组输入视频帧的视频帧特征提取结果;
所述将所述至少两组输入视频帧输入教师网络之后,所述方法还包括:
获取所述教师网络在进行视频帧处理过程中生成的至少两组第二特征图,其中,所述至少两组第二特征图中的每组第二特征图分别对应于所述至少两组输入视频帧中的一组输入视频帧的视频帧特征提取结果;
所述通过第一损失函数对所述学生网络进行训练,直至满足收敛条件,得到执行过训练操作的所述学生网络之前,所述方法还包括:
根据所述至少两组第一特征图,获取第三相似度,所述第三相似度用于指示所述第一特征图之间的相似度;
根据所述至少两组第二特征图,获取第四相似度,所述第四相似度用于指示所述第二特征图之间的相似度;
所述通过第一损失函数对所述学生网络进行训练,直至满足收敛条件,得到执行过训练操作的所述学生网络,包括:
通过所述第一损失函数和第四损失函数对所述学生网络进行训练,直至满足收敛条件,得到执行过训练操作的所述学生网络,所述第四损失函数根据所述第三相似度与所述第四相似度之间的相似度获得。


7.根据权利要求1至3中任一项所述的方法,其特征在于,所述至少两组输入视频帧中包括至少两个输入视频帧,所述至少两个输入视频帧中包括第一输入视频帧和第二输入视频帧,所述第一输入视频帧和所述第二输入视频帧为所述至少两组输入视频帧中相邻的两个输入视频帧,所述第一输入视频帧与所述第二输入视频帧为所述视频中不相邻的两个视频帧。


8.根据权利要求1至3中任一项所述的方法,其特征在于,所述学生网络和所述教师网络均为分割网络、检测网络、光流网络、超分网络或特征提取网络。


9.一种视频帧处理装置,其特征在于,所述装置包括:
输入模块,用于将至少两组输入视频帧输入学生网络,并获取所述学生网络输出的至少两个第一输出结果,其中,所述至少两组输入视频帧中每组输入视频帧包括至少一个输入视频帧,所述至少两组输入视频帧包括于同一视频,每个所述至少两个第一输出结果分别对应于所述至少两组输入视频帧中的一组输入视频帧的输出结果;
所述输入模块,还用于将所述至少两组输入视频帧输入教师网络,并获取所述教师网络输出的至少两个第二输出结果,每个所述至少两个第二输出结果分别对应于所述至少两组输入视频帧中的一组输入视频帧的输出结果,所述教师网络和所述学生网络均为神经网络模型;
获取模块,用于根据所述至少两个第一输出结果,获取第一相似度,所述第一相似度用于指示所述第一输出结果之间的相似度;
所述获取模块,还用于根据所述至少两个第二输出结果,获取第二相似度,所述第二相似度用于指示所述第二输出结果之间的相似度;...

【专利技术属性】
技术研发人员:刘伊凡沈春华许松岑周一韧
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1