神经网络训练方法、装置及电子设备制造方法及图纸

技术编号:26342667 阅读:14 留言:0更新日期:2020-11-13 20:36
本申请属于人工智能技术领域,具体涉及一种神经网络训练方法、神经网络训练装置、计算机可读介质以及电子设备。该方法包括:从视频样本中按照视频时间顺序采样得到至少两个样本片段;调整所述至少两个样本片段的排列顺序,并获取调整后的片段顺序信息;通过对应于不同模态类型的神经网络对所述样本片段进行特征提取,以得到所述样本片段的至少两个模态特征;根据各个所述模态特征的特征相似度以及所述片段顺序信息对所述神经网络进行训练,以更新所述神经网络的网络参数。该方法无需对视频数据进行人工标注,降低了数据处理成本并提高了数据处理效率。

Neural network training method, device and electronic equipment

【技术实现步骤摘要】
神经网络训练方法、装置及电子设备
本申请属于人工智能
,具体涉及一种神经网络训练方法、神经网络训练装置、计算机可读介质以及电子设备。
技术介绍
随着计算机和网络技术的发展,通过手机、电脑等各种计算机设备制作、传播或观看网络视频已经成为人们日常生活中十分常见的一种娱乐活动。针对网络平台上存储和传播的海量视频数据,为了向用户提供准确高效的视频搜索和视频推荐等服务内容,通常需要对视频数据进行分类处理,另外还可以根据视频分类结果为视频添加各种类型标签,如“体育”、“影视”、“综艺”、“搞笑”等等。随着深度学习技术的不断进步和计算机算力的不断提升,视频分类技术取得了巨大的进展,传统的视频分类技术依赖于大量的人工标记数据,不仅需要较高的人工成本,而且人工效率较低,难以满足日益增长的视频业务需求。特别是在一些流媒体平台上,用户每天上传的视频数据都是海量的,对这些视频数据进行人工标记是不切实际的。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本申请的目的在于提供一种神经网络训练方法、神经网络训练装置、计算机可读介质以及电子设备,至少在一定程度上克服视频数据处理等相关技术中存在的数据处理成本高、效率低等技术问题。本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。根据本申请实施例的一个方面,提供一种神经网络训练方法,该方法包括:从视频样本中按照视频时间顺序采样得到至少两个样本片段;调整所述至少两个样本片段的排列顺序,并获取调整后的片段顺序信息;通过对应于不同模态类型的神经网络对所述样本片段进行特征提取,以得到所述样本片段的至少两个模态特征;根据各个所述模态特征的特征相似度以及所述片段顺序信息对所述神经网络进行训练,以更新所述神经网络的网络参数。根据本申请实施例的一个方面,提供一种神经网络训练装置,该装置包括:视频采样模块,被配置为从视频样本中按照视频时间顺序采样得到至少两个样本片段;顺序调整模块,被配置为调整所述至少两个样本片段的排列顺序,并获取调整后的片段顺序信息;特征提取模块,被配置为通过对应于不同模态类型的神经网络对所述样本片段进行特征提取,以得到所述样本片段的至少两个模态特征;参数更新模块,被配置为根据各个所述模态特征的特征相似度以及所述片段顺序信息对所述神经网络进行训练,以更新所述神经网络的网络参数。在本申请的一些实施例中,基于以上技术方案,所述视频采样模块包括:第一提取单元,被配置为对视频样本进行多模态信息提取,得到对应于不同模态类型的模态信息样本;第一采样单元,被配置为按照视频时间顺序分别对各个所述模态信息样本进行同步采样,以得到对应于不同模态类型的至少两个样本片段。在本申请的一些实施例中,基于以上技术方案,所述视频采样模块包括:第二采样单元,被配置为按照视频时间顺序对视频样本进行采样以得到至少两个视频片段;第二提取单元,被配置为对所述视频片段进行多模态信息提取,得到对应于不同模态类型的至少两个样本片段。在本申请的一些实施例中,基于以上技术方案,所述样本片段的采样间隔大于或等于所述样本片段的采样长度。在本申请的一些实施例中,基于以上技术方案,所述模态类型包括图像模态、音频模态和文本模态中的至少两种;所述特征提取模块包括:图像特征提取单元,被配置为若所述样本片段包括对应于所述图像模态的图像样本,则通过图像处理神经网络对所述图像样本进行特征提取,以得到所述样本片段的图像特征;音频特征提取单元,被配置为若所述样本片段包括对应于所述音频模态的音频样本,则通过音频处理神经网络对所述音频样本进行特征提取,以得到所述样本片段的音频特征;文本特征提取单元,被配置为若所述样本片段包括对应于所述文本模态的文本样本,则通过文本处理神经网络对所述文本样本进行特征提取以得到所述样本片段的文本特征。在本申请的一些实施例中,基于以上技术方案,所述图像处理神经网络包括多个依次连接的三维卷积处理单元,所述三维卷积处理单元包括依次连接的二维空间卷积层和一维时间卷积层;所述图像特征提取单元包括:二维空间卷积子单元,被配置为通过所述二维空间卷积层对所述图像样本进行卷积处理,得到携带空间特征的中间特征图;一维时间卷积子单元,被配置为通过所述一维时间卷积层对所述中间特征图进行卷积处理,得到携带所述空间特征以及时间特征的所述样本片段的图像特征。在本申请的一些实施例中,基于以上技术方案,所述音频处理神经网络包括多个依次连接的二维卷积处理单元,所述音频特征提取单元包括:音频滤波子单元,被配置为对所述音频样本进行滤波处理,以得到二维的梅尔频谱图;对数运算子单元,被配置为对所述梅尔频谱图进行对数运算以得到用于量化声音强度的二维频谱信息;二维卷积子单元,被配置为通过所述二维卷积处理单元对所述二维频谱信息进行卷积处理,得到所述样本片段的音频特征。在本申请的一些实施例中,基于以上技术方案,所述二维卷积处理单元包括残差连接分支和卷积连接分支;所述二维卷积子单元包括:残差映射子单元,被配置为通过所述残差连接分支对所述二维频谱信息进行映射处理以得到残差映射信息;卷积映射子单元,被配置为通过所述卷积连接分支对所述二维频谱信息进行卷积处理以得到音频卷积信息;映射叠加子单元,被配置为对所述残差映射信息和所述音频卷积信息进行叠加得到所述样本片段的音频特征。在本申请的一些实施例中,基于以上技术方案,所述参数更新模块包括:对比误差确定单元,被配置为分别获取各个所述模态特征之间的特征相似度,并根据所述特征相似度确定所述模态特征的对比误差信息;顺序误差确定单元,被配置为对所述模态特征进行映射处理得到顺序预测信息,并根据所述片段顺序信息和所述顺序预测信息确定所述样本片段的顺序误差信息;误差叠加单元,被配置为对所述对比误差信息和所述顺序误差信息进行叠加处理得到整体损失误差,并根据所述整体损失误差更新所述神经网络的网络参数。在本申请的一些实施例中,基于以上技术方案,所述对比误差确定单元包括:正负样本确定子单元,被配置为将对应于同一样本片段的模态特征作为正样本,并将对应于不同样本片段的模态特征作为负样本;对比误差计算子单元,被配置为通过对比损失函数对所述正样本以及所述负样本的特征相似度进行误差计算以得到所述模态特征的对比误差信息。在本申请的一些实施例中,基于以上技术方案,所述顺序误差确定单元包括:特征选取子单元,被配置为分别从对应于每个样本片段的各个模态特征中随机选取得到对应于所述样本片段的样本特征;局部拼接子单元,被配置为将对应于各个样本片段的所述样本特征分别进行两两拼接处理以得到局部拼接特征;局部映射子单元,被配置为本文档来自技高网...

【技术保护点】
1.一种神经网络训练方法,其特征在于,包括:/n从视频样本中按照视频时间顺序采样得到至少两个样本片段;/n调整所述至少两个样本片段的排列顺序,并获取调整后的片段顺序信息;/n通过对应于不同模态类型的神经网络对所述样本片段进行特征提取,以得到所述样本片段的至少两个模态特征;/n根据各个所述模态特征的特征相似度以及所述片段顺序信息对所述神经网络进行训练,以更新所述神经网络的网络参数。/n

【技术特征摘要】
1.一种神经网络训练方法,其特征在于,包括:
从视频样本中按照视频时间顺序采样得到至少两个样本片段;
调整所述至少两个样本片段的排列顺序,并获取调整后的片段顺序信息;
通过对应于不同模态类型的神经网络对所述样本片段进行特征提取,以得到所述样本片段的至少两个模态特征;
根据各个所述模态特征的特征相似度以及所述片段顺序信息对所述神经网络进行训练,以更新所述神经网络的网络参数。


2.根据权利要求1所述的神经网络训练方法,其特征在于,所述从视频样本中按照视频时间顺序采样得到至少两个样本片段,包括:
对视频样本进行多模态信息提取,得到对应于不同模态类型的模态信息样本;
按照视频时间顺序分别对各个所述模态信息样本进行同步采样,以得到对应于不同模态类型的至少两个样本片段。


3.根据权利要求1所述的神经网络训练方法,其特征在于,所述从视频样本中按照视频时间顺序采样得到至少两个样本片段,包括:
按照视频时间顺序对视频样本进行采样以得到至少两个视频片段;
对所述视频片段进行多模态信息提取,得到对应于不同模态类型的至少两个样本片段。


4.根据权利要求1所述的神经网络训练方法,其特征在于,所述样本片段的采样间隔大于或等于所述样本片段的采样长度。


5.根据权利要求1所述的神经网络训练方法,其特征在于,所述模态类型包括图像模态、音频模态和文本模态中的至少两种;所述通过对应于不同模态类型的神经网络对所述样本片段进行特征提取,以得到所述样本片段的至少两个模态特征,包括:
若所述样本片段包括对应于所述图像模态的图像样本,则通过图像处理神经网络对所述图像样本进行特征提取,以得到所述样本片段的图像特征;
若所述样本片段包括对应于所述音频模态的音频样本,则通过音频处理神经网络对所述音频样本进行特征提取,以得到所述样本片段的音频特征;
若所述样本片段包括对应于所述文本模态的文本样本,则通过文本处理神经网络对所述文本样本进行特征提取以得到所述样本片段的文本特征。


6.根据权利要求5所述的神经网络训练方法,其特征在于,所述图像处理神经网络包括多个依次连接的三维卷积处理单元,所述三维卷积处理单元包括依次连接的二维空间卷积层和一维时间卷积层;所述通过图像处理神经网络对所述图像样本进行特征提取,以得到所述样本片段的图像特征,包括:
通过所述二维空间卷积层对所述图像样本进行卷积处理,得到携带空间特征的中间特征图;
通过所述一维时间卷积层对所述中间特征图进行卷积处理,得到携带所述空间特征以及时间特征的所述样本片段的图像特征。


7.根据权利要求5所述的神经网络训练方法,其特征在于,所述音频处理神经网络包括多个依次连接的二维卷积处理单元,所述通过音频处理神经网络对所述音频样本进行特征提取,以得到所述样本片段的音频特征,包括:
对所述音频样本进行滤波处理,以得到二维的梅尔频谱图;
对所述梅尔频谱图进行对数运算以得到用于量化声音强度的二维频谱信息;
通过所述二维卷积处理单元对所述二维频谱信息进行卷积处理,得到所述样本片段的音频特征。


8.根据权利要求7所述的神经网络训练方法,其特征在于,所述二维卷积处理单元包括残差连接分支和卷积连接分支;所述通过所述二维卷积处理单元对所述二维频谱信息进行卷积处理,得到所述样本片段的音频特征,包括:
通过所述残差连接分支对所述二维频...

【专利技术属性】
技术研发人员:徐世坚杨田雨姜文浩刘威
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1