神经网络训练方法、装置及电子设备制造方法及图纸

技术编号：26342667 阅读：14 留言：0更新日期：2020-11-13 20:36

本申请属于人工智能技术领域，具体涉及一种神经网络训练方法、神经网络训练装置、计算机可读介质以及电子设备。该方法包括：从视频样本中按照视频时间顺序采样得到至少两个样本片段；调整所述至少两个样本片段的排列顺序，并获取调整后的片段顺序信息；通过对应于不同模态类型的神经网络对所述样本片段进行特征提取，以得到所述样本片段的至少两个模态特征；根据各个所述模态特征的特征相似度以及所述片段顺序信息对所述神经网络进行训练，以更新所述神经网络的网络参数。该方法无需对视频数据进行人工标注，降低了数据处理成本并提高了数据处理效率。

Neural network training method, device and electronic equipment

全部详细技术资料下载

【技术实现步骤摘要】
神经网络训练方法、装置及电子设备
本申请属于人工智能
，具体涉及一种神经网络训练方法、神经网络训练装置、计算机可读介质以及电子设备。
技术介绍
随着计算机和网络技术的发展，通过手机、电脑等各种计算机设备制作、传播或观看网络视频已经成为人们日常生活中十分常见的一种娱乐活动。针对网络平台上存储和传播的海量视频数据，为了向用户提供准确高效的视频搜索和视频推荐等服务内容，通常需要对视频数据进行分类处理，另外还可以根据视频分类结果为视频添加各种类型标签，如“体育”、“影视”、“综艺”、“搞笑”等等。随着深度学习技术的不断进步和计算机算力的不断提升，视频分类技术取得了巨大的进展，传统的视频分类技术依赖于大量的人工标记数据，不仅需要较高的人工成本，而且人工效率较低，难以满足日益增长的视频业务需求。特别是在一些流媒体平台上，用户每天上传的视频数据都是海量的，对这些视频数据进行人工标记是不切实际的。需要说明的是，在上述
技术介绍
部分公开的信息仅用于加强对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本申请的目的在于提供一种神经网络训练方法、神经网络训练装置、计算机可读介质以及电子设备，至少在一定程度上克服视频数据处理等相关技术中存在的数据处理成本高、效率低等技术问题。本申请的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本申请的实践而习得。根据本申请实施例的一个方面，提供一种神经网络训练方法，该方法包括：从视频样...

【技术保护点】
1.一种神经网络训练方法，其特征在于，包括：/n从视频样本中按照视频时间顺序采样得到至少两个样本片段；/n调整所述至少两个样本片段的排列顺序，并获取调整后的片段顺序信息；/n通过对应于不同模态类型的神经网络对所述样本片段进行特征提取，以得到所述样本片段的至少两个模态特征；/n根据各个所述模态特征的特征相似度以及所述片段顺序信息对所述神经网络进行训练，以更新所述神经网络的网络参数。/n

【技术特征摘要】
1.一种神经网络训练方法，其特征在于，包括：
从视频样本中按照视频时间顺序采样得到至少两个样本片段；
调整所述至少两个样本片段的排列顺序，并获取调整后的片段顺序信息；
通过对应于不同模态类型的神经网络对所述样本片段进行特征提取，以得到所述样本片段的至少两个模态特征；
根据各个所述模态特征的特征相似度以及所述片段顺序信息对所述神经网络进行训练，以更新所述神经网络的网络参数。

2.根据权利要求1所述的神经网络训练方法，其特征在于，所述从视频样本中按照视频时间顺序采样得到至少两个样本片段，包括：
对视频样本进行多模态信息提取，得到对应于不同模态类型的模态信息样本；
按照视频时间顺序分别对各个所述模态信息样本进行同步采样，以得到对应于不同模态类型的至少两个样本片段。

3.根据权利要求1所述的神经网络训练方法，其特征在于，所述从视频样本中按照视频时间顺序采样得到至少两个样本片段，包括：
按照视频时间顺序对视频样本进行采样以得到至少两个视频片段；
对所述视频片段进行多模态信息提取，得到对应于不同模态类型的至少两个样本片段。

4.根据权利要求1所述的神经网络训练方法，其特征在于，所述样本片段的采样间隔大于或等于所述样本片段的采样长度。

5.根据权利要求1所述的神经网络训练方法，其特征在于，所述模态类型包括图像模态、音频模态和文本模态中的至少两种；所述通过对应于不同模态类型的神经网络对所述样本片段进行特征提取，以得到所述样本片段的至少两个模态特征，包括：
若所述样本片段包括对应于所述图像模态的图像样本，则通过图像处理神经网络对所述图像样本进行特征提取，以得到所述样本片段的图像特征；
若所述样本片段包括对应于所述音频模态的音频样本，则通过音频处理神经网络对所述音频样本进行特征提取，以得到所述样本片段的音频特征；
若所述样本片段包括对应于所述文本模态的文本样本，则通过文本处理神经网络对所述文本样本进行特征提取以得到所述样本片段的文本特征。

6.根据权利要求5所述的神经网络训练方法，其特征在于，所述图像处理神经网络包括多个依次连接的三维卷积处理单元，所述三维卷积处理单元包括依次连接的二维空间卷积层和一维时间卷积层；所述通过图像处理神经网络对所述图像样本进行特征提取，以得到所述样本片段的图像特征，包括：
通过所述二维空间卷积层对所述图像样本进行卷积处理，得到携带空间特征的中间特征图；
通过所述一维时间卷积层对所述中间特征图进行卷积处理，得到携带所述空间特征以及时间特征的所述样本片段的图像特征。

7.根据权利要求5所述的神经网络训练方法，其特征在于，所述音频处理神经网络包括多个依次连接的二维卷积处理单元，所述通过音频处理神经网络对所述音频样本进行特征提取，以得到所述样本片段的音频特征，包括：
对所述音频样本进行滤波处理，以得到二维的梅尔频谱图；
对所述梅尔频谱图进行对数运算以得到用于量化声音强度的二维频谱信息；
通过所述二维卷积处理单元对所述二维频谱信息进行卷积处理，得到所述样本片段的音频特征。

8.根据权利要求7所述的神经网络训练方法，其特征在于，所述二维卷积处理单元包括残差连接分支和卷积连接分支；所述通过所述二维卷积处理单元对所述二维频谱信息进行卷积处理，得到所述样本片段的音频特征，包括：
通过所述残差连接分支对所述二维频...

【专利技术属性】
技术研发人员：徐世坚，杨田雨，姜文浩，刘威，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人