【技术实现步骤摘要】
一种神经网络的训练方法以及相关装置
[0001]本申请涉及人工智能
,尤其涉及一种神经网络的训练方法以及相关装置。
技术介绍
[0002]随着互联网的发展,各种图文信息的发布量以指数级速度增长,这些图文信息的来源渠道和质量层次不齐。因此,在图文信息分发至用户前,对具体的内容进行人工审核和标记,将存在质量问题的图片过滤处理。
[0003]目前采用的方法是通过机器学习辅助算法对内容进行识别,通常神经网络模型的迭代过程如下:需求确定、数据采集、模型训练、模型测试与上线。由于图文信息的种类非常广泛,因此,模型训练时为了保证模型的训练精度,需要使用种类分布广泛的训练数据。
[0004]对这些训练数据的标签信息,目前需要人工标记。大量的训练数据导致模型的训练成本较高,进而导致模型的训练效率较低。
技术实现思路
[0005]本申请实施例提供了一种神经网络的训练方法以及相关装置。预训练数据包括多张图片以及多张图片的标签信息,由于该图片的标签信息为该图片来源天然具有的属性信息,具有容易获取的特点。因此,可 ...
【技术保护点】
【技术特征摘要】
1.一种神经网络的训练方法,其特征在于,包括:获取预训练数据,所述预训练数据包括多张图片和所述多张图片对应的标签信息,所述多张图片包括以下一项或多项:视频文件中的抽帧图,其中,所述抽帧图对应的标签信息为所述视频文件的标签信息,或者,图文信息的图片,其中,所述图文信息的图片对应的标签信息为所述图文信息的标题或者摘要信息,或者,基于目标标签信息搜索得到的公共图片,其中,将所述目标标签信息作为所述公共图片对应的标签信息;根据所述预训练数据对预训练模型进行自监督训练,得到图片神经网络,其中,所述图片神经网络用于获取图片的嵌入embedding特征。2.根据权利要求1所述的方法,其特征在于,根据所述预训练数据对所述预训练模型进行自监督训练,得到所述图片神经网络,包括:根据所述预训练数据,采用对比学习方式对所述预训练模型进行自监督训练,得到所述图片神经网络,其中,所述预训练数据中所述多张图片对应的标识信息作为训练中的监督信号。3.根据权利要求1
‑
2中任一项所述的方法,其特征在于,所述视频文件中的抽帧图包括以下一项或多项:同一视频文件中临近的多个视频帧对应的抽帧图,或,不同视频文件中视频帧对应的抽帧图;所述图文信息的图片包括以下一项或多项:所述图文信息的封面图片,所述图文信息的正文图片,或,所述图文信息的摘要图片。4.根据权利要求1
‑
3中任一项所述的方法,其特征在于,所述方法还包括:获取多个视频文件;对所述多个视频文件进行去重处理,得到去重后的多个视频文件;从所述去重后的多个视频文件中提取所述视频文件中的抽帧图。5.根据权利要求2
‑
4中任一项所述的方法,其特征在于,根据所述预训练数据,采用对比学习方式对所述预训练模型进行训练之后,所述方法还包括:对所述预训练模型进行知识蒸馏处理,得到所述图片神经网络。6.根据权利要求2
‑
5中任一项所述的方法,其特征在于,根据所述预训练数据,采用对比学习方式对所述预训练模型进行训练...
【专利技术属性】
技术研发人员:刘刚,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。