一种神经网络的训练方法以及相关装置制造方法及图纸

技术编号：38491138 阅读：17 留言：0更新日期：2023-08-15 17:04

本申请公开了一种基于人工智能技术的神经网络的训练方法以及相关装置。获取预训练数据，预训练数据包括多张图片以及多张图片的标签信息，根据预训练数据对预训练模型进行自监督训练，得到图片神经网络。由于该图片的标签信息为该图片来源天然具有的属性信息，具有容易获取的特点。因此，可以容易获取大量的预训练数据。基于该预训练数据，对预训练模型进行训练得到图片神经网络，可以有效提升图片神经网络的训练效率和训练精度。该预训练模型采用自监督训练，可以有效提升训练效率和训练精度。度。度。

全部详细技术资料下载

【技术实现步骤摘要】
一种神经网络的训练方法以及相关装置

[0001]本申请涉及人工智能
，尤其涉及一种神经网络的训练方法以及相关装置。

技术介绍

[0002]随着互联网的发展，各种图文信息的发布量以指数级速度增长，这些图文信息的来源渠道和质量层次不齐。因此，在图文信息分发至用户前，对具体的内容进行人工审核和标记，将存在质量问题的图片过滤处理。
[0003]目前采用的方法是通过机器学习辅助算法对内容进行识别，通常神经网络模型的迭代过程如下：需求确定、数据采集、模型训练、模型测试与上线。由于图文信息的种类非常广泛，因此，模型训练时为了保证模型的训练精度，需要使用种类分布广泛的训练数据。
[0004]对这些训练数据的标签信息，目前需要人工标记。大量的训练数据导致模型的训练成本较高，进而导致模型的训练效率较低。

技术实现思路

[0005]本申请实施例提供了一种神经网络的训练方法以及相关装置。预训练数据包括多张图片以及多张图片的标签信息，由于该图片的标签信息为该图片来源天然具有的属性信息，具有容易获取的特点。因此，可以容易获取大量的预训练数据。基于该预训练数据，对预训练模型进行训练得到图片神经网络，可以有效提升神经网络模型的训练效率和训练精度。该预训练模型采用自监督训练，可以有效提升训练效率和训练精度。
[0006]有鉴于此，本申请一方面提供一种神经网络的训练方法，其特征在于，包括：
[0007]获取预训练数据，预训练数据包括多张图片和多张图片对应的标签信息，多张图片包括以下一项或多项：/>[0008]视频文件中的抽帧图，其中，抽帧图对应的标签信息为视频文件的标签信息，
[0009]或者，图文信息的图片，其中，图文信息的图片对应的标签信息为图文信息的标题或者摘要信息，
[0010]或者，基于目标标签信息搜索得到的公共图片，其中，将目标标签信息作为公共图片对应的标签信息；
[0011]根据预训练数据对预训练模型进行自监督训练，得到图片神经网络，其中，图片神经网络用于获取图片的嵌入embedding特征。
[0012]本申请另一方面提供一种神经网络训练装置，包括：
[0013]收发模块，用于获取预训练数据，预训练数据包括多张图片和多张图片对应的标签信息，多张图片包括以下一项或多项：
[0014]视频文件中的抽帧图，其中，抽帧图对应的标签信息为视频文件的标签信息，
[0015]或者，图文信息的图片，其中，图文信息的图片对应的标签信息为图文信息的标题或者摘要信息，
[0016]或者，基于目标标签信息搜索得到的公共图片，其中，将目标标签信息作为公共图片对应的标签信息；
[0017]处理模块，用于根据预训练数据对预训练模型进行自监督训练，得到图片神经网络，其中，图片神经网络用于获取图片的嵌入embedding特征。
[0018]在本申请实施例的另一方面的另一种实现方式中，神经网络训练装置，还包括：
[0019]处理模块，还用于根据预训练数据，采用对比学习方式对预训练模型进行自监督训练，得到图片神经网络，其中，预训练数据中多张图片对应的标识信息作为训练中的监督信号。
[0020]在本申请实施例的另一方面的另一种实现方式中，视频文件中的抽帧图包括：同一视频文件中临近的多个视频帧对应的抽帧图，和/或，不同视频文件中视频帧对应的抽帧图；
[0021]图文信息的图片包括：图文信息的封面图片，图文信息的正文图片，和/或，图文信息的摘要图片。
[0022]在本申请实施例的另一方面的另一种实现方式中，神经网络训练装置，还包括：
[0023]收发模块，还用于获取多个视频文件；
[0024]处理模块，还用于对多个视频文件进行去重处理，得到去重后的多个视频文件；
[0025]处理模块，还用于从去重后的多个视频文件中提取视频文件中的抽帧图。
[0026]在本申请实施例的另一方面的另一种实现方式中，神经网络训练装置，还包括：
[0027]处理模块，还用于对预训练模型进行知识蒸馏处理，得到图片神经网络。
[0028]在本申请实施例的另一方面的另一种实现方式中，神经网络训练装置，还包括：
[0029]收发模块，还用于获取业务样本，业务样本包括一张或多张图片，和图片对应的标识信息；
[0030]处理模块，还用于使用业务样本对预训练模型进行微调处理，得到微调后的预训练模型。
[0031]在本申请实施例的另一方面的另一种实现方式中，神经网络训练装置，还包括：
[0032]收发模块，还用于获取第一标签信息集合，第一标签信息集合包括以下一项或多项：一个或多个视频文件的标签信息，或者，一个或多个图文信息的标签信息；
[0033]处理模块，还用于对第一标签信息集合进行去重处理，得到目标标签信息；
[0034]处理模块，还用于基于目标标签信息通过搜索引擎获取多张待筛选公共图片；
[0035]处理模块，还用于剔除多张待筛选公共图片中分辨率低于第一阈值的图片，得到公共图片。
[0036]本申请另一方面提供一种计算机设备，包括：存储器、处理器以及总线系统；
[0037]其中，存储器用于存储程序；
[0038]处理器用于执行存储器中的程序，处理器用于根据程序代码中的指令执行上述各方面的方法；
[0039]总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。
[0040]本申请的另一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。
[0041]本申请的另一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序
产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方面所提供的方法。
[0042]从以上技术方案可以看出，本申请实施例具有以下优点：
[0043]首先，获取预训练数据，预训练数据包括多张图片和多张图片对应的标签信息，多张图片包括以下一项或多项：视频文件中的抽帧图，其中，抽帧图对应的标签信息为视频文件的标签信息，或者，图文信息的图片，其中，图文信息的图片对应的标签信息为图文信息的标题或者摘要信息，或者，基于目标标签信息搜索得到的公共图片，其中，将目标标签信息作为公共图片对应的标签信息；然后，根据预训练数据对预训练模型进行自监督训练，得到图片神经网络，其中，预训练模型的主干网络包括Swin Transformer网络，图片神经网络用于获取图片的嵌入embedding特征。
[0044]本申请中，预训练数据包括多张图片以及多张图片的标签信息，由于该图片的标签信息为该图片来源天然具有的属性信息，具有容易获取的特点。因此，可以容易获取大量的预训练数据。基于该预训练数据，对预训练模型进行训本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种神经网络的训练方法，其特征在于，包括：获取预训练数据，所述预训练数据包括多张图片和所述多张图片对应的标签信息，所述多张图片包括以下一项或多项：视频文件中的抽帧图，其中，所述抽帧图对应的标签信息为所述视频文件的标签信息，或者，图文信息的图片，其中，所述图文信息的图片对应的标签信息为所述图文信息的标题或者摘要信息，或者，基于目标标签信息搜索得到的公共图片，其中，将所述目标标签信息作为所述公共图片对应的标签信息；根据所述预训练数据对预训练模型进行自监督训练，得到图片神经网络，其中，所述图片神经网络用于获取图片的嵌入embedding特征。2.根据权利要求1所述的方法，其特征在于，根据所述预训练数据对所述预训练模型进行自监督训练，得到所述图片神经网络，包括：根据所述预训练数据，采用对比学习方式对所述预训练模型进行自监督训练，得到所述图片神经网络，其中，所述预训练数据中所述多张图片对应的标识信息作为训练中的监督信号。3.根据权利要求1
‑
2中任一项所述的方法，其特征在于，所述视频文件中的抽帧图包括以下一项或多项：同一视频文件中临近的多个视频帧对应的抽帧图，或，不同视频文件中视频帧对应的抽帧图；所述图文信息的图片包括以下一项或多项：所述图文信息的封面图片，所述图文信息的正文图片，或，所述图文信息的摘要图片。4.根据权利要求1
‑
3中任一项所述的方法，其特征在于，所述方法还包括：获取多个视频文件；对所述多个视频文件进行去重处理，得到去重后的多个视频文件；从所述去重后的多个视频文件中提取所述视频文件中的抽帧图。5.根据权利要求2
‑
4中任一项所述的方法，其特征在于，根据所述预训练数据，采用对比学习方式对所述预训练模型进行训练之后，所述方法还包括：对所述预训练模型进行知识蒸馏处理，得到所述图片神经网络。6.根据权利要求2
‑
5中任一项所述的方法，其特征在于，根据所述预训练数据，采用对比学习方式对所述预训练模型进行训练...

【专利技术属性】
技术研发人员：刘刚，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人