当前位置: 首页 > 专利查询>鹏城实验室专利>正文

神经网络模型训练系统、方法及相关设备技术方案

技术编号:36210549 阅读:29 留言:0更新日期:2023-01-04 12:06
本发明专利技术公开了神经网络模型训练系统、方法及相关设备,其中,上述系统包括多个通信连接的计算节点,上述系统根据计算节点以数据和模型并行的方式训练待训练模型,计算节点包括依次通信连接的数据生成模块、数据传输模块、训练模块和模型参数存储模块;数据生成模块生成一批模型训练数据;数据传输模块获取模型训练数据、预处理获得预处理训练数据并搬运到训练模块;训练模块根据预处理训练数据对待训练模型进行训练以更新待训练模型的模型参数并更新数据迭代次数,更新后的数据迭代次数小于数据迭代次数阈值时触发数据生成模块生成下一批模型训练数据;模型参数存储模块存储模型参数。本发明专利技术有利于提高神经网络模型训练时的收敛效果。敛效果。敛效果。

【技术实现步骤摘要】
神经网络模型训练系统、方法及相关设备


[0001]本专利技术涉及人工智能
,尤其涉及的是一种神经网络模型训练系统、方法及相关设备。

技术介绍

[0002]随着科学技术的发展,尤其是人工智能技术的发展,神经网络的应用越来越广泛。其中,预训练的神经网络模型经过微调之后即可以快速迁移到不同的应用场景中使用,因此神经网络模型的应用也越来越广泛。
[0003]现有技术中,通常在一个独立的训练设备中进行神经网络模型的训练。现有技术的问题在于,只能通过存储在该独立训练设备内存中的训练数据进行模型训练,但训练设备的内存通常较小并且存储空间有限,对应能够存储的训练数据的数据量也较小,难以满足神经网络模型(尤其是大规模神经网络模型)训练时的数据量要求,容易导致神经网络训练时欠拟合,不利于提高神经网络模型训练时的收敛效果以及训练获得的神经网络模型的性能。
[0004]因此,现有技术还有待改进和发展。

技术实现思路

[0005]本专利技术的主要目的在于提供一种神经网络模型训练系统、方法及相关设备,旨在解决现有技术中仅在一个独立的训本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种神经网络模型训练系统,其特征在于,所述神经网络模型训练系统包括多个通信连接的计算节点,所述神经网络模型训练系统根据所述计算节点以数据并行和模型并行的方式训练待训练模型,所述计算节点包括:依次通信连接的数据生成模块、数据传输模块、训练模块和模型参数存储模块;所述数据生成模块用于生成与当前的数据迭代次数对应的一批模型训练数据;所述数据传输模块用于获取所述模型训练数据,对所述模型训练数据进行预处理获得预处理训练数据,并将所述预处理训练数据搬运到所述训练模块;所述训练模块用于根据所述预处理训练数据对所述待训练模型进行训练以更新所述待训练模型的模型参数,并更新所述数据迭代次数,在更新后的数据迭代次数小于预设的数据迭代次数阈值时触发所述数据生成模块生成与更新后的数据迭代次数对应的下一批模型训练数据;所述模型参数存储模块用于存储所述待训练模型的模型参数;其中,所述待训练模型是多种预设神经网络模型中的一种,所述多种预设神经网络模型包括卷积神经网络模型、图形神经网络模型、Transformer模型、生成对抗网络模型和循环神经网络模型。2.根据权利要求1所述的神经网络模型训练系统,其特征在于,所述计算节点还包括:其它硬件设备模块和其它进程存储模块,所述其它硬件设备模块分别与所述数据传输模块、所述训练模块、所述模型参数存储模块以及所述其它进程存储模块通信连接;所述其它硬件设备模块包括电源;所述其它进程存储模块用于存储其它预设进程,所述其它预设进程包括系统进程和其它应用程序进程。3.根据权利要求2所述的神经网络模型训练系统,其特征在于,所述数据生成模块包括多个处理器和一个内存数据库,所述数据生成模块中的每一个处理器包括多个处理核,各所述处理核分别根据其对应的数据生成线程生成与当前的数据迭代次数对应的一批模型训练数据并存储到所述内存数据库中;所述数据传输模块包括多个处理器和一个数据传输内存,所述数据传输模块的处理器用于获取所述模型训练数据,根据预设处理方式对所述模型训练数据进行预处理获得预处理训练数据并存储到所述数据传输内存中,所述数据传输内存用于将所述预处理训练数据传输到所述训练模块,其中,所述预设处理方式包括归一化和滤波;所述训练模块包括多个处理器和一个高带宽存储器,所述高带宽存储器用于存储所述预处理训练数据,所述训练模块的处理器用于根据所述预处理训练数据对所述待训练模型进行训练以更新所述待训练模型的模型参数。4.一种神经网络模型训练方法,其特征在于,所述神经网络模型训练方法应用于如权利要求1

3任意一项所述的神经网络模型训练系统中的计算节点中以基于所述计算节点通过数据并行和模型并行的方式训练待训练模型,所述方法包括:通过所述计算节点的数据生成模块生成与当前的数据迭代次数对应的一批模型训练数据;通过所述计算节点的数据传输模块对所述模型训练数据进行预处理获得预处理训练数据,并将所述预处理训练数据搬运到所述计算节点的训练模块;
通过所述计算节点的训练模块根据所述预处理训练数据对所述待训练模型进行训练以更新所述待训练模型的模型参数,并更新所述数据迭代次数,在更新后的数据迭代次数小于预设的数据迭代次数阈值时触发所述数据生成模块生成与更新后的数据迭代次数对应的下一批模型训练数据;通过所述计算节点的模型参数存储模块存储所述待训练模型的模型参数;其中,所述待训练模型是多种预设神经网络模型中的一种,所述多种预设神经网络模型包括卷积神经网络模型、图形神经网络模型、Transformer模型、生成对抗网络模型和循环神经网络模型。5.根据权利要求4所述的神经网络模型训练方法,其特征在于,所述通过所述计算节点的数据生成模块生成与当前的数据迭代次数对应的一批模型训练数据,包括:初始化所述数据生成模块中的内存数据库,为所述内存数据库分配初始空间;通过所述数据生成模块中的各个处理器根据数据生成线程进行多线程数据生成以生成与当前的数据迭代次数对应的一批模型训练数据,并将所述模型训练数据组成的模型训练数据集存储到所述内存数据库中。6.根据权利要求5所述的神经网络模型训练方法,其特征在于,所...

【专利技术属性】
技术研发人员:周阅任智祥田永鸿高文
申请(专利权)人:鹏城实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1