【技术实现步骤摘要】
一种网络模型训练的控制方法、系统
本申请涉及计算机
,特别是涉及一种网络模型训练的控制方法、系统。
技术介绍
随着计算机(领域)技术的发展,出现了神经网络技术,它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型,这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。现有通过神经网络技术实现根据产品表面图像进行质量检测,也称为工业视觉检测技术;具体为,利用精密的光学成像技术,对空间规则分布的工业产品进行成像获取感兴趣目标,通过数字化技术生成多维图像,并结合数字图像预处理生成待识别图像,随后由质检人员对图像收集筛选,精细标注,并将其交付于工业视觉算法专家进行模型的训练,而后将训练好的(深度学习)模型交付于质检人员部署于工业视觉质检系统中。工业场景的产量巨大,产生的图像数据非常庞大,在对模型的训练过程中,质检人员需要收集大量的用于训练的数据,压缩上传至服务器,工业视觉算法专家在下载数据进行模型训练,非常耗费双方的沟通精力和时间,导致训练准备工作效率非常低。现有 ...
【技术保护点】
1.一种网络模型训练的控制方法,其特征在于,所述方法包括:/n客户端获取训练请求,并发送至云服务中间端;其中,所述训练请求包括网络模型类型、训练数据和训练任务标识;/n所述云服务中间端接收所述训练请求,解析得到所述训练数据,并将其保存至数据库,并根据所述网络模型和训练任务标识,将所述训练请求转换成第一消息体发送至计算服务端;/n所述计算服务端根据所述第一消息体,从所述数据库下载训练数据对网络模型进行训练;/n其中,所述云服务中间端接收所述训练请求,解析所述训练数据并保存至数据库,并根据所述网络模型和训练任务标识,将所述训练请求转换成第一消息体发送至计算服务端,包括:/n所述 ...
【技术特征摘要】
1.一种网络模型训练的控制方法,其特征在于,所述方法包括:
客户端获取训练请求,并发送至云服务中间端;其中,所述训练请求包括网络模型类型、训练数据和训练任务标识;
所述云服务中间端接收所述训练请求,解析得到所述训练数据,并将其保存至数据库,并根据所述网络模型和训练任务标识,将所述训练请求转换成第一消息体发送至计算服务端;
所述计算服务端根据所述第一消息体,从所述数据库下载训练数据对网络模型进行训练;
其中,所述云服务中间端接收所述训练请求,解析所述训练数据并保存至数据库,并根据所述网络模型和训练任务标识,将所述训练请求转换成第一消息体发送至计算服务端,包括:
所述云服务中间端接收所述训练请求,解析得到所述训练数据,并将其保存至数据库;
所述云服务中间端根据网络模型和训练任务标识,生成用于控制网络模型进行训练的第一消息体;其中,所述的第一消息体的格式为Json格式,所述的第一消息体带有特定命令;
所述云服务中间端将所述第一消息体,通过RocketMQ组件发送至计算服务端。
2.根据权利要求1所述的方法,其特征在于,所述第一消息体包括键和值,所述键包括命令键、类型、任务识别符、数据设置、标签和名称中的一种或多种,所述值为所述键的具体的值。
3.根据权利要求1所述的方法,其特征在于,所述特定命令包括发起训练、停止训练、重启训练、计算资源反馈中至少一种。
4.根据权利要求1所述的方法,其特征在于,所述计算服务端根据所述第一消息体,从所述数据库下载训练数据对网络模型进行训练,包括:
计算服务器根据所述第一消息体提供的数据设置字段,通过pymysql模块包的一个接口函数获取所述训练数据的在数据库的云存储路径信息;
根据所述云存储路径信息,采用多线程并发的方式下载所述训练数据到服务器磁盘指定位置;
通过python标准库Subprocess开启一个子进程以调用网络模型训练代码,并获取训练参数传递至所述子进程,同时连接所述子进程的输入、输出、错误管道,保存所述子进程的进程号,将所述进程号与所述第一消息体的任务识别符进行绑定后保存到字典类型的变量中;
所述子进程调用网络模型训练代码后,根据所述训练参数对所述网络模型进行训练。
5.根据权利要求4所述的方法,其特征在于,在所述子进程调用网络模型训练代码后,根据所述训练参数对所述网络模型进行训练之后,还包括:
在所述子进程运行时,主程序通过开启的通信管道实时监控所述子进程;
将监控结果发送至所述云服务中间端,所述云服务中间端将其转发至所述客户端,所述客户端对所述监控结果进行显示。
6.根据权利要求5所述的方法,其特征在于,所述监控结果包括正常训练的监控结果和非正常训练的监控结果;
...
【专利技术属性】
技术研发人员:别晓辉,别伟成,单书畅,
申请(专利权)人:视睿杭州信息科技有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。