Under Spark framework, the quantum optimization parameter adjustment method of distributed in-depth learning collects data, preprocesses and groups them to determine the structural parameters of the generated antagonistic network. A deep neural network is preliminarily constructed, which includes layers, number of nodes in each layer, weight and learning rate. Spark master node broadcasts parameter information to slave nodes, and trains and generates the antagonistic network model by parallel data. The parameters of the distributed quantum particle swarm optimization (QPSO) algorithm based on Spark are initialized. Each slave node evolves independently and aggregates through the master node. The fitness function of each particle is calculated according to the individual optimal and global optimal update connection weights at the last iteration, and the performance of the deep learning model is evaluated. The invention can provide a reference method for how to find the optimal parameters of the distributed deep learning model, and can avoid the problems of prior knowledge and inefficiency required by manual adjustment of the parameters of the deep learning model.
【技术实现步骤摘要】
Spark框架下分布式深度学习的量子优化调参方法
本专利技术涉及适用于特定功能的数字计算设备或数据处理设备或数据处理方法,特别涉及一种Spark框架下分布式深度学习的量子优化调参方法。
技术介绍
随着大数据时代的到来,人工智能获得了快速发展,机器学习作为人工智能的一个重要分支,以深度学习为代表引起了广泛的关注。在实际应用中,常常面临数据量样本不足、真正有价值的数据缺乏、先验知识欠缺这些问题。因此,深度学习也逐渐体现出其局限性,尤其体现在依赖大规模标注数据和大量的先验知识来调参这个问题上,如何调参来提升深度学习模型的性能已成为当前深度学习领域的的关键问题。针对深度学习面临的上述挑战,本专利技术将大量参数逐层调整来缩小误差归结为非线性优化问题,采用基于内存计算的分布式集群运算框架Spark,提出一种Spark框架下分布式深度学习的量子优化调参方法,即在传统深度学习训练流程之后,增加了基于量子优化的分布式深度学习参数调优环节。该专利技术解决了寻找最优参数的难题,能够有效避免人工对深度学习模型调参需要的先验知识、效率低下的问题,非常适合样本较少、有价值数据缺乏和先验知识欠 ...
【技术保护点】
1.Spark框架下分布式深度学习的量子优化调参方法,具体步骤如下:Step1:采集数据并进行预处理和分组:Step1.1:将历史数据基于分布式文件系统(Hadoop Distributed File System,HDFS)进行存储;Step1.2:对历史数据存在的不一致性、冗余性、不完整性以及噪声和错误问题进行预处理;Step1.3:将所有历史数据分成两组:训练集和测试集;Step1.4:整个分布式集群包括1个主节点和P个独立的从节点,将所有历史数据平均分成P组,对历史数据集合进行初始分组;Step2:确定生成对抗网络结构参数:初步构建深度神经网络,设定包括层数、各层节 ...
【技术特征摘要】
1.Spark框架下分布式深度学习的量子优化调参方法,具体步骤如下:Step1:采集数据并进行预处理和分组:Step1.1:将历史数据基于分布式文件系统(HadoopDistributedFileSystem,HDFS)进行存储;Step1.2:对历史数据存在的不一致性、冗余性、不完整性以及噪声和错误问题进行预处理;Step1.3:将所有历史数据分成两组:训练集和测试集;Step1.4:整个分布式集群包括1个主节点和P个独立的从节点,将所有历史数据平均分成P组,对历史数据集合进行初始分组;Step2:确定生成对抗网络结构参数:初步构建深度神经网络,设定包括层数、各层节点数、权重和学习率,Spark主节点将参数信息广播给从节点;Step3:通过数据并行的方式训练生成对抗网络模型,初始训练过程如下:Step3.1:生成对抗网络模型训练目标函数描述如下:上式中,D和G分别代表微分函数判别器和生成器,x代表输入的真实数据,Pdata(x)代表真实数据集分布,代表输入真实数据的计算期望值,D(x)代表x来源于真实数据而非生成数据的概率,z代表随机噪声矢量,Pz(z)代表先验分布,代表随机噪声失量的计算期望值,G(z)代表生成的尽量服从真实数据分布的数据;Step3.2:使用自下而上的非监督学习:采用无标签数据,从第一层开始,逐层训练各层参数,将上一层的输出作为下一层的输入,学习得到各层的参数;Step3.3:自顶向下的监督学习:利用带标签的数据去训练,通过反向传播(BackPropagation,BP)算法分别更新生成对抗网络以执行竞争性学习,误差自顶向下传输,对网络进行微调;Step3.4:目标函数为公式1所示,当且仅当真实数据集分布概率和生成器数据分布概率相等时,达到纳什均衡,至此生成对抗网络训练完成,保存此时得到的初步生成对抗网络结构参数,并将结果更新到主节点;Step4:初始化基于Spark的分布式量子粒子群优化算法参数信息:Step4.1:首先将Step3得到的初步生成对抗网络结构参数作为量子优化算法种群的初始解,再结合生成对抗网络结构参数对量子优化算法进行初始化,其中种群规模为M、维度为d、迭代次数为Tmax、适应度评估次数为Evamax;Step4.2:确定量子优化算法的适应度函数:以生成对抗网络网络模型的损失函数最小化为目标,将适应度函数定义为均方误差(MeanSquareError,MSE),适应度函数如下:上式...
【专利技术属性】
技术研发人员:王万良,张兆娟,郑建炜,高楠,赵燕伟,吴菲,骆俊锦,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。