一种基于spark的遗传算法优化的BP神经网络并行化方法技术

技术编号：11973290 阅读：264 留言：0更新日期：2015-08-28 10:46

本发明专利技术提供了一种基于spark的遗传算法优化的BP神经网络并行化方法，通过采用spark并行编程模型改进遗传算法对BP神经网络的权值进行全局进化寻优，经过一定次数的进化迭代后，得到优化的神经网络初始权值，再使用并行的BP神经网络算法进行迭代，最终输出网络结构。在训练过程中，各个阶段都可以多节点并行处理，大大提升BP神经网络的收敛速度，提高训练的效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及机器学习算法并行化领域，特别涉及一种基于spark分布式计算框架的遗传算法优化的BP神经网络并行化方法。
技术介绍
BP(Back Propagat1n)神经网络是 1986 年由 Rinehart 和 McClelland 为首的科学家小组提出，是一种按误差逆传播算法训练的多层前馈网络。BP神经网络的主要思想，包括正向传播信号和反向传播误差。在正向传播过程中，输入信号通过隐层处理后传递给输出层。若输出值与预期的值不等且大于误差可接受范围，则进入误差反向传播过程。误差通过隐层向输入层传递，进行误差调整。通过不断调整各层之间的权值，使得输出误差达到可接受范围或达到最大学习次数为止。遗传算法(Genetic Algorithm)是一类借鉴生物界的进化规律(适者生存，优胜劣汰遗传机制)演化而来的随机化搜索方法。它是由美国的J.Holland教授1975年首先提出，其主要特点是直接对结构对象进行交叉和变异操作；具有内在的隐并行性和更好的全局寻优能力；采用概率化的寻优方法，能自动获取和指导优化的搜索空间，自适应地调整搜索方向，不需要确定的规则。BP神经网络算法存在收敛速度慢和容易陷入局部极小点的缺点，基于遗传算法优化的BP神经网络，首先用遗传算法优化BP网络的权值和阈值，以提高网络的收敛速率，克服易陷入局部极小的不足。传统的BP神经网络训练方法，是在单机上串行处理数据集，但是随着信息化社会的飞速发展，需要进行数据挖掘的数据量急剧增大，达到了海量数据的级别，因此传统的BP神经网络训练方法在处理海量数据集时会有很大的问题，比如耗时非常长，甚至是内...

【技术保护点】
一种BP神经网络并行化方法，其特征在于，包括：步骤1：数据预处理，将全局训练集切分成多个子集和，并且存储到分布式文件系统中；步骤2：采用遗传算法对BP神经网络的权值进行全局进化寻优，得到优化的网络初始权值；其中所述步骤2进一步包括以下步骤2.1‑2.6：步骤2.1：在spark集群中启动实现map接口的作业，各个节点将部分训练数据作为RDD输入，将每个个体编码成染色体，生成新的种群RDD数据集；步骤2.2：将新生成的种群RDD作map转换处理，根据适应度函数计算每个个体的适应度值；步骤2.3：由个体适应度值所决定的规则，选择将进入下一代的个体，生成优胜劣汰后的种群RDD；步骤2.4：将2.3中生成的种群RDD作交叉操作；步骤2.5：将2.4中生成新的种群RDD作变异操作；步骤2.6：若迭代次数满足条件或结果达到收敛条件，得到初始网络权值，结束；若未达到收敛条件，进入2.2进行下一轮的迭代；步骤3：在各计算节点上均采用优化后的网络初始权值建立自身的神经网络结构；步骤4：采用BP神经网络算法，对原始训练数据集进行迭代训练；其中所述步骤4进一步包括以下步骤4.1‑4.4：步骤4.1：在Dri...

【技术特征摘要】

【专利技术属性】
技术研发人员：童晓渝，赵华，叶定松，罗光春，田玲，刘贵松，
申请(专利权)人：中电科软件信息服务有限公司，电子科技大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人