一种基于遗传算法的数据模型训练样本的选取方法技术

技术编号：17995312 阅读：35 留言：0更新日期：2018-05-19 12:26

本发明专利技术提供一种基于遗传算法的数据模型训练样本的选取方法。本发明专利技术利用样本的分布距离大小和分布的均匀性来定量化描述训练样本的选取指标，并将其作为适应度函数，利用遗传算法实现最佳训练样本的智能搜索，使得到的样本覆盖最大工况，为构建高精度的数据模型提供基础。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于遗传算法的数据模型训练样本的选取方法
本专利技术属于热工技术和人工智能交叉
，涉及一种基于遗传算法的数据模型训练样本的选取方法。
技术介绍
基于电站运行数据，采用多元线性回归、神经网络、支持向量机等技术构造一定的数学关系，可实现对电站机组参数的建模和估计。这种数据建模方法不需研究电站运行过程的内部规律，而是将其看作一个黑箱，从输入输出数据中提取有用信息，所建立的数据模型对机组参数的冗余测量及状态监控都有着重要的意义。采用运行数据建立的模型对数据特性具有较强的依赖性。虽然电站历史数据库记录了大量的运行数据，但是大部分样本都集中在某些特定的工况下。样本的工况分布是构建数据模型时需要考虑的关键因素之一。利用充分变化并尽量覆盖全工况的数据样本更容易训练得到高精度的预测模型。本专利技术将训练样本的选取指标进行定量化，并将其作为适应度函数，利用遗传算法来实现最佳训练样本的智能搜索，使得到的样本覆盖最大工况，为构建高精度的数据模型提供基础。
技术实现思路
为了解决上述问题，本专利技术提供一种基于遗传算法的数据模型训练样本的选取方法，所述方法通过样本的分布距离大小和分布的均匀性来定量化描述训练样本的选取指标，并将其作为适应度函数，利用遗传算法实现最佳训练样本的智能搜索，使得到的样本覆盖最大工况，构建高精度的数据模型，通过高精度的数据模型完成最佳训练样本的选取；进一步地，所述方法包括：步骤1)：染色体编码及初始化：对要选取的样本序列进行二进制编码，共产生m条染色体构成种群，给定最大迭代次数为N，交叉概率pc，变异概率pm；步骤2)确定适应度函数：考虑样本的分布距离...
一种基于遗传算法的数据模型训练样本的选取方法

【技术保护点】
一种基于遗传算法的数据模型训练样本的选取方法，其特征在于，所述方法通过样本的分布距离大小和分布的均匀性来定量化描述训练样本的选取指标，并将其作为适应度函数，利用遗传算法实现最佳训练样本的智能搜索，使得到的样本覆盖最大工况，构建高精度的数据模型，通过高精度的数据模型完成最佳训练样本的选取。

【技术特征摘要】
1.一种基于遗传算法的数据模型训练样本的选取方法，其特征在于，所述方法通过样本的分布距离大小和分布的均匀性来定量化描述训练样本的选取指标，并将其作为适应度函数，利用遗传算法实现最佳训练样本的智能搜索，使得到的样本覆盖最大工况，构建高精度的数据模型，通过高精度的数据模型完成最佳训练样本的选取。2.根据权利要求1所述的方法，其特征在于，所述方法包括：步骤1)：染色体编码及初始化：对要选取的样本序列进行二进制编码，共产生m条染色体构成种群，给定最大迭代次数为N，交叉概率pc，变异概率pm；步骤2)确定适应度函数：考虑样本的分布距离大小和分布的均匀性，将样本选取指标进行定量化，并将其作为适应度函数；步骤3)：染色体交叉：在m个染色体中，依次取相邻的两个染色体按交叉概率pc进行多点交叉；步骤4)：染色体变异：在m个染色体中，对每个染色体按照变异概率pm进行多点变异；步骤5)：染色体处理：经过步骤2)和步骤3)之后，染色体s段基因中若出现某段的b位基因解码后大于n，则用该染色体尚未包含的最优样本序号的二进制编码进行替换；最优样本的确定方法是：逐个将未包含的数据样本序号加入该染色体后，适应度函数值增量最大的样本即为最优样本；步骤6)：染色体选择：根据步骤2)的适应度函数，计算各个染色体的适应度值，并按照轮盘赌选择新一代个体；步骤7)：记录每代最优染色体的适应度值，然后进入步骤3)，进行下一次迭代，直至达到给定的迭代次数N。3.根据权利要求2所述的方法，其特征在于，步骤1)中所述染色体编码的方法为若初始的运...

【专利技术属性】
技术研发人员：吕游，黄鑫，杨婷婷，刘吉臻，
申请(专利权)人：华北电力大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人