【技术实现步骤摘要】
神经网络模型输入参量降维方法及计算机可读存储介质
本专利技术涉及神经网络
,尤其涉及一种神经网络模型输入参量降维方法及计算机可读存储介质。
技术介绍
在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。例如,在研究赤潮预测模型时可能需要收集气象数据、水文数据、水质数据、营养盐数据和潮汐数据等,可能会包含几十个参量,其中部分变量之间存在着一定的相关关系,变量所反应的赤潮信息存在着一定的重复。对收集的变量进行一定的分析,寻找影响课题主要的参量,在不影响模型结果的基础上,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息,方便找到影响课题的关键因子。另外,在现实生活中,实际很难用线性模型进行描述。神经网络的出现大大降低了模型建立的难度和工作量。只需将神经网络看成是一个黑箱子,根据输入与输出数据,神经网络依据相关的学习规则,便可以建立相应的数学模型。但是,当模型的输入参量很多、输入参量之间不是相互独立时,利用神经网络容易出现过拟合现象,从而导致所建立的模型精度低、建模时间长等问题。因此,在建立模型之前,有必要对输入自变量进行优化选择,将冗余的一些自变量去掉,选择最能反映输入与输出关系的自变量参与建模。
技术实现思路
本专利技术所要解决的技术问题是:提供一种 ...
【技术保护点】
1.一种神经网络模型输入变量降维方法,其特征在于,包括:/n获取样本数据,所述样本数据包括正样本数据和负样本数据,每个样本数据由多个变量数据构成;/n根据预设的比例,将所述样本数据划分为训练数据和测试数据;/n随机产生预设数量的初始串结构数据,得到初始的种群,所述初始串结构数据中的每个位分别与样本数据中的各变量一一对应,且每个位的取值为第一字符或第二字符;/n分别计算最新的种群中各串结构数据对应的Heidke技巧评分,并分别将各串结构数据对应的Heidke技巧评分作为各串结构数据的适应度;/n判断最新的种群中是否存在适应度大于或等于预设目标值的串结构数据;/n若是,则将适应度大于或等于预设目标值的串结构数据中取值为第一字符的位对应的变量作为最终建模变量;/n若否,则根据遗传算法,生成新的串结构数据,得到新的种群;/n继续执行所述分别计算最新的种群中各串结构数据对应的Heidke技巧评分,并分别将各串结构数据对应的Heidke技巧评分作为各串结构数据的适应度的步骤。/n
【技术特征摘要】
1.一种神经网络模型输入变量降维方法,其特征在于,包括:
获取样本数据,所述样本数据包括正样本数据和负样本数据,每个样本数据由多个变量数据构成;
根据预设的比例,将所述样本数据划分为训练数据和测试数据;
随机产生预设数量的初始串结构数据,得到初始的种群,所述初始串结构数据中的每个位分别与样本数据中的各变量一一对应,且每个位的取值为第一字符或第二字符;
分别计算最新的种群中各串结构数据对应的Heidke技巧评分,并分别将各串结构数据对应的Heidke技巧评分作为各串结构数据的适应度;
判断最新的种群中是否存在适应度大于或等于预设目标值的串结构数据;
若是,则将适应度大于或等于预设目标值的串结构数据中取值为第一字符的位对应的变量作为最终建模变量;
若否,则根据遗传算法,生成新的串结构数据,得到新的种群;
继续执行所述分别计算最新的种群中各串结构数据对应的Heidke技巧评分,并分别将各串结构数据对应的Heidke技巧评分作为各串结构数据的适应度的步骤。
2.根据权利要求1所述的神经网络模型输入变量降维方法,其特征在于,所述获取样本数据之后,进一步包括:
分别对所述样本数据中的各变量数据进行归一化处理。
3.根据权利要求1所述的神经网络模型输入变量降维方法,其特征在于,所述分别计算最新的种群中各串结构数据对应的Heidke技巧评分具体为:
根据一串结构数据中取值为第一字符的位对应的变量,确定建模变量;
构建所述一串结构数据对应的人工神经网络,所述人工神经网络的输入层神经元的个数与所述建模变量的个数一致,输出层神经元的个数为2;
根据所述训练数据中的建模变量,对所述人工神经网络进行训练;
将所述测试数据中的建模变量输入训练后的人工神经网络,得到预报结果,所述预报结果为正样本结果或负样本结果;
分别统计所述测试数据中预报结果为正样本结果的正样本数据的数量和负样本数据的数量,以及预报结果为负样本结果的正样本数据的数量和负样本数据的数量,得到所述一串结构数据对应的预报结果参数;
根据所述预报结果参数以及测试数据的总数量,计算所述一串结构数据对应的Heidke技巧评分。
4.根据权利要求3所述的神经网络模型输入变量降维方法,其特征在于,所述预报结果参数包括第一值、第二值、第三值和第四值,所述第一值表示测试数据中预报结果为正样本结果的正样本数据的数量,所述第二值表示测试数据中预报结果为负样本结...
【专利技术属性】
技术研发人员:张彩云,丁文祥,李雪丁,张友权,李星,郑祥靖,郭民权,丁萍,陈金瑞,朱本璐,任在常,
申请(专利权)人:厦门大学,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。