当前位置: 首页 > 专利查询>东南大学专利>正文

一种针对输出结果为连续性变量进行预测的回归模型制造技术

技术编号:27657722 阅读:21 留言:0更新日期:2021-03-12 14:21
本发明专利技术涉及预测模型的研究领域,具体的是基于机器学习方法下的一种针对输出结果为连续性变量进行预测的回归模型,具有以下优点:高度鲁棒性和容错能力,即模型具有较高的精度,算法性能面对模型假设出现误差时产生的影响较小,可维持其稳定性;脱离人为模型的限制,不依赖于参数及模型本身,通过计算机自主学习实时优化模型。该方法以影响输出结果的因素为基础,以多层全连接层神经网络模型为架构进行预测,该模型尤其适用于庞大的数据量,具有较高的精度及稳定性,能充分逼近复杂的非线性关系且脱离人为模型的限制。

【技术实现步骤摘要】
一种针对输出结果为连续性变量进行预测的回归模型
本专利技术涉及预测模型的研究领域,具体的是一种针对输出结果为连续性变量进行预测的回归模型。
技术介绍
机器学习是一种近年来兴起的基于计算机的统计学方法,由于它能够接纳庞大的数据集,并以灵活、可训练的方式理解变量之间的复杂关系,使得它在大数据的处理中具有独特的优势,从而获得群体水平的数据来反映人群普遍的真实情况,而不是从少量的具有偏倚的样本数据中分析获得片面的结果而对群体水平进行推断,这是相较于经典医学统计学的巨大优势及根本性的改变。既往的研究多集中于对数据水平观察,随着电子医疗档案记录的普遍应用,评价随着时间发展演变,数据纵向效应的分析显得尤为重要,在相关研究的基础上预测未来事件的发生是必要的。这种方法所具有的灵活性和延展性使得同一组算法能够接受迭代训练,在基础数据集的深度和广度中发现多个临床问题。机器学习方法在医学领域的应用的范围主要包括图像识别、遗传学和基因组学分析、智能诊疗和预测预后。其中预测预后通过对患者临床症状、检验学和影像学特征及基因组学分析等要素对疾的诊断、发生发展、预后等进行了预测,主要应用的方法是支持向量机和人工神经网络,少部分运用了随机森林,对于二分类和多分类结果变量的概率估计时显示出了良好的性能。但目前临床中缺乏基于机器学习方法对输出结果为连续性变量的模型的建立,该方面的预测研究仍处于空白。
技术实现思路
为解决上述
技术介绍
中提到的不足,本专利技术的目的在于提供一种针对输出结果为连续性变量进行预测的回归模型,解决了目前缺乏基于机器学习方法对输出结果为连续性变量的模型的现状。本专利技术的目的可以通过以下技术方案实现:一种针对输出结果为连续性变量进行预测的回归模型,包括以下步骤:一、确定神经网络模型的架构及秩函数,以逻辑回归作为基本模型,函数为欧式距离,激活函数为ReLU;二、参数处理:输入维度包括连续变量和分类变量,连续变量中离散数值直接减去该维度均值再除以方差将其统一归一化,分类变量用0、1量化表示后再归一化;三、将数据随机化后分为训练集及测试集,其特征及分布统一;四、初始化函数,设定输入层节点、隐藏节点和输出层节点的数量;五、初始参数,设定训练集中批大小,验证集中批大小学习率以及总回合数;六、使用训练集样本训练学习模型,运用误差反向传播算法和梯度下降算法根据输入的不同维度与输出结果及维度间的权重实时反馈并优化权重,从而学习并构建出模型;七、根据已有的模型对未知的测试集数据进行测试以验证模型的拟合度,用损失函数曲线表示,并采用平均绝对误差、平均平方误差和均方根误差三个量化指标对模型进行精度分析。进一步地,所述步骤一中:神经网络模型内部算法中的W是权重矩阵,Winput_hidden是输入层和隐藏层之间的权重,Whidden_output表示隐藏层和输出层之间的权重,I是输入矩阵,X是组合调节后的信号,即输入到下一隐藏层的结果矩阵,O代表来自神经网络的最后一层中的所有输出;Xhidden=Winput_hidden*IOhidden=ReLU(Xhidden)Xoutput=Whidden_output*Ohidden估算不同样本之间的相似性度量采用欧式距离d:两个n维向量a(x11,x12,…,x1n)与b(x21,x22…x2n)间的欧氏距离:进一步地,所述激活函数为ReLU:公式:a=g(x)=max(0,z)导数:进一步地,所述步骤六中:设输出误差为e,转置矩阵WT:归一化因子忽略后可得:errorhidden=WThidden_output*erroroutput。进一步地,所述步骤六中:Wj,k为连接隐藏层节点j和输出层节点k的链接权重,Ok为节点K的输出,Oj为前一个隐藏节点的输出,误差函数的斜率:ΔWj,k=α*Ek*Ok(1-Ok)*OjT。本专利技术的有益效果:本专利技术以影响输出结果的因素为基础,以多层全连接层神经网络模型为架构进行预测。该模型尤其适用于庞大的数据量,具有较高的精度及稳定性,能充分逼近复杂的非线性关系且脱离人为模型的限制。附图说明下面结合附图对本专利技术作进一步的说明。图1是本专利技术多层全连接层神经网络模型示意图;图2是本专利技术神经网络模型内部算法示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。本专利技术提供一种基于Python编程,多层全连接层神经网络为模型架构,如如1所示,针对输出结果为连续性变量进行预测的回归模型,具体包括以下几个步骤:一、确定神经网络模型的架构及秩函数,本模型以逻辑回归作为基本模型,函数为欧式距离,激活函数为ReLU;二、参数处理:输入维度包括连续变量和分类变量,连续变量中离散数值直接减去该维度均值再除以方差将其统一归一化,分类变量用0、1量化表示后再归一化(数值化+归一化);三、将数据随机化后分为训练集(trainingset)及测试集(testset),其特征及分布需统一;四、初始化函数,设定输入层节点、隐藏节点和输出层节点的数量;五、初始参数,设定trainbatchsize(训练集中批大小),valbatchsize(验证集中批大小),learningrate(学习率)以及numepochs(总回合数);六、使用训练集样本训练学习模型,运用误差反向传播算法和梯度下降算法根据输入的不同维度与输出结果及维度间的权重实时反馈并优化权重,从而学习并构建出模型;七、根据已有的模型对未知的测试集数据进行测试以验证模型的拟合度,用损失函数曲线(LOSS曲线)表示,并采用平均绝对误差(Meanabsoluteerror,MAE)、平均平方误差(Meansquareerror,MSE)和均方根误差(Rootmeansquareerror,RMSE)三个量化指标对模型进行精度分析。具体的,步骤一中:神经网络模型内部算法示意图如图2所示,此处以输入层2层,隐藏层2层为例:W是权重矩阵,Winput_hidden是输入层和隐藏层之间的权重,Whidden_output表示隐藏层和输出层之间的权重,I是输入矩阵,X是组合调节后的信号,即输入到下一隐藏层的结果矩阵,O代表来自神经网络的最后一层中的所有输出。Xhidden=Winput_hidden*IOhidden=ReLU(Xhidden)Xoutput=Whidden_output*Ohidden估算不同样本之间的相似性度量采用欧式距离d:...

【技术保护点】
1.一种针对输出结果为连续性变量进行预测的回归模型,其特征在于,包括以下步骤:/n一、确定神经网络模型的架构及秩函数,以逻辑回归作为基本模型,函数为欧式距离,激活函数为ReLU;/n二、参数处理:输入维度包括连续变量和分类变量,连续变量中离散数值直接减去该维度均值再除以方差将其统一归一化,分类变量用0、1量化表示后再归一化;/n三、将数据随机化后分为训练集及测试集,其特征及分布统一;/n四、初始化函数,设定输入层节点、隐藏节点和输出层节点的数量;/n五、初始参数,训练集中批大小,验证集中批大小,学习率以及总回合数;/n六、使用训练集样本训练学习模型,运用误差反向传播算法和梯度下降算法根据输入的不同维度与输出结果及维度间的权重实时反馈并优化权重,从而学习并构建出模型;/n七、根据已有的模型对未知的测试集数据进行测试以验证模型的拟合度,用损失函数曲线表示,并采用平均绝对误差、平均平方误差和均方根误差三个量化指标对模型进行精度分析。/n

【技术特征摘要】
1.一种针对输出结果为连续性变量进行预测的回归模型,其特征在于,包括以下步骤:
一、确定神经网络模型的架构及秩函数,以逻辑回归作为基本模型,函数为欧式距离,激活函数为ReLU;
二、参数处理:输入维度包括连续变量和分类变量,连续变量中离散数值直接减去该维度均值再除以方差将其统一归一化,分类变量用0、1量化表示后再归一化;
三、将数据随机化后分为训练集及测试集,其特征及分布统一;
四、初始化函数,设定输入层节点、隐藏节点和输出层节点的数量;
五、初始参数,训练集中批大小,验证集中批大小,学习率以及总回合数;
六、使用训练集样本训练学习模型,运用误差反向传播算法和梯度下降算法根据输入的不同维度与输出结果及维度间的权重实时反馈并优化权重,从而学习并构建出模型;
七、根据已有的模型对未知的测试集数据进行测试以验证模型的拟合度,用损失函数曲线表示,并采用平均绝对误差、平均平方误差和均方根误差三个量化指标对模型进行精度分析。


2.根据权利要求1所述的一种针对输出结果为连续性变量进行预测的回归模型,其特征在于,所述步骤一中:神经网络模型内部算法中的W是权重矩阵,Winput_hidden是输入层和隐藏层之间的权重,Whidden_output表示隐藏层和输出层之间的权重,I是输入矩阵,X是组合调节后的信号,即输入到下一隐藏层的结果矩阵,O代...

【专利技术属性】
技术研发人员:陈宝安王梦沈艳飞
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1