医学药物领域高维数据变量选择与预测方法及装置制造方法及图纸

技术编号:20366811 阅读:69 留言:0更新日期:2019-02-16 18:20
本发明专利技术提供了一种医学药物领域高维数据变量选择与预测方法及装置,可以提前预知患者出现严重并发症的风险如何,在肝移植前给予适当处理,能够降低出现严重并发症的风险。一种医学药物领域高维数据变量选择与预测方法包括:建立带有弹性网约束的Expectile回归模型,得到ER‑EN模型;对所述ER‑EN模型进行求解;采用十折交叉验证方法对所述ER‑EN模型进行参数选择;验证所述ER‑EN模型的预测能力。本发明专利技术实施例中通过建立的带有弹性网约束的Expectile回归模型(ER‑EN模型),调节调整参数可以控制变量选择压缩程度,具有较大的灵活性和实用性。并且,ER‑EN模型能够对医学药物领域高维数据进行变量选择与准确预测,提供更多有效信息进行科学决策,降低了误判的风险。

【技术实现步骤摘要】
医学药物领域高维数据变量选择与预测方法及装置
本专利技术涉及数据处理
,尤其涉及一种医学药物领域高维数据变量选择与预测方法及装置。
技术介绍
在医学领域中,药物高维数据变量选择具有十分重要的意义,其中高维数据是指变量数目大于或远远大于样本数目的数据集。因此,高维数据中变量选择和预测将直接关系到病理分析结果,以通过在模型中施加权重约束,将无关变量权重约束到0,从而筛选出权重较大的变量进行分析。随着大数据分析方法在医药领域中将发挥越来越重要的作用,基于现代生物医学技术的个性化医疗,即精准医学,是未来医学的发展方向。在实际应用中,回归分析为探寻病症与其影响因素之间关系提供了有效工具。目前,最为常用的三种回归方法,主要有:1)基于平方损失的均值回归OLS;2)基于非对称绝对值损失的分位数回归;3)基于非对称平方损失的Expectile回归。比较而言,第三种Expectile回归较前两种回归方法优势明显,不仅可以使用标准的梯度优化算法进行求解,具有计算上的优势;而且可以完整刻画响应变量条件分布特征,提供更多有用信息,便于医药领域的科学决策。如何获取、分类、存储医药大数据,如何挖掘医药大数据中有价值的信息,以及如何将医药大数据有效地应用于医药领域是目前研究的热点领域。医药领域数据普遍高维特征,数据处理难度较大,如何从众多病症影响因素中筛选出关键因素,也为亟待解决的现实问题,基于正则化方法的变量选择为此提供了基本工具。为此,针对医学领域变量选择,通常在损失函数后添加惩罚项(正则项),实现变量选择同时防止过拟合。一般地,常用的惩罚函数包括:LASSO、SCAD、MCP和弹性网。LASSO的目标函数为凸函数,计算较为简易,但不适用于变量间高度相关情形;SCAD满足渐进无偏性,但计算复杂;MCP是可微的连续非凸惩罚函数,保留了SCAD的渐进无偏估计优点,同样计算较为复杂。而弹性网惩罚项结合了LASSO和Ridge的优点,有效地解决了连续收缩和自动变量选择问题,同时回归模型能够较为准确的刻画医学高维数据的变动规律,表现出强大的功能。
技术实现思路
针对现有技术中的缺陷,本专利技术提供了一种医学药物领域高维数据变量选择与预测方法及装置,用于解决相关技术中存在的技术问题。第一方面,本专利技术提供了一种医学药物领域高维数据变量选择与预测方法,包括:建立带有弹性网约束的Expectile回归模型,得到ER-EN模型;对所述ER-EN模型进行求解;采用十折交叉验证方法对所述ER-EN模型进行参数选择;验证所述ER-EN模型的预测能力。可选地,所述ER-EN模型为:其中,l(u)≡ρθ(u)=u2·(θ-I(u<0))表示非对称平方损失,θ∈(0,1)为损失函数不对称区间;(yi,x1,i,x2,i,…,xp,i)表示观测值;表示Expectile回归损失函数;β(θ)≡[β1(θ),β2(θ),…,βp(θ)]T;γ表示调整参数。可选地,对所述ER-EN模型进行求解包括:设置Karush-Kuhn-Tucker条件,以得到给定范围内的全局最小值;采用半平滑牛顿坐标下降算法SNCD对所述ER-EN模型的解。可选地,KKT条件方程为:式中,S是软阈值算子;S(z)=sgn(z)(|z|-1)+,当且仅当u=S(u+s);ρ′θ(u)表示ρθ(·)的导数;对于β0,KKT条件为对于(βj,sj),KKT条件为可选地,采用半平滑牛顿坐标下降算法SNCD对所述ER-EN模型的解包括:(i)更新β0:得到:(ii)更新(βj,sj):若z=(z1,z2)T,则(a)若对于z,当|z1+z2|>1时,则更新为:(b)若对于z,当|z1+z2|≤1时,则更新为:可选地,采用十折交叉验证方法对所述ER-EN模型进行参数选择包括:获取预设数量个观测值的数据集;通过十折交叉验证选择ER-EN模型的调整参数;所述调整参数λ;从变量选择、系数估计和预测能力三个方面对ER-EN模型进行评价;重复上述步骤预设数量次,获取平均值和标准偏差。可选地,验证所述ER-EN模型的预测能力包括:获取反映所述ER-EN模型的预测能力的指标;所述指标包括:均方误差、平均绝对误差和基于Expectile的预测误差;根据所述均方误差、所述平均绝对误差和所述基于Expectile的预测误差验证所述ER-EN模型的预测能力。第二方面,本专利技术实施例提供了一种医学药物领域高维数据变量选择与预测装置,包括:模型建立模块,用于建立带有弹性网约束的Expectile回归模型,得到ER-EN模型;模型求解模块,用于对所述ER-EN模型进行求解;参数选择模块,用于采用十折交叉验证方法对所述ER-EN模型进行参数选择;能力预测模块,用于验证所述ER-EN模型的预测能力。由上述技术方案可知,本专利技术实施例中通过建立的带有弹性网约束的Expectile回归模型(ER-EN模型),调节调整参数可以控制变量选择压缩程度,具有较大的灵活性和实用性。并且,ER-EN模型能够对医学药物领域高维数据进行变量选择与预测,提供更多有效信息进行科学决策,降低了误判的风险。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。图1为本专利技术一实施例提供的一种医学药物领域高维数据变量选择与预测方法的流程示意图;图2为本专利技术一实施例提供的LSR-EN、HR-EN、ER模型和ER-EN模型的RMSE箱线图;图3为本专利技术一实施例提供的LSR-EN、HR-EN、ER模型和ER-EN模型的MAE箱线图;图4为本专利技术一实施例提供的LSR-EN、HR-EN、ER模型和ER-EN模型的EPE箱线图;图5为本专利技术一实施例提供的医学药物领域高维数据变量选择与预测装置的框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。图1为本专利技术一实施例提供的医学药物领域高维数据变量选择与预测方法的流程示意图。参见图1,一种医学药物领域高维数据变量选择与预测方法包括:101,建立带有弹性网约束的Expectile回归模型,得到ER-EN模型;102,对所述ER-EN模型进行求解;103,采用十折交叉验证方法对所述ER-EN模型进行参数选择;104,验证所述ER-EN模型的预测能力。下面结合附图和实施例对医学药物领域高维数据变量选择与预测方法的各步骤作详细描述。首先,介绍101,建立带有弹性网约束的Expectile回归模型,得到ER-EN模型的步骤。本实施例中,考虑非对称平方损失:l(u)≡ρθ(u)=u2·(θ-I(u<0))(1)式(1)中,I(·)是指示函数,θ∈(0,1)定义损失函数不对称区间。观测值(yi,x1,i,x2,i,…,xp,i),i=1,2,…,N,则Expectile回归损失函数为:式(2)中,β(θ)≡[β1(本文档来自技高网
...

【技术保护点】
1.一种医学药物领域高维数据变量选择与预测方法,其特征在于,包括:建立带有弹性网约束的Expectile回归模型,得到ER‑EN(Elastic‑Net Penalized Expectile Regression)模型;对所述ER‑EN模型进行求解;采用十折交叉验证方法对所述ER‑EN模型进行参数选择;验证所述ER‑EN模型的预测能力。

【技术特征摘要】
1.一种医学药物领域高维数据变量选择与预测方法,其特征在于,包括:建立带有弹性网约束的Expectile回归模型,得到ER-EN(Elastic-NetPenalizedExpectileRegression)模型;对所述ER-EN模型进行求解;采用十折交叉验证方法对所述ER-EN模型进行参数选择;验证所述ER-EN模型的预测能力。2.根据权利要求1所述的医学药物领域高维数据变量选择与预测方法,其特征在于,所述ER-EN模型为:其中,l(u)≡ρθ(u)=u2·(θ-I(u<0))表示非对称平方损失,θ∈(0,1)为损失函数不对称区间;(yi,x1,i,x2,i,…,xp,i)表示观测值;表示Expectile回归损失函数;β(θ)≡[β1(θ),β2(θ),…,βp(θ)]T;γ表示调整参数。3.根据权利要求1所述的医学药物领域高维数据变量选择与预测方法,其特征在于,对所述ER-EN模型进行求解包括:设置Karush-Kuhn-Tucker条件,以得到给定范围内的全局最小值;采用半平滑牛顿坐标下降算法SNCD对所述ER-EN模型的解。4.根据权利要求3所述的医学药物领域高维数据变量选择与预测方法,其特征在于,KKT条件方程为:式中,S是软阈值算子;S(z)=sgn(z)(|z|-1)+,当且仅当u=S(u+s);ρ′θ(u)表示ρθ(·)的导数;对于β0,i=1,…,N;KKT条件为对于(βj,sj),KKT条件为5.根据权利要求3所述的医学药物领域高维数据变量选择与预...

【专利技术属性】
技术研发人员:丁晓涵许启发蒋翠侠
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1