【技术实现步骤摘要】
一种用损失函数揭示孕期疾病和出生结局风险因素的方法
[0001]本专利技术涉及及其学习领域,具体而言属于一种通过机器学习模型,对预测变量重要性进行研究的方法。
技术介绍
[0002]近些年来机器学习和深度学习领域研究非常热门,而且在医学图像识别方面已经取得了非常优秀的成果。但是与出生结局预测有关的机器学习和深度学习相关研究较少。虽然传统研究已经找出孕期促甲状腺素TSH和其他影响早产等出生结局的危险因素,但未能量化这些因素对预测出生结局的重要性。Engchuan等人在健康的社会决定因素研究中,运用了连续变量的损失函数算法,他们用均方误差(mean square error)增加百分比衡量一个预测变量的重要性(Engchuan W,Dimopoulos AC,Tyrovolas S,et al.Sociodemographic Indicators of HealthStatus Using a Machine Learning Approach and Data from the English Longitudinal St ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种对预测变量的重要性进行研究的方法,其特征在于,所有预测变量均为分类变量,将其中某一预测变量移除后,采用损失增加百分比来描述该预测变量的重要性;具体步骤包括:(1)建立机器学习模型,利用所有预测变量对结局变量进行预测;(2)运行模型,计算包含所有预测变量的模型损失值loss
j
;(3)去掉其中一个预测变量,计算去掉该预测变量的模型损失值loss
j
‑1;(4)根据公式计算得到去掉该预测变量的损失增加百分比;(5)重复步骤(3)和(4),计算出去掉每一个预测变量所对应的损失增加百分比,并进行从大到小排序,得到所有预测变量的重要性排序。2.如权利要求1所述的一种对预测变量的重要性进行研究的方法,其特征在于,当所述结局变量为二分类结局变量时,包含所有预测变量的模型损失值loss
j
计算公式为,去掉一个预测变量,模型损失值loss
j
‑1计算公式为,其中对数计算是以2为底,y
i
是结局变量,p
i
是根据所述机器学习模型计算得到的结局变量的预测概率,n是样本数量,j是预测变量的个数。3.如权利要求1所述的一种对预测变量的重要性进行研究的方法,其特征在于,当结局变量为多分类结局变量时,包含所有预测变量的模型损失值loss
j
计算公式为:去掉一个预测变量,模型损失值loss
j
‑1计算公式为:其中,对数计算是以2为底,y
i,c
是结局变量,p
i,c
技术研发人员:花静,吴美琴,戴霄天,孙源瞳,郑唯韡,赵惠涓,何怡,马武仁,张超,李珣,王卓著,那炜,李智敏,容艳瑜,龙佳,
申请(专利权)人:复旦大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。