2型糖尿病发病危险因素对血糖影响的定量分析方法技术

技术编号:8907258 阅读:243 留言:0更新日期:2013-07-11 04:56
本发明专利技术涉及2型糖尿病发病危险因素对血糖影响的定量分析方法,属于生物信息处理及医学领域。本发明专利技术首先使用C4.5和EM聚类算法实现重要发病危险因素的选择;再根据性别和年龄对全体人群进行划分,进而利用BP神经网络算法对细化人群进行敏感度计算,最终通过敏感度实现多因素对血糖影响的定量分析。与现有大量统计学方法相比,本发明专利技术采用数据挖掘方法,在充分考虑多因素之间相互影响的同时,在细化人群中实现多因素对血糖影响的定量分析,大大提高了定量分析的准确率,并可为个体发病的细化干预提供判定方法。本发明专利技术可对个体2型糖尿病发病进行干预指导,不仅可以预防或延缓发病,而且该方法可应用推广到其它疾病危险因素的定量分析。

【技术实现步骤摘要】
2型糖尿病发病危险因素对血糖影响的定量分析方法
本专利技术涉及一种多因素对血糖影响的定量分析方法,属于生物信息处理及医学领域。
技术介绍
2型糖尿病已经成为世界性的一个主要健康问题。预计到2025年,全世界将有3.8亿人受到糖尿病的困扰。目前,我国已成为仅次于印度的糖尿病第二大国。据卫生部调查显示,我国糖尿病患者每天约新增3000例,每年约新增120万例,其中约95%为2型糖尿病患者。2型糖尿病已成为继癌症和心脑血管病之后,位于第三位严重影响人类健康的慢性病,其病因是环境因素、遗传因素、生活方式等相互作用的结果。目前已经获得共识的患病危险因素包括增龄、肥胖超重、血脂、血压水平异常、糖尿病家族史等,多因素共同作用对血糖水平升高产生影响,进而导致发病。由于2型糖尿病一旦发病难以治愈,如果在发病前对危险因素进行干预,能够有效降低发病率,提高生活质量。相关研究大多采用多元回归、元分析、cox回归等统计学方法,利用相对危险度研究危险因素与是否发病之间的关系。哈佛大学HuFB等人的研究表明超重和肥胖是发生2型糖尿病的最重要因素。通过对比发现,3.4%处于低危险组女性发生糖尿病的相对危险度为0.09,91%的发病者是由于不健康生活习惯造成的。MhurchuCN等人采用cox回归方法报道了亚太地区人群的体重指数和糖尿病发生之间联系,发现在该地区降低体重指数能有效降低糖尿病的发病率。或采用多元回归算法和元分析,研究通常用相对危险度说明某一因素是否是发生2型糖尿病相关的危险因素,给出定性的结论。本专利技术采用BP神经网络算法计算敏感度,量化衡量危险因素对血糖变化的影响,通过敏感度反映出危险因素的变化对血糖变化的影响,用敏感度比较说明危险因素对血糖变化的定量影响程度,是对血糖变化特点与规律的过程相关因素探索,用于指导相应干预措施,尽早控制血糖的升高趋势,达到预防控制糖尿病发生的目的。
技术实现思路
本专利技术的目的是为解决多因素对血糖影响定量分析的问题,提出一种基于BP神经网络的定量分析方法。本专利技术的设计原理为:使用C4.5和EM聚类算法筛选出主要的危险因素,用以确定定量分析的对象;对未患有2型糖尿病的全国抽样人群体检数据,根据性别和年龄进行人群划分;使用BP神经网络算法定量分析危险因素对血糖变化的影响。本专利技术在筛选出危险因素的同时对人群进行细化,通过定量分析多因素对血糖影响,在给出细化人群中多因素对血糖影响量化表示,且不同细化人群的多因素的量化排序不同,为个体细化干预提供判定方法。本专利技术的技术方案是通过如下步骤实现的:步骤1,获取人群体检数据,形成未患有2型糖尿病的全国抽样人群体检数据源S。具体方法为:为通过2001-2008年实测体检数据,得到完整可用的数据源,对体检数据进行预处理,首先通过数据清理,填充空缺值、识别孤立点、消除噪声并纠正数据中的不一致;再进行数据变换包括数据格式转换、数据语义的转换;最后保证在信息不丢失的情况下,通过数据规约删除重复因素和空缺值过多的因素,得到全国抽样人群体检数据源S={s1,s2,s3,…,sk},其中k为预处理后体检人的总数。步骤2,在步骤1的基础上,进行主要危险因素的筛选。具体过程如下:步骤2.1,数据处理实验参数设定模块。根据数据源S选择进行主要危险因素筛选的算法,并设定算法的参数。步骤2.2,EM聚类算法模块。具体方法为:对数据源S进行聚P类或q类的聚类实验,改变参与实验的危险因素的数量和种类,观察实验结果,得到能够较好反映出人群特点的聚类结果,记录参与聚类的危险因素。步骤2.3,EM聚类、C4.5分类组合实验。具体方法为:EM聚类实验部分的参与因素为上述聚类实验所得的最佳聚类因素,进行聚P类或q类的聚类实验,将数据源S按不同人群健康特点分开,在对不同健康特点的人群分别使用C4.5算法进行分析,分类参与因素为全部l维危险因素,分类实验的标定门限值分别为R、V、T和Z,得到不同健康特点人群所对应的分类决策树。步骤2.4,对实验结果进行统计,得到c维主要危险因素,根据医学认知,进一步筛选得到u维主要危险因素。步骤3,根据性别和年龄,对经步骤2得到的全国抽样人群体检数据源S进行划分,生成细化人群。具体方法为:首先按性别划分,得到男性人群和女性人群;再分别按年龄大于e岁和小于等于e岁进行划分,共得到d组细化人群。步骤4,使用经步骤3得到的细化人群分别训练BP神经网络模型,进而计算出不同危险因素对血糖影响的敏感度,利用敏感度实现定量分析。步骤4.1,在给定主要危险因素维数u下,使用d组细化人群训练生成d个BP神经网络模型,每个模型的生成方法为:步骤4.1.1,选取处理后训练数据的u维危险因素,作为模型的输入,血糖作为模型的输出,利用信息的正向传播和误差的反向传播训练生成BP神经网络模型。输入危险因素从输入层经隐含层逐层计算传递到输出层,每一层神经元只影响下一层神经元的状态,如果输出层没有得到期望输出,则计算输出层的误差变化值,然后进行反向传播,通过网络将误差信号沿原来的连接通路反传回来调整各神经元的权值,经过多次迭代,直至达到平均相对误差小于σ,训练生成BP神经网络模型,计算模型输出平均相对误差。步骤4.1.2,再把验证数据输入已生成的BP神经网络模型,计算输出血糖值,通过误差计算得到验证数据的平均相对误差。步骤4.2,通过BP神经网络模型计算多因素对血糖影响的敏感度。敏感度是通过分析不同参数组合对模型模拟效果的影响,确定出的模型参数对模型输出的贡献率或影响程度。设有n-L-1前向网络(n为BP神经网络模型输入变量的个数,L为BP神经网络模型的隐含层数目,1为模型输出变量的个数),网络输出有如下形式:y=f(x1,…,xn)(x为BP神经网络模型的输入,y为BP神经网络模型的输出)。以2个输入危险因素为例,通过对该式求二阶偏导来考察两个输入变量对输出变量的敏感度。设神经网络的隐层激活函数为对数S型函数通过雅克比矩阵式中:T为矩阵的转置运算,m为所用数据源的样本数目,n为输入变量的个数。把第j个输入xj变化与第j个输出yj=f(xj)改变联系起来意味着网络输出的敏感度依赖于输入的微小扰动。对于n个输入、具有L个神经元的隐含层和一个输出层的神经网络,第t个样本上输入变量xi和xk对输出变量y的敏感度为式中:S1为输出层激活函数对其输入的一阶导数,S2为输出层激活函数对其输入的二阶导数。为第t个样本上第j个隐层神经元的响应,vj1为输出神经元和第j个隐层神经元间的权重,wij为第i个输入神经元和第j个隐层神经元间的权重,wkj为第k个输入神经元和第j个隐层神经元间的权重。通过对不同危险因素进行敏感度分析,得到各发病危险因素对血糖变化的定量分析。有益效果相比于基于线性回归、元分析等大量统计学分析方法,本专利技术采用BP神经网络的数据挖掘方法,实现对血糖变化的定量分析,具有准确率高的特点。与群体分析相比,本专利技术采用人群划分技术,具有更高的准确率,对血糖变化的分析更有针对性,并为个体的细化干预提供判定依据,以预防或延缓2型糖尿病的发生。本专利技术可应用推广到其它疾病危险因素的量化分析,还可应用于因素干预-判定-因素干预的良性循环中,从而有效提升个体的健康水平。附图说明图1为本专利技术的多因素对血糖影响定量分析方本文档来自技高网
...
2型糖尿病发病危险因素对血糖影响的定量分析方法

【技术保护点】
2型糖尿病发病危险因素对血糖影响的定量分析方法,其特征在于,所述方法包括以下步骤:步骤1,获取人群体检数据,形成未患有2型糖尿病的全国抽样人群体检数据源S。步骤2,对数据源S筛选引起2型糖尿病的主要危险因素。步骤3,根据性别和年龄,对经步骤2得到的全国抽样人群体检数据源S进行划分,生成细化人群。步骤4,使用经步骤3得到的细化人群分别训练BP神经网络模型,进而计算出不同危险因素对血糖影响的敏感度,利用敏感度实现定量分析。

【技术特征摘要】
1.2型糖尿病发病危险因素对血糖影响的定量分析方法,其特征在于,所述方法包括以下步骤:步骤1,对2001-2008年实测体检数据,进行数据清理,填充空缺值、识别孤立点、消除噪声并纠正数据中的不一致;再进行数据变换,包括数据格式转换、数据语义转换;最后在保证信息不丢失的情况下,通过数据归约删除重复因素和空缺值较多的因素,形成未患有2型糖尿病的全国抽样人群体检数据源S;步骤2,对数据源S采用EM聚类算法进行危险因素的粗选,然后采用融合EM聚类和C4.5算法的危险因素精选方法,筛选引起2型糖尿病的主要危险因素;步骤3,根据性别和年龄,对经步骤1得到的全国抽样人群体检数据源S进行划分,基于步骤2获得危险因素对9组细化人群分别训练BP神经网络模型,基于BP神经网络权重,采用一种多因素综合作用下的敏感度计算方法,计算出不同危险因素对血糖影响的敏感度,进而实现定量分析;其中,所述多因素综合作用下的敏感度计算方法为:设有n-L-1前向网络,式中n为BP神经网络模型输入变量的个数,L为BP神经网络模型的隐含层数目,1为模型输出变量的个数,网络输出有如下形式:y=f(x1,…,xn),式中x为BP神经网络模型的输入,y为BP神经网络模型的输出,通过对该式求二阶偏导来考察输入变量对输出变量的敏感度,设神经网络的隐层激活函数为对数S型函数通过雅克比矩阵式中:T为矩阵的转置运算,m为所用数据源的样本数目,n为输入变量的个数,把第j个输入xj变化与第j个输出yj=f(xj)改变联系起来意味着网络输出的敏感度依赖于输入的微小扰动,对于n个输入、具有L个神经元的隐含层和一个输出层的神经网络,第t个样本上输入变量xi和xk对输出变量y的敏感度为式中:S1为输出层激活函数对其输入的一阶导数,S2为输出层激活函数对其输入的二阶导数,为第t个样本上第j个隐层神经元的响应,vj1为输出神经元和第j个隐层神经元间的权重,wij为第i个输入神经元和第j个隐层神经元间的权重,wkj为第k个输入神经元和第j个隐层神经元间的权重。2.根据权利要求1所述的方法,其特...

【专利技术属性】
技术研发人员:罗森林陈松景潘丽敏韩龙飞张铁梅
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1