基于Hidden Markov Model的2型糖尿病危险因素分析方法技术

技术编号:19323551 阅读:32 留言:0更新日期:2018-11-03 12:25
本发明专利技术提供基于Hidden Markov Model的2型糖尿病危险因素分析方法,隐Markov模型的分析过程及训练过程分为3个步骤:(1)初始模型构建;(2)模型拟合;(3)模型评价;其中(1)初始模型构建,其过程包括:1)根据经验、专业知识和研究的目的,产生K个不同观察值的观察序列;2)给出一个初始参数

Analysis of risk factors for type 2 diabetes mellitus based on Hidden Markov Model

The present invention provides a Hidden Markov Model-based risk factor analysis method for type 2 diabetes mellitus. The analysis process and training process of hidden Markov model can be divided into three steps: (1) initial model construction; (2) model fitting; (3) model evaluation; (1) initial model construction, which includes: (1) based on experience and professional knowledge. The purpose of knowledge and research is to generate K observation sequences with different observation values; 2) to give an initial parameter.

【技术实现步骤摘要】
基于HiddenMarkovModel的2型糖尿病危险因素分析方法
本专利技术属于健康统计学领域,特别涉及基于HiddenMarkovModel的2型糖尿病危险因素分析方法。
技术介绍
2型糖尿病是一种多状态慢性病,其发生和发展的过程一般都要经历糖耐量低减(impairedglucosetolerance,IGT)→2型糖尿病(DM2)→2型糖尿病并发症(complicationsoftype2diabetesmellitus,CDM2)三个状态、两个阶段。为了制订2型糖尿病及其并发症的有效防治措施,近年来国内外学者对2型糖尿病及其并发症的影响因素进行了大量有益的探索[2-6],目前用于分析糖尿病危险因素的统计方法主要有以下几种:logistic回归、经典Cox回归、一般多状态Cox回归、带时依变量多状态Cox回归和多状态Markov模型分析等,以上方法都是分析糖尿病危险因素的有效工具,但是都存在种种缺陷。经典Cox回归模型综合考虑了疾病的结局和患者的生存时间两个方面的信息,是探讨疾病及其预后危险因素的有效工具,但它只能处理两状态或两室(twostatesortwocompartments)、单项(univariate)失效时间的资料,对于多状态(multistate)、多项(multivariate)失效时间的资料,则无能为力。因此,采用经典Cox回归模型探讨2型糖尿病及其并发症的危险因素只能将IGT→DM2→CDM2三个状态、两个连续的阶段分割为IGT→DM2或DM2→CDM2两个孤立的阶段,但疾病的各个状态或发展阶段之间以及各个发展阶段的危险因素是互相联系、互相制约的,因而经典Cox回归模型并非是一种最合适的方法。为此,国内学者陈氏[7]首次采用多状态Cox回归模型对2型糖尿病不同发展阶段的危险因素进行了探讨,但他把2型糖尿病不同发展阶段的危险因素(协变量)均作为定常协变量引入模型,有失合理性。因为某些协变量在疾病的不同发展阶段会发生改变,有的甚至会发生质的变化。如,有些患者在确诊为糖尿病前可能嗜好甜食,但一旦确诊就很少吃或完全不吃甜食了。换言之,协变量“是否嗜好甜食”随着时间和状态的改变而改变,为一时依变量(time-dependentcovariate)。因此,申报者所在的丁元林课题组采用带时依变量多状态Cox回归模型和多状态Markov模型,对2型糖尿病不同发展阶段的影响因素进行了探讨[8-9]。国外也有学者采用多状态Markov模型探讨了体重在糖尿病发生发展过程中所起的作用[10]。带时依变量多状态Cox回归模型和多状态Markov模型,无疑是两种处理带时依变量的多状态资料的有效方法,尤其是基于随机过程理论的多状态Markov模型。多状态Markov模型把疾病发生发展的多个状态多个阶段看成一个随机过程,因而处理这类资料更具有独到的优势[10]。但遗憾的是,本课题组在前期研究中发现,不少患者的IGT、DM2和CDM2,特别是IGT的确诊时间不明确,换言之,不少患者的IGT、DM2和CDM2状态,特别是IGT状态是很难准确观测的,只能作为左删失数据处理,因而损失部分统计信息。可能会导致寻找出的影响因素有所遗漏或主要起作用的发展阶段不准确,抑或本身并非主要的影响因素。鉴于此,需在前期研究基础上进一步开发更加适合和有效的统计模型方法,弥补前述研究方法的缺陷。隐Markov模型[11]是Markov模型的进一步发展。HMM认为模型的状态本身就是不可观测的(这便是“隐”得名的由来),可以观测到的只是在这些状态下的各种表现形式(如各种生理、病理指标等),如患者进入IGT、DM2或CDM2状态的准确时间很难观测到,但患者处在哪个状态则可以通过血糖水平和一些病理指标来判断。隐Markov模型在计算机信息处理和生物医学工程领域中已有广泛应用[12-14],国外学者也提出了探讨慢性病进程危险因素的隐Markov模型的一般建模方法[15],但将隐Markov模型用于探讨慢性病不同发展阶段危险因素的研究除了本课题组研究尚未其他见报道。隐Markov模型是在马尔可夫链的基础上发展起来的,实际问题比马尔可夫链模型所描述的更为复杂,观测到的事件并不是与状态一一对应的,而是通过一组概率分布相联系。它是一个双重随机过程,其中之一是马尔可夫链,这是基本随机过程,描述状态的转移。另一个随机过程描述状态和观测值之间的统计对应关系。但目前尚未见HMM应用于医学领域,特别是慢性病流行病研究方面的报道。考虑到许多慢性病发生发展的状态不可观测,可以预见HMM在慢性病流行病研究中有较广阔的应用前景。尝试将隐Markov模型引进慢性病流行病学研究领域,为制定2型糖尿病不同发展阶段的重点防治措施提供更为翔实、可靠的科学依据。并从应用的角度出发提出相关注意事项,为癌症等其他多状态慢性病不同发展阶段影响因素的探讨提供方法学借鉴。隐Markov模型的分析过程及训练过程拟分为3个步骤:①初始模型的构建1)根据经验、专业知识和研究的目的,产生K个不同观察值的观察序列。2)根据训练样本的概率统计特征分别规律构造HMM模型原型。即给出一个初始参数λ0,它指定了模型的初始参数;状态数N、允许的状态转移概率A和初始状态概率分布π;根据经验,选取好的初始模型,使最后求出的局部极大与全局最大接近是很有意义的。但是,至今这个问题仍没有完美的答案,实际处理时都是采用一些经验方法。一般认为,π和A参数初始值选取影响不大,可以随机选择或均匀取值,只要满足以下四式要求的约束条件即可:0≤αij≤10≤πi≤1②模型拟合使用训练样本集合计算与输出最大似然β的初始值和概率分布函数相关联的χ2值,这一过程作参数估计和假设检验。③模型评价采用总体样本分组重新训练模型参数,对模型的拟合结果进行评价。隐Markov模型简介隐Markov模型是在马尔可夫链的基础上发展起来的,实际问题比马尔可夫链模型所描述的更为复杂,观测到的事件并不是与状态一一对应的,而是通过一组概率分布相联系。它是一个双重随机过程,其中之一是马尔可夫链,这是基本随机过程,描述状态的转移。另一个随机过程描述状态和观测值之间的统计对应关系[40]。这样,站在观察者的角度,只能看到观察值,不能直接看到状态,是通过一个随机过程去感知状态的存在及其特性。因而称为“隐”Markov模型,即HMM[18]。早在20世纪70年代,HMM就被用于解决连续语音识别中的问题[41,42,43,44]。20世纪80年代中期,Bell实验室Rabiner等人对HMM理论进行了详细介绍[45,46],并成功用于孤立词识别[47,48,49],使得HMM成为各国从事语音研究人员共同关注的一个焦点。之后几年间,HMM几乎在语音分析的各个方面都获得了极其广泛的应用,甚至在信号处理的相关学科中也能见到其踪影,例如图像处理[50]、文字识别[51]、频率跟踪[52]以及自然声音的建模和分类[53]等等。近些年来,HMM在生物医学信号处理中也有广泛应用[54,55]。但目前尚未见HMM应用于医学领域,特别是慢性病流行病研究方面的报道。考虑到许多慢性病发生发展的状态不可观测,可以预见HMM在慢性病流行病研究中有较广阔的应用前景。隐Markov模型本文档来自技高网...

【技术保护点】
1.基于Hidden Markov Model的2型糖尿病危险因素分析方法,隐Markov模型的分析过程及训练过程分为3个步骤:(1)初始模型构建;(2)模型拟合;(3)模型评价;其特征在于:(1)初始模型构建,其过程包括:1)根据经验、专业知识和研究的目的,产生K个不同观察值的观察序列;2)给出一个初始参数λ0,它指定了模型的初始参数;状态数N、允许的状态转移概率A和初始状态概率分布π;选取好的初始模型,π和A参数初始值选取满足以下四式要求的约束条件:

【技术特征摘要】
1.基于HiddenMarkovModel的2型糖尿病危险因素分析方法,隐Markov模型的分析过程及训练过程分为3个步骤:(1)初始模型构建;(2)模型拟合;(3)模型评价;其特征在于:(1)初始模型构建,其过程包括:1)根据经验、专业知识和研究的目的,产生K个不同观察值的观察序列;2)给出一个初始参数λ0,它指定了模型的初始参数;状态数N、允许的状态转移概率A和初始状态概率分布π;选取好的初始模型,π和A参数初始值选取满足以下四式要求的约束条件:(2)模型拟合的步骤为:使用训练样本集合计算与输出最大似然β的初始值和概率分布函数相关联的χ2值,这一过程作参数估计和假设检验;(3)模型评价采用总体样本分组重新训练模型参数,对模型的拟合结果进行评价。2.根据权利要求1所述的基于HiddenMarkovModel的2型糖尿病危险因素分析方法,采用Baum-Welch算法用多个样本对模型进行训练,得到一个用于糖尿病为对象的1-DHMM参数模型λ=[N,M,A,B,π]。3.根据权利要求1所述的基于Hi...

【专利技术属性】
技术研发人员:潘海燕丁元林
申请(专利权)人:广东医科大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1