System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于异构数据的糖尿病弱监督分类方法技术_技高网

一种基于异构数据的糖尿病弱监督分类方法技术

技术编号:40011716 阅读:6 留言:0更新日期:2024-01-16 15:22
本发明专利技术公开了一种基于异构数据的糖尿病弱监督分类方法,属于糖尿病类型诊断技术领域,包括:变分推理子模块,通过对去除冗余信息的静态指标数据构建高斯混合模型来拟合其分布,其后验概率分布用变分分布来近似,利用KL散度测量变分分布与后验概率的距离,最大化证据下界来求解最小KL散度,得到的潜在变量可反映出生理标志物数据的聚类归属;慢速对比学习子模块,通过对生理信号数据监测,利用慢特征分析方法挖掘动态监测数据的内在属性,形成正负样本对,构建基于慢速特征的慢速对比学习框架,学习生理信号的表征信息;证据集成模块对两个子模块结果通过改进的DS理论进行融合。本发明专利技术以在弱监督条件下构建多维互补特征与糖尿病类型间的映射关系。

【技术实现步骤摘要】

本专利技术涉及糖尿病类型诊断,尤其是涉及一种基于异构数据的糖尿病弱监督分类方法


技术介绍

1、糖尿病患者临床表现出酮症和酮症酸中毒的症状主要集中在1型和2型糖尿病。区分这两种糖尿病类型对于设计治疗策略至关重要。传统的诊断方法依赖于临床标准和疾病进展的观察,这一过程需要医生的积极参与,给医疗从业者带来负担。医疗人工智能通过利用深度学习技术和综合数据集来提供有效解决方案从而减轻医生的工作量。

2、目前,医学应用中的深度学习方法主要依赖于监督学习,这需要大量的标记数据来实现稳定的模型收敛,医学数据标记需要专业知识来确保注释的准确性,合格医学专家的稀缺和缓慢增长的速度未能跟上糖尿病患病率的迅速上升。因此,标记的医学数据难以获取。一方面,急需提出一种能够仅使用少量或不使用标记数据的基于学习的方法。自我监督学习因其模型能够从未标记的数据中获取医学相关表征而获得广泛关注。此外,以聚类为代表的无监督学习方法也可以实现无标签的自动数据聚合。另一方面,异构数据的融合提供了多维互补的信息表示,比使用同构数据有更大的优势。利用异构数据,模型可以集成互补信息,实现单一来源数据无法实现的多视角推断。


技术实现思路

1、本专利技术的目的是提供一种基于异构数据的糖尿病弱监督分类方法,基于电子病历(electronic medical records,emr)数据中各类生理指标和扫描式葡萄糖监测系统(flash glucose monitoring,fgm)序列等异构数据进行1型和2型糖尿病分类,旨在弱监督条件下构建多维互补特征与糖尿病类型之间的映射关系。

2、为实现上述目的,本专利技术提供了一种基于异构数据的糖尿病弱监督分类方法,包括以下步骤:

3、s1、针对生理标志物数据的变分推理子模块,对医疗记录中的生物标志物数据去除冗余信息,然后构建高斯混合模型来拟合其分布,其后验概率分布用变分分布来近似,利用kl散度来测量变分分布与后验概率之间的距离,最大化证据下界来求取最小kl散度,得到可反映出生物标志物数据的聚类归属的潜在变量;

4、s2、针对fgm数据的慢速对比学习子模块,通过对生理信号数据的监测,利用慢特征分析方法挖掘动态监测数据的内在属性,构建基于慢速特征正负样本对的分层对比学习框架,学习生理信号的表征信息,用于下游的糖尿病分类任务;

5、s3、证据集成模块利用改进的ds理论对变分推理子模块和慢速对比学习子模块结果进行融合。

6、优选的,步骤s1中,具体操作为:

7、s11、通过基于互信息的价值函数消除生物标志物数据中的冗余信息,得到非冗余生物标志物数据x′i;

8、其中,生物标志物数据记为x={x1,x2,…,xn},xi表示第i个个体的数据,n为个体的数量;

9、s12、利用高斯混合模型拟合非冗余生物标志物数据x′i的分布:

10、非冗余生物标志物数据x′i服从高斯混合分布,表示为:

11、

12、其中,混合物分布的每个组成部分被视为生物标志物数据的一个簇;π为高斯分布的混合系数;πk为第k个高斯分布的混合系数;μ为高斯分布的平均值;μk是第k个高斯分布的平均值;ω为逆协方差矩阵;ωk为第k个逆方差矩阵;k为混合高斯模型中高斯分布的总个数;为第k个高斯分布中非冗余生物标志物数据x′i的概率;

13、使用第k个逆协方差矩阵ωk来替换协方差矩阵σ,其中,给定π,潜在变量z的条件概率分布表示为:

14、

15、其中,znk是潜在变量zn的第k个元素;对于观察到的数据x′n,存在一个潜在变量zn;如果将观察到的数据点分发到第k个集群,则对应的znk=1,其余znj,j≠k=0;

16、假设(π,μ,ω)服从共轭先验分布,形式化为:

17、π~dir(α)   (3)

18、(μ,ω)~nw(μ0,λ0,v0,n0)   (4)

19、其中,dir(α)是带有参数α的狄利克雷分布,nw(μ0,λ0,v0,n0)是带有参数μ0,λ0,v0,n0的高斯-威沙特分布;

20、s13、通过变分贝叶斯推理方法创建变分分布q(z,π,μ,ω)来近似后验概率p(z,π,μ,ω|x),利用kl散度来测量变分分布与后验概率之间的距离,最大化证据下界来求取最小kl散度:

21、

22、其中,q*(z,π,μ,ω)是最优变分分布;

23、定义为:

24、

25、其中,eq表示期望;

26、引入平均场理论来分解变分分布,即:

27、

28、z,π,μ,ω各自的变分分布最优解的对数是所有变量联合概率分布的对数;

29、每个生物标志物样本归属于不同高斯分布的聚类结果通过潜在变量获得。

30、优选的步骤s2中,具体操作为:

31、s21、根据慢特征分析提取串行的不同慢性特征;

32、s22、利用二维属性挖掘模块构建正负样本对,捕获实例间和实例内的关系;

33、s23、为实例间和实例内分别设计一个分层损失函数,捕获时间串行的上下文表示。

34、优选的步骤s21中,对一维血糖监测数据进行维度提升操作:

35、假设:si={si(0),si(1),si(2),…},其中si(j)表示在时间点j的血糖监测数据,维度升高的葡萄糖信号si定义如下:

36、

37、因此,si的维度等于n乘以si,提升运算符l定义为映射,形式化为si=lsi,从葡萄糖串行si中划分的两个视图si,1和si,2通过维度提升操作传输到si,1和si,2;

38、通过慢特征分析方法减少葡萄糖数据的缓慢特征变化,形式化为:

39、

40、其中,<·>t和表示时间平均值和差分运算符;g(·)是一个将升维的葡萄糖信号si,v映射到慢速特征γglu的函数,其中v∈{1,2};

41、通过最小化慢特征变化δγglu,得到升维葡萄糖信号的两个慢特征和

42、优选的步骤s22中,利用二维属性挖掘模块构建正负样本对,捕获实例之间和实例内的关系:

43、(1)实例间样本对:鉴于同一样本生成的慢特征是相似的,而不同样本生成的慢特征则有显着区别,和是互为正样本对,而和是互为负样本对;

44、(2)实例内样本对:基于先验知识,来自两个升维的两个慢特征的相同时间戳具有相似的特征,即和是互为正样本对,而和γ′∈是互为负样本对;其中,t和t′均表示时间戳。

45、优选的步骤s23中,为了捕获时间串行的上下文表示,为实例间和实例内分别设计一个分层损失函数,包括:

46、(1)实例内对比损失:设i表示输入时间串行样本的索引,t表示时间戳;ri,1(t)和ri,2(t)表示同一样本在相同时间戳t的两个表本文档来自技高网...

【技术保护点】

1.一种基于异构数据的糖尿病弱监督分类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于异构数据的糖尿病弱监督分类方法,其特征在于,步骤S1中,具体操作为:

3.根据权利要求2所述的一种基于异构数据的糖尿病弱监督分类方法,其特征在于,步骤S2中,具体操作为:

4.根据权利要求3所述的一种基于异构数据的糖尿病弱监督分类方法,其特征在于,步骤S21中,对一维血糖监测数据进行维度提升操作:

5.根据权利要求4所述的一种基于异构数据的糖尿病弱监督分类方法,其特征在于,步骤S22中,利用二维属性挖掘模块构建正负样本对,捕获实例之间和实例内的关系:

6.根据权利要求5所述的一种基于异构数据的糖尿病弱监督分类方法,其特征在于,步骤S23中,为了捕获时间串行的上下文表示,为实例间和实例内分别设计一个分层损失函数,包括:

7.根据权利要求6所述的一种基于异构数据的糖尿病弱监督分类方法,其特征在于,步骤S3中,具体操作为:

【技术特征摘要】

1.一种基于异构数据的糖尿病弱监督分类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于异构数据的糖尿病弱监督分类方法,其特征在于,步骤s1中,具体操作为:

3.根据权利要求2所述的一种基于异构数据的糖尿病弱监督分类方法,其特征在于,步骤s2中,具体操作为:

4.根据权利要求3所述的一种基于异构数据的糖尿病弱监督分类方法,其特征在于,步骤s21中,对一维血糖监测数据进行维度提升操作:

...

【专利技术属性】
技术研发人员:史大威王磊陈婧蔡德恒王军政
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1