System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于集成学习的肺部真菌感染的辅助诊断方法和装置制造方法及图纸_技高网

一种基于集成学习的肺部真菌感染的辅助诊断方法和装置制造方法及图纸

技术编号:40950150 阅读:7 留言:0更新日期:2024-04-18 20:24
一种基于集成学习的肺部真菌感染的辅助诊断方法和装置,方法包括:对可用于回顾性研究的宏转录组数据进行真菌感染检测分组,筛选出差异表达基因,使用所述差异表达基因构建训练集和测试集;使用多种机器学习算法对差异基因进行筛选,对各算法所得到的保留基因求交集,并通过多次迭代选择出最具有预测性和稳健性的基因集合;使用多种机器学习算法分别构建辅助诊断子模型,各辅助诊断子模型分别使用所述基因集合进行预测,且各辅助诊断子模型的预测结果使用GLM进行拟合,形成使用集成学习的方式进行最终风险预测的辅助诊断模式。本发明专利技术提供的辅助诊断结果具有准确性、稳定性和独立性,经过验证,能够提高对肺部真菌感染患者的风险评估能力。

【技术实现步骤摘要】

本专利技术涉及基因技术和生物医学领域,特别是涉及一种基于集成学习的肺部真菌感染的辅助诊断方法和装置


技术介绍

1、真菌是一类微生物,当它们侵入肺部时,可引起感染。症状包括呼吸困难、咳嗽、胸痛和发热。危害主要体现在影响呼吸系统功能,损害肺部组织。对于免疫系统较弱的个体,如老年人、免疫抑制患者或慢性疾病患者,真菌感染的危险性更大。严重的真菌感染可能引起肺炎、支气管炎,甚至危及生命。

2、临床上肺部真菌感染常用方法包括影像学检查、痰液培养和血清学检测。然而,影像学检查缺乏特异性,可能漏诊或误诊。痰液培养需要时间且可能产生假阴性结果。血清学检测灵敏度较低,对某些真菌不敏感。

3、近年来,宏基因组和宏转录组检测技术的出现极大地提高了检测的全面性与高通量性,它能够检测潜在的新病原体,提供更全面的信息。此外,宏转录组也有助于理解宿主基因的表达变化,进一步解析感染的免疫响应。然而,该技术在数据处理、分析复杂性和高成本方面的局限性,使得在临床上,患者的可及性不高。

4、需要说明的是,在上述
技术介绍
部分公开的信息仅用于对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现思路

1、本专利技术的主要目的在于克服上述
技术介绍
的缺陷,提供一种基于集成学习的肺部真菌感染的辅助诊断方法和装置。

2、为实现上述目的,本专利技术采用以下技术方案:

3、一种基于集成学习的肺部真菌感染的辅助诊断方法,包括在计算机上处理完成的如下步骤:

4、对可用于回顾性研究的宏转录组数据进行真菌感染检测分组,筛选出差异表达基因,使用所述差异表达基因构建训练集和测试集;

5、使用多种机器学习算法对训练集的差异基因进行筛选,对各算法所得到的保留基因求交集,并通过多次迭代选择出最具有预测性和稳健性的基因集合;

6、使用多种机器学习算法分别构建辅助诊断子模型,各辅助诊断子模型分别使用所述基因集合进行预测,且各辅助诊断子模型的预测结果使用广义线性模型(generalizedlinearmodel,glm)进行拟合,形成使用集成学习的方式进行最终风险预测的辅助诊断模式。

7、进一步地:

8、所述筛选出差异表达基因包括:

9、分别使用limma和deseq2算法对所述宏转录组数据的原始count数据进行差异分析,筛选差异表达基因,并使用wilcox算法对所述宏转录组数据的tpm数据进行显著性分析,筛选差异表达基因;

10、根据统计指标,对以上三种算法筛选的差异表达基因进行进一步的筛选,再求取三种算法筛选的差异表达基因的交集。

11、所述统计指标包括p-value和logfc。

12、在构建训练集和测试集之前,还包括从所述差异表达基因中过滤掉虚假基因。

13、所述使用多种机器学习算法对训练集和测试集的差异基因进行筛选,对各算法所得到的保留基因求交集,并通过多次迭代选择出最具有预测性和稳健性的基因集合,包括:

14、将差异表达基因数据输入随机森林模型进行分析,选择模型中x.incmse参数大于0的基因;

15、将差异表达基因数据输入lasso模型进行分析,选择模型中系数不为0的基因;

16、将差异表达基因数据输入支持向量机模型,利用10折交叉验证对差异基因进行排序,并选择排名靠前的预设占比的基因;优选地,所述预设占比为百分之50;

17、对通过以上三种模型选择得到的基因求交集,并进行迭代选择出所述基因集合。

18、构建各辅助诊断子模型的所述多种机器学习算法包括:lasso、随机森林(randomforest,rf)、支持向量机(supportvectormachine,svm)、决策树(decisiontrees,rpart)、岭回归(ridgeregression,ridge)、弹性网络(elasticnet,elastic)、广义线性模型(generalizedlinearmodel,glm)、朴素贝叶斯(naivebayes,nb)、梯度提升机(gradientboostingmachine,gbm)。

19、按照下式对各辅助诊断子模型的预测结果进行拟合:s=(9.546e+00)+(-2.970e+02×elasso)+(-2726e+01×eridge)+(2.665e+02×eelastic)+(4.562e-01×erf)+(0-5.804e+00×esvm)+(5.321e+01×eglm)+(-0.01e+00×erpart)+(9.268e-01×egbm)+(9.936e-03×enaivebayes)

20、式中,s为风险评分,elasso、eridge、eelastic、erf、esvm、eglm、erpart、egbm、enaivebayes分别代表各辅助诊断子模型在集成学习中的风险预测指标。

21、所述宏转录组数据中的差异表达基因包括:"ap2s1"、"wdr44"、"guk1"、"tgoln2"、"cox8a"。

22、一种基于集成学习的肺部真菌感染的辅助诊断装置,包括:

23、第一处理模块:对可用于回顾性研究的宏转录组数据进行真菌感染检测分组,筛选出差异表达基因,使用所述差异表达基因构建训练集和测试集;

24、第二处理模块:使用多种机器学习算法对训练集和测试集的差异基因进行筛选,对各算法所得到的保留基因求交集,并通过多次迭代选择出最具有预测性和稳健性的基因集合;

25、第三处理模块:使用多种机器学习算法分别构建辅助诊断子模型,各辅助诊断子模型分别使用所述基因集合进行预测,且各辅助诊断子模型的预测结果使用广义线性模型glm进行拟合,形成使用集成学习的方式进行最终风险预测的辅助诊断模式。

26、一种计算机可读存储介质,存储有计算机程序,所述计算机程序由处理器执行时,实现所述的基于集成学习的肺部真菌感染的辅助诊断方法。

27、本专利技术具有如下有益效果:

28、本专利技术提供了一种基于集成学习的肺部真菌感染的辅助诊断方法和装置,筛选用于辅助诊断肺部真菌感染的宏转录组人源基因,以及基于这些基因构建一种基于集成学习的肺部真菌感染风险预测模型,实现辅助诊断,本专利技术的辅助诊断具有准确性、稳定性和独立性,经过验证,能够提高对肺部真菌感染患者的风险评估能力,有助于有效识别是否存在真菌感染微生物的患者。

29、本专利技术优选实施例中,通过对源自患者的宏转录组数据分析,确定了以"ap2s1"、"wdr44"、"guk1"、"tgoln2"、"cox8a"为主的五个基因在构建诊断患者是否发生真菌感染的辅助诊断模型中的应用。本专利技术所建立的预测模型的准确性、稳定性和独立性在多次随机实验中得到验证。本专利技术的辅助诊断方法和装置能够在临床早期干预阶段提供更快速、更便捷的辅助诊断结果给医生,为患者赢得本文档来自技高网...

【技术保护点】

1.一种基于集成学习的肺部真菌感染的辅助诊断方法,其特征在于,包括在计算机上处理完成的如下步骤:

2.如权利要求1所述的辅助诊断方法,其特征在于,所述筛选出差异表达基因包括:

3.如权利要求2所述的辅助诊断方法,其特征在于,所述统计指标包括p-value和logFC。

4.如权利要求1至3任一项所述的辅助诊断方法,其特征在于,在构建训练集和测试集之前,还包括从所述差异表达基因中过滤掉虚假基因。

5.如权利要求1至4任一项所述的辅助诊断方法,其特征在于,所述使用多种机器学习算法对训练集和测试集的差异基因进行筛选,对各算法所得到的保留基因求交集,并通过多次迭代选择出最具有预测性和稳健性的基因集合,包括:

6.如权利要求1至4任一项所述的辅助诊断方法,其特征在于,构建各辅助诊断子模型的所述多种机器学习算法包括:LASSO、随机森林RF、支持向量机SVM、决策树Rpart、岭回归Ridge、弹性网络Elastic、广义线性模型GLM、朴素贝叶斯NB、梯度提升机GBM。

7.如权利要求6所述的辅助诊断方法,其特征在于,按照下式对各辅助诊断子模型的预测结果进行拟合:

8.如权利要求1至7任一项所述的辅助诊断方法,其特征在于,所述宏转录组数据中的差异表达基因包括:"AP2S1"、"WDR44"、"GUK1"、"TGOLN2"、"COX8A"。

9.一种基于集成学习的肺部真菌感染的辅助诊断装置,其特征在于,包括:

10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序由处理器执行时,实现如权利要求1至8任一项所述的基于集成学习的肺部真菌感染的辅助诊断方法。

...

【技术特征摘要】

1.一种基于集成学习的肺部真菌感染的辅助诊断方法,其特征在于,包括在计算机上处理完成的如下步骤:

2.如权利要求1所述的辅助诊断方法,其特征在于,所述筛选出差异表达基因包括:

3.如权利要求2所述的辅助诊断方法,其特征在于,所述统计指标包括p-value和logfc。

4.如权利要求1至3任一项所述的辅助诊断方法,其特征在于,在构建训练集和测试集之前,还包括从所述差异表达基因中过滤掉虚假基因。

5.如权利要求1至4任一项所述的辅助诊断方法,其特征在于,所述使用多种机器学习算法对训练集和测试集的差异基因进行筛选,对各算法所得到的保留基因求交集,并通过多次迭代选择出最具有预测性和稳健性的基因集合,包括:

6.如权利要求1至4任一项所述的辅助诊断方法,其特征在于,构建各辅助诊断子模型...

【专利技术属性】
技术研发人员:张天廖卫捷邓颖夏树涛王好谦
申请(专利权)人:清华大学深圳国际研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1