一种基于机器学习的遗传代谢病检出率提升方法技术

技术编号:21661040 阅读:21 留言:0更新日期:2019-07-20 06:13
本发明专利技术公开了一种基于机器学习的遗传代谢病检出率提升方法,包括以下步骤:S1、利用遗传代谢病的大样本数据,构建遗传代谢病风险评估模型;S2、从遗传代谢病风险评估模型中预测每种疾病的分数,并将分数映射为风险值;S3、利用新加入的筛查和确诊数据,遗传代谢病风险评估模型通过迭代提升筛查的检出率。本发明专利技术建立标准的遗传代谢病信息数据库,可以统一各单位的数据信息,将各个地区的信息整理在一起可以充分发挥并挖掘数据的价值。本发明专利技术提高了疾病检测的准确度,有效的降低了各遗传代谢病筛查的召回率,提升检出率,有效利用医疗资源。对32种遗传代谢病进行风险评估,辅助医生诊断,提高了医生的诊断效率。

A Method of Increasing Detection Rate of Genetic Metabolism Diseases Based on Machine Learning

【技术实现步骤摘要】
一种基于机器学习的遗传代谢病检出率提升方法
本专利技术涉及医疗数据处理领域,尤其涉及一种基于机器学习的遗传代谢病检出率提升方法。
技术介绍
遗传性代谢缺陷疾病是指基因突变引起的酶缺陷,细胞功能异常或受体缺陷导致机体生化代谢紊乱,中间或旁路代谢产物蓄积终末代谢产物缺乏,出现系列临床症状的一组疾病。1990年Milington等开始将MS/MS技术应用于疾病筛查领域,使得一次实验检测多种疾病成为可能,能在2分钟内实现对几十种小分子物质的检测。快速、灵敏、特异性强、通量高、选择性强等特点使串联质谱技术在国际上被广泛应用,近几年在国内也被广泛推广。2000年8月由美国儿科学会第一次提到应用串联质谱技术检测先天性遗传代谢病组合成为可能,即用一个试验检测多种疾病,有多个标志物和多个临界值(临界值范围从0.1μm到1.000μm)。目前国际上许多国家在应用MS/MS技术对氨基酸、有机酸、酰基肉碱进行检测,从美国CDC的室间质量评估报告来看,正有1100多家实验室正在使用串联质谱检测技术,发表论文数百篇,我国在不同刊物上发表论文数十篇,从不同病种、不同区域、不同国家等角度对串联质谱筛查结果进行了分析评估并作出论述。人工智能是一门综合了计算机科学、电子工程、自动化、神经生物学、认知科学、心理学等的交叉学科。1956年,一场在美国达特茅斯(Dartmouth)大学召开的学术会议被认定为全球人工智能研究的起点。经过60多年的发展,人工智能技术在理论上取得了长足的进步,人工智能技术在医疗行业的应用也备受青睐,已成为医疗健康应用发展新的驱动力,推动着大数据医疗健康人工智能发展总体框架的深度应用,在疾病诊疗、健康管理、药物研发、精准医学等方面作用凸显。由于遗传代谢病多为罕见病,难以积累病例提升医生判读能力,同时针对常见的70多个指标和比值构成的指标库难以提取疾病相关指标,基于大样本数据和病例,采用人工智能技术进行遗传代谢病风险评估的方法。
技术实现思路
本专利技术的目的是针对现有技术的缺陷,提供了一种基于机器学习的遗传代谢病检出率提升方法,提高了疾病检测的准确度,有效的降低了各遗传代谢病筛查的召回率,提升检出率,有效利用医疗资源。为了实现以上目的,本专利技术采用以下技术方案:一种基于机器学习的遗传代谢病检出率提升方法,包括以下步骤:S1、利用遗传代谢病的大样本数据,构建遗传代谢病风险评估模型;S2、从遗传代谢病风险评估模型中预测每种疾病的分数,并将分数映射为风险值;S3、利用新加入的筛查和确诊数据,遗传代谢病风险评估模型通过迭代提升筛查的检出率。进一步的,所述遗传代谢病风险评估模型,其构建过程包括数据以下步骤:S11、数据处理:包括基于人群大样本数据,该数据包括样本的背景信息,比如居住地、母亲年龄、孕周、出生体重以及MS/MS串联质谱检测的指标浓度等。指标浓度值按地区进行分类,分别进行地区标准化中位数倍数MoM值处理、样本去重、剔除串列数据、去除标签性异常数据、修改更正错误的疾病标签;S12、数据学习:接收S11步骤处理后的数据集,分成训练集与测试集,采用机器学习中的集成方法对训练集进行训练,用测试集调优评估,得到最终的机器学习模型;S13、风险值评分:将机器学习模型对客户提供的样本进行预测,预测样本患上每种疾病的风险,通过风险值映射算法(转换为0-100的分值,;S14、判别分类:针对S3中风险值评分的分值,根据不同遗传代谢病在各地区的发病率的结果,设定各疾病不同的风险判断截断值,判别是否为疾病高风险;S15、显示,将判别分类结果进行显示。进一步的,所述地区标准化中位数倍数MoM值处理包括基于大样本增量计算不同采血间隔的指标中位数、中位数倍数MoM值映射,地区中位数倍数MoM值标准化计算方法如下:对应人口特征值的增量=大样本对应人口特征值的中位数-大样本不区分人口特征值时的指标中位数;各地区中位数表=各地区不区分人口特征值时的中位数+对应人口特征值的增量;对应地区中位数倍数MoM=地区串联指标绝对值/对应地区对应人口特征值的中位数。基于MS/MS串联质谱指标会随采血间隔、孕周、体重人口特征波动的情况,而各人口特征样本量均可能对中位数的准确度产生影响,于是使用了一套增量方案对各地区的中位数进行调整,以获得更加精确的中位数表。进一步的,S11中去除标签性异常数据的算法如下:在数据处理阶段基于异常点检测算法K最近邻算法(KNN)、极端梯度提升算法(eXtremeGradientBoosting)建立模型对标签异常的点进行筛选,在数据学习阶段使用异常检测算法对于分类边界的异常点单点去除。进一步的,所述的数据学习步骤,将训练数据按遗传代谢病疾病分型分类,S11中修改更正错误的疾病标签的训练,根据疾病在MS/MS串联质谱指标表征上的一致性,训练过程如下:S111、特征工程优选使用综合特征,对各项指标进行求均值、中位数、众数、比值的方法进行合并,使用估计统计量的重采样方法进行子抽样,设置随机种子,使用轻量级梯度提升算法LightGradientBoostingMachine,LightGBM(机器学习领域方法为现有技术)叶子节点提取差异性的有效特征,重复100次,得出最终的特征向量,再进行子抽样,发送给判别分类单元。S112、使用异常检测算法或调整训练模型的规模权重参数的方法修改模型在正负样本上的权重,解决不平衡数据可能对模型结果造成的不良影响。S113、优选使用自适应增强算法(AdaptiveBoosting),梯度提升树算法(GradientBoostingDecisonTree),极端梯度提升算法(eXtremeGradientBoosting,)轻量级梯度提升算法(LightGradientBoostingMachine),具有分类特征支持的梯度提升算法(CatBoost算法)对模型进行训练;S114、优选使用套袋分层(BaggingStacking),对各类模型结果进行融合。进一步的,步骤S13风险值评分还包括将大样本数据使用S12数据学习步骤建立的机器学习模型进行预测,将原有的大样本数据得到模型结果与后续客户提供的新样本得出的模型结果合并,排序得出新样本在大样本数据中的排名情况。风险计算公式如下:其中,RiskScore为最终风险值评分,Rankconcat为新样本与大样本的合并数据集中的排名,Ranknew为新样本在新样本数据集中的排名Countall为大样本的总数。进一步的,所述S15显示步骤中,将判别分类的结果,疾病是否高风险显示,同时展示对应数据是否存在蛋白污染的情况,提供辅助建议,蛋白污染判别条件:Median(AnimosMoM)>2其中,AnimosMoM为对应氨基酸的标准化中位数倍数MoM值向量,Median为对应中位数。进一步的,新的筛查和确诊数据可持续纳入数据库。随着数据量的增多,会为模型带来新的特征,定期利用所有数据更新所有模型,提升模型的效果。采用本专利技术技术方案,本专利技术的有益效果为:与现有技术相比,本专利技术建立标准的遗传代谢病信息数据库,可以统一各单位的数据信息,将各个地区的信息整理在一起可以充分发挥并挖掘数据的价值。本专利技术提高了疾病检测的准确度,有效的降低了各遗传代谢病筛查的召回率,提升检出率,有效利用医疗本文档来自技高网
...

【技术保护点】
1.一种基于机器学习的遗传代谢病检出率提升方法,其特征在于,包括以下步骤:S1、利用遗传代谢病的大样本数据,构建遗传代谢病风险评估模型;S2、从遗传代谢病风险评估模型中预测每种疾病的分数,并将分数映射为风险值;S3、利用新加入的筛查和确诊数据,遗传代谢病风险评估模型通过迭代提升筛查的检出率。

【技术特征摘要】
1.一种基于机器学习的遗传代谢病检出率提升方法,其特征在于,包括以下步骤:S1、利用遗传代谢病的大样本数据,构建遗传代谢病风险评估模型;S2、从遗传代谢病风险评估模型中预测每种疾病的分数,并将分数映射为风险值;S3、利用新加入的筛查和确诊数据,遗传代谢病风险评估模型通过迭代提升筛查的检出率。2.根据权利要求1中所述一种基于机器学习的遗传代谢病检出率提升方法,其特征在于,所述遗传代谢病风险评估模型,其构建过程包括以下步骤:S11、数据处理:包括基于人群大样本数据,该数据包括样本的背景信息,比如居住地、母亲年龄、孕周、出生体重以及MS/MS串联质谱检测的指标浓度值按地区进行分类,分别进行地区标准化中位数倍数MoM值处理、样本去重、剔除串列数据、去除标签性异常数据、修改更正错误的疾病标签;S12、数据学习:接收S11步骤处理后的数据集,分成训练集与测试集,采用机器学习中的集成方法对训练集进行训练,用测试集调优评估,得到最终的机器学习模型;S13、风险值评分:将机器学习模型对客户提供的样本进行预测,预测样本患上每种疾病的风险,通过风险值映射算法转换为0-100的分值;S14、判别分类:针对S3中风险值评分的分值,根据不同遗传代谢病在各地区的发病率的结果,设定各疾病不同的风险判断截断值,判别是否为疾病高风险;S15、显示,将判别分类结果进行显示。3.根据权利要求2中所述的一种基于机器学习的遗传代谢病检出率提升方法,其特征在于,所述地区标准化中位数倍数MoM值处理包括基于大样本增量计算不同采血间隔的指标中位数、中位数倍数MoM值映射,地区中位数倍数MoM值标准化计算方法如下:对应人口特征值的增量=大样本对应人口特征值的中位数-大样本不区分人口特征值时的指标中位数;各地区中位数表=各地区不区分人口特征值时的中位数+对应人口特征值的增量;对应地区中位数倍数MoM=地区串联指标绝对值/对应地区对应人口特征值的中位数。4.根据权利要求3中所述的一种基于机器学习的遗传代谢病检出率提升方法,其特征在于,S11中去除标签性异常数据的算法如下:在数据处理阶段基于异常点检测算法K最近邻算法、极端梯度提升算法建立模型对标签异常的点进行筛选,在数据学习阶段使...

【专利技术属性】
技术研发人员:辛然吕少磊刘攀
申请(专利权)人:杭州贝安云科技有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1