一种基于机器学习的遗传代谢病检出率提升方法技术

技术编号：21661040 阅读：21 留言：0更新日期：2019-07-20 06:13

本发明专利技术公开了一种基于机器学习的遗传代谢病检出率提升方法，包括以下步骤：S1、利用遗传代谢病的大样本数据，构建遗传代谢病风险评估模型；S2、从遗传代谢病风险评估模型中预测每种疾病的分数，并将分数映射为风险值；S3、利用新加入的筛查和确诊数据，遗传代谢病风险评估模型通过迭代提升筛查的检出率。本发明专利技术建立标准的遗传代谢病信息数据库，可以统一各单位的数据信息，将各个地区的信息整理在一起可以充分发挥并挖掘数据的价值。本发明专利技术提高了疾病检测的准确度，有效的降低了各遗传代谢病筛查的召回率，提升检出率，有效利用医疗资源。对32种遗传代谢病进行风险评估，辅助医生诊断，提高了医生的诊断效率。

A Method of Increasing Detection Rate of Genetic Metabolism Diseases Based on Machine Learning

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器学习的遗传代谢病检出率提升方法
本专利技术涉及医疗数据处理领域，尤其涉及一种基于机器学习的遗传代谢病检出率提升方法。
技术介绍
遗传性代谢缺陷疾病是指基因突变引起的酶缺陷，细胞功能异常或受体缺陷导致机体生化代谢紊乱，中间或旁路代谢产物蓄积终末代谢产物缺乏，出现系列临床症状的一组疾病。1990年Milington等开始将MS/MS技术应用于疾病筛查领域，使得一次实验检测多种疾病成为可能，能在2分钟内实现对几十种小分子物质的检测。快速、灵敏、特异性强、通量高、选择性强等特点使串联质谱技术在国际上被广泛应用，近几年在国内也被广泛推广。2000年8月由美国儿科学会第一次提到应用串联质谱技术检测先天性遗传代谢病组合成为可能，即用一个试验检测多种疾病，有多个标志物和多个临界值(临界值范围从0.1μm到1.000μm)。目前国际上许多国家在应用MS/MS技术对氨基酸、有机酸、酰基肉碱进行检测，从美国CDC的室间质量评估报告来看，正有1100多家实验室正在使用串联质谱检测技术，发表论文数百篇，我国在不同刊物上发表论文数十篇，从不同病种、不同区域、不同国家等角度对串联质谱筛查结果进行了分析评估并作出论述。人工智能是一门综合了计算机科学、电子工程、自动化、神经生物学、认知科学、心理学等的交叉学科。1956年，一场在美国达特茅斯(Dartmouth)大学召开的学术会议被认定为全球人工智能研究的起点。经过60多年的发展，人工智能技术在理论上取得了长足的进步，人工智能技术在医疗行业的应用也备受青睐，已成为医疗健康应用发展新的驱动力，推动着大数据医疗健康人工智能发展总体框...

【技术保护点】
1.一种基于机器学习的遗传代谢病检出率提升方法，其特征在于，包括以下步骤：S1、利用遗传代谢病的大样本数据，构建遗传代谢病风险评估模型；S2、从遗传代谢病风险评估模型中预测每种疾病的分数，并将分数映射为风险值；S3、利用新加入的筛查和确诊数据，遗传代谢病风险评估模型通过迭代提升筛查的检出率。

【技术特征摘要】
1.一种基于机器学习的遗传代谢病检出率提升方法，其特征在于，包括以下步骤：S1、利用遗传代谢病的大样本数据，构建遗传代谢病风险评估模型；S2、从遗传代谢病风险评估模型中预测每种疾病的分数，并将分数映射为风险值；S3、利用新加入的筛查和确诊数据，遗传代谢病风险评估模型通过迭代提升筛查的检出率。2.根据权利要求1中所述一种基于机器学习的遗传代谢病检出率提升方法，其特征在于，所述遗传代谢病风险评估模型，其构建过程包括以下步骤：S11、数据处理：包括基于人群大样本数据，该数据包括样本的背景信息，比如居住地、母亲年龄、孕周、出生体重以及MS/MS串联质谱检测的指标浓度值按地区进行分类，分别进行地区标准化中位数倍数MoM值处理、样本去重、剔除串列数据、去除标签性异常数据、修改更正错误的疾病标签；S12、数据学习：接收S11步骤处理后的数据集，分成训练集与测试集，采用机器学习中的集成方法对训练集进行训练，用测试集调优评估，得到最终的机器学习模型；S13、风险值评分：将机器学习模型对客户提供的样本进行预测，预测样本患上每种疾病的风险，通过风险值映射算法转换为0-100的分值；S14、判别分类：针对S3中风险值评分的分值，根据不同遗传代谢病在各地区的发病率的结果，设定各疾病不同的风险判断截断值，判别是否为疾病高风险；S15、显示，将判别分类结果进行显示。3.根据权利要求2中所述的一种基于机器学习的遗传代谢病检出率提升方法，其特征在于，所述地区标准化中位数倍数MoM值处理包括基于大样本增量计算不同采血间隔的指标中位数、中位数倍数MoM值映射，地区中位数倍数MoM值标准化计算方法如下：对应人口特征值的增量＝大样本对应人口特征值的中位数-大样本不区分人口特征值时的指标中位数；各地区中位数表＝各地区不区分人口特征值时的中位数+对应人口特征值的增量；对应地区中位数倍数MoM＝地区串联指标绝对值/对应地区对应人口特征值的中位数。4.根据权利要求3中所述的一种基于机器学习的遗传代谢病检出率提升方法，其特征在于，S11中去除标签性异常数据的算法如下：在数据处理阶段基于异常点检测算法K最近邻算法、极端梯度提升算法建立模型对标签异常的点进行筛选，在数据学习阶段使...

【专利技术属性】
技术研发人员：辛然，吕少磊，刘攀，
申请(专利权)人：杭州贝安云科技有限公司，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人