一种慢性肾脏病遗传基因风险筛查系统技术方案

技术编号：35595217 阅读：33 留言：0更新日期：2022-11-16 15:14

本发明专利技术公开了一种慢性肾脏病遗传基因风险筛查系统，该系统通过机器学习方法构建的慢性肾脏病遗传基因风险筛查分类模型实现，该系统包括：用于整理患者遗传基因信息数据的模块；用于进行数据预处理并将数据分为训练数据和测试数据的模块；用于利用训练数据训练模型的模块；用于将测试数据输入经训练后的模型进行模型测试的模块；用于将待检查的遗传基因信息输入模型，得到最终的风险报告的模块。本发明专利技术采用XGBoost方法训练慢性肾脏病遗传基因风险筛查分类模型，根据与肾病有关的遗传基因信息数据，可在早期筛查出慢性肾病高危人群，利于慢性肾病的防治。于慢性肾病的防治。于慢性肾病的防治。

全部详细技术资料下载

【技术实现步骤摘要】
一种慢性肾脏病遗传基因风险筛查系统

[0001]本专利技术涉及机器学习领域，特别涉及一种慢性肾脏病遗传基因风险筛查系统。

技术介绍

[0002]我国慢性肾脏病(chronic kidney disease,CKD)人群患病率约为10.8％，CKD患者病情呈慢性进行性进展，最终发展至终末期肾病(即尿毒症)。慢性肾脏病具有高患病率、低知晓率和预后差等特点，我国慢性肾脏病及终末期肾脏病的主要构成均是肾炎，肾炎病程长，病情迁延，最终至慢性肾衰竭。近年来，医生发现慢性肾脏病与遗传因素具有一定程度的关联，因此建立一个有效的慢性肾脏病的遗传基因风险筛查装置进行早期慢性肾脏病普查，利于早发现早治疗，对提高我国肾脏疾病的防治水平具有重要的特殊意义。

技术实现思路

[0003]为了解决上述技术问题，本专利技术提出一种基于机器学习的慢性肾脏病遗传基因风险筛查系统，利用该系统和与肾病有关的遗传基因信息数据，筛查出慢性肾脏病高危人群。
[0004]本专利技术提出的一种慢性肾脏病遗传基因风险筛查系统，利用机器学习方法XGBoost构建慢性肾脏病遗传基因风险筛查的分类模型，运用与慢性肾脏病有关的遗传基因信息数据，面向慢性肾脏病患者是否会恶化发展为终末期肾病进行评估和预测，筛选出慢性肾脏病的潜在高危人群，做到早发现早预防早治疗。该系统包含数据采集模块、数据预处理模块、模型训练模块、模型预测模块和报告展示模块。
[0005]1、数据采集模块：采集慢性肾脏病患者的遗传基因信息数据和慢性肾脏病患者的恶化标签，整理遗传基因信...

【技术保护点】

【技术特征摘要】
1.一种慢性肾脏病遗传基因风险筛查系统，其特征在于，该系统包括数据采集模块、数据预处理模块、模型训练模块、模型预测模块和报告生成模块；其中，所述数据采集模块用于采集慢性肾脏病患者的遗传基因信息数据和慢性肾脏病患者的恶化标签，整理遗传基因信息数据中每个基因点位的变异情况和变异类型，将其中与肾病相关的遗传基因信息数据整理为电子遗传基因信息数据，即基因数据，并计算基因风险评分数值，得到基因数据集；同时建立慢性肾脏病遗传基因专业数据库，将整理好的基因数据及基因风险评分数值录入慢性肾脏病遗传基因专业数据库中；所述数据预处理模块用于对数据采集模块得到的基因数据集进行预处理，包含数据清洗和特征归一化处理，通过数据清洗得到基因数据特征F，然后通过特征归一化处理得到用于后续模型训练及预测的归一化基因数据特征表示X＝[x1，x2，...，x
n
]；将恶化标签处理为1和0的二分类标签Y，作为后续模型训练及测试的标签，其中1表示患者的慢性肾脏病恶化，0表示慢性肾脏病没有恶化，最后将预处理后的基因数据集按照预设比例拆分为训练集和测试集；所述数据清洗是对有缺失值的基因数据采用均值填补的方法，填补缺失值；所述特征归一化处理是指通过如下公式将得到的基因数据特征F映射到0
‑
1之间，其中，基因数据特征表示为F＝[f1，F2，...，f
n
]，其中，f
i
表示第i个特征，n表示共有n个特征；上式中，f
i
表示对应患者的基因数据特征表示为F中的第i个特征，f
min
表示所有患者的第i个特征的最小值，f
max
表示所有患者的第i个特征的最大值；x
i
表示第i个基因数据特征被归一化之后的标准特征值，最终归一化之后的基因数据特征表示为X＝[x1，x2，...，x
n
]；所述模型训练模块通过机器学习XGBoost方法，根据数据预处理模块得到的训练集训练构建的慢性肾脏病遗传基因风险筛查分类模型；所述慢性肾脏病遗传基因风险筛查分类模型，输入数据为数据预处理模块得到的训练集中归一化基因数据特征X＝[x1，x2，...，x
n
]以及训练集数据样本的恶化标签，该分类模型通过迭代训练，学习恶化样本和非恶化样本的基因数据特征分布，当模型的准确度和AUC满足要求时，停止训练，最终得到训练完成的慢性肾脏病遗传基因风险筛查分类模型，用于预测慢性肾脏病患者恶化的概率；所述模型的准确度，即测试集中分类正确的样本数占测试集中的总的样本数的比例；所述AUC，即ROC曲线下与坐标轴围成的面积；所述模型预测模块使用模型训练模块得到的训练完成的慢性肾脏病遗传基因风险筛查分类模型，利用数据预处理得到的测试集中的数据样本，即测试集样本，预测慢性肾脏病患者恶化概率；进一步通过shap方法，输出每个基因特征的影响度，来对慢性肾脏病遗传基因风险筛查分类模型的预测结果进行解释；所述报告生成模块用于将慢性肾脏病遗传基因风险筛查分类模型输出的预测结果整理为风险报告，上传至终端，医生和患者均可在终端中查询报告结果；所述风险报告，包含待检查的遗传基因信息数据、慢性肾脏病遗传基因风险筛查分类模型根据待检查的遗传基因信息数据预测出的恶化概率预测值和对预测结果进行解释的基因特征影响度、患者的历史病历以及医生给出的防治建议。
2.根据权利要求1所述的慢性肾脏病遗传基因风险筛查系统，其特征在于，所述采集慢性肾脏病患者的遗传基因信息数据，是通过专业的基因检测芯片和慢性肾脏病患者的血液样本进行基因检测得到；所述恶化标签用于表征慢性肾...

【专利技术属性】
技术研发人员：段立新，李文，刘丹蕾，魏凡越，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人