一种慢性肾脏病遗传基因风险筛查系统技术方案

技术编号:35595217 阅读:33 留言:0更新日期:2022-11-16 15:14
本发明专利技术公开了一种慢性肾脏病遗传基因风险筛查系统,该系统通过机器学习方法构建的慢性肾脏病遗传基因风险筛查分类模型实现,该系统包括:用于整理患者遗传基因信息数据的模块;用于进行数据预处理并将数据分为训练数据和测试数据的模块;用于利用训练数据训练模型的模块;用于将测试数据输入经训练后的模型进行模型测试的模块;用于将待检查的遗传基因信息输入模型,得到最终的风险报告的模块。本发明专利技术采用XGBoost方法训练慢性肾脏病遗传基因风险筛查分类模型,根据与肾病有关的遗传基因信息数据,可在早期筛查出慢性肾病高危人群,利于慢性肾病的防治。于慢性肾病的防治。于慢性肾病的防治。

【技术实现步骤摘要】
一种慢性肾脏病遗传基因风险筛查系统


[0001]本专利技术涉及机器学习领域,特别涉及一种慢性肾脏病遗传基因风险筛查系统。

技术介绍

[0002]我国慢性肾脏病(chronic kidney disease,CKD)人群患病率约为10.8%,CKD患者病情呈慢性进行性进展,最终发展至终末期肾病(即尿毒症)。慢性肾脏病具有高患病率、低知晓率和预后差等特点,我国慢性肾脏病及终末期肾脏病的主要构成均是肾炎,肾炎病程长,病情迁延,最终至慢性肾衰竭。近年来,医生发现慢性肾脏病与遗传因素具有一定程度的关联,因此建立一个有效的慢性肾脏病的遗传基因风险筛查装置进行早期慢性肾脏病普查,利于早发现早治疗,对提高我国肾脏疾病的防治水平具有重要的特殊意义。

技术实现思路

[0003]为了解决上述技术问题,本专利技术提出一种基于机器学习的慢性肾脏病遗传基因风险筛查系统,利用该系统和与肾病有关的遗传基因信息数据,筛查出慢性肾脏病高危人群。
[0004]本专利技术提出的一种慢性肾脏病遗传基因风险筛查系统,利用机器学习方法XGBoost构建慢性肾脏病遗传基因风险筛查的分类模型,运用与慢性肾脏病有关的遗传基因信息数据,面向慢性肾脏病患者是否会恶化发展为终末期肾病进行评估和预测,筛选出慢性肾脏病的潜在高危人群,做到早发现早预防早治疗。该系统包含数据采集模块、数据预处理模块、模型训练模块、模型预测模块和报告展示模块。
[0005]1、数据采集模块:采集慢性肾脏病患者的遗传基因信息数据和慢性肾脏病患者的恶化标签,整理遗传基因信息数据中每个基因点位的变异情况和变异类型,将其中与肾病相关的遗传基因信息数据整理为电子遗传基因信息数据(下文统称基因数据),并计算基因风险评分数值,得到基因数据集。同时建立慢性肾脏病遗传基因专业数据库,将整理好的电子数据及基因风险评分数值录入慢性肾脏病遗传基因专业数据库中。
[0006]所述采集慢性肾脏病患者的遗传基因信息数据,是通过专业的基因检测芯片和慢性肾脏病患者的血液样本进行基因检测得到;
[0007]所述恶化标签,即慢性肾脏病是否恶化,即是否达到终末期肾病或eGFR(肾小球滤过率)下降大于50%。其中,终末期肾病指eGFR<15ml/min/1.73m2或慢性肾脏病患者开始进行肾脏替代治疗,且达到终末期肾病或eGFR下降大于50%的时间持续3个月以上。
[0008]所述慢性肾脏病遗传基因专业数据库,是一个可查询和维护的全国联网数据库,用于记录维护患者的遗传基因信息数据,以及为未来可能的相关肾病医学研究和相关肾病遗传研究提供数据支持。
[0009]2、数据预处理模块:对数据采集模块得到的基因数据集进行预处理,包含数据清洗和特征归一化处理,通过数据清洗得到基因数据特征F=[f1,f2,

,f
n
],其中,f
i
表示第i个特征,n表示共有n个特征,然后通过特征归一化处理得到用于后续模型训练及预测的归一化基因数据特征表示X=[x1,x2,

,x
n
];将恶化标签处理为1和0的二分类标签Y,作为后
续模型训练及测试的标签,其中1表示患者的慢性肾脏病恶化,0表示慢性肾脏病没有恶化。最后将预处理后的基因数据集拆分为训练集和测试集。
[0010]所述数据清洗的方法,是对有缺失值的基因数据采用均值填补的方法,填补缺失值;
[0011]所述特征归一化处理,指通过如下公式将基因数据特征F映射到0

1之间,避免因为数据范围相差过大,增加模型训练的难度。
[0012][0013]上式中,f
i
表示对应患者的基因数据特征表示为F中的第i个基因数据特征,f
min
表示所有患者的第i个基因数据特征的最小值,f
max
表示所有患者的第i个基因数据特征的最大值。x
i
表示第i个基因数据特征被归一化之后的标准特征值。那么,最终归一化之后的基因数据特征表示为X=[x1,x2,

,x
n
]。
[0014]所述数据集拆分,即按照预设比例将预处理后的基因数据集拆分为训练集数据和测试集数据。具体地,采用python中的sklearn包中的train_test_split分割方法,将预处理后的基因数据集按照7:3的比例分为训练集和测试集。
[0015]3、模型训练模块:在该模块,通过机器学习XGBoost方法,通过数据预处理模块得到的训练集数据,训练构建的慢性肾脏病遗传基因风险筛查分类模型。
[0016]所述XGBoost方法是一种基于梯度提升决策树的算法,以顺序的方式将一系列相对较弱的基分类器集成为一个较强的分类器,它在当前决策树的基础上生成下一棵决策树,树中的结点是基因数据特征,依次从第T1棵树开始训练,在已经训练好第T1~T
t
‑1棵树后,就不再调整这第T1~T
t
‑1棵树,而继续训练第T
t
棵树。
[0017]所述慢性肾脏病遗传基因风险筛查的分类模型,即采用XGBoost方法建立的分类模型,输入数据为数据预处理模块得到的训练集基因数据特征X=[x1,x2,

,x
n
]以及训练集数据的样本的恶化标签,分类模型通过迭代训练,学习恶化样本和非恶化样本的基因数据特征分布,最终训练目标是得到用于后续慢性肾脏病基因风险筛查的分类模型,用于预测慢性肾脏病患者恶化的概率。当模型的准确度和AUC满足要求时,停止训练。
[0018]所述模型准确度,即测试集中分类正确的样本数占测试集中的总的样本数的比例。
[0019]所述AUC(Area Under Curve),即ROC(Receiver Operating Characteristic Curve)曲线下与坐标轴围成的面积。
[0020]4、模型预测模块:在该模块中,使用模型训练模块得到的慢性肾脏病基因风险筛查的分类模型,利用数据预处理得到的测试集数据,预测慢性肾脏病患者恶化的概率;进一步通过shap(SHapley Additive exPlanation)方法,输出每个基因特征的影响度,来对慢性肾脏病遗传基因风险筛查的分类模型的预测结果进行解释。
[0021]所述shap方法是一种模型解释方法,解释慢性肾脏病基因风险筛查的分类模型输出的预测结果,输出每一个基因数据特征对慢性肾脏病基因风险筛查的分类模型输出的预测结果的影响度,可以直观地观察到每一个基因数据特征对慢性肾脏病恶化的影响的大小以及正负情况,即观察到每一个与慢性肾脏病有关的基因的风险大小,从而最终达到建立起慢性肾脏病基因风险筛查的系统的目标,更有利于研究人员在未来更关注对慢性肾脏病
影响更高的基因风险研究。
[0022]所述shap方法将原始的复杂的慢性肾脏病基因风险筛查的分类模型转化为围绕每个数据点的简单线性加法,假设第i
′本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种慢性肾脏病遗传基因风险筛查系统,其特征在于,该系统包括数据采集模块、数据预处理模块、模型训练模块、模型预测模块和报告生成模块;其中,所述数据采集模块用于采集慢性肾脏病患者的遗传基因信息数据和慢性肾脏病患者的恶化标签,整理遗传基因信息数据中每个基因点位的变异情况和变异类型,将其中与肾病相关的遗传基因信息数据整理为电子遗传基因信息数据,即基因数据,并计算基因风险评分数值,得到基因数据集;同时建立慢性肾脏病遗传基因专业数据库,将整理好的基因数据及基因风险评分数值录入慢性肾脏病遗传基因专业数据库中;所述数据预处理模块用于对数据采集模块得到的基因数据集进行预处理,包含数据清洗和特征归一化处理,通过数据清洗得到基因数据特征F,然后通过特征归一化处理得到用于后续模型训练及预测的归一化基因数据特征表示X=[x1,x2,...,x
n
];将恶化标签处理为1和0的二分类标签Y,作为后续模型训练及测试的标签,其中1表示患者的慢性肾脏病恶化,0表示慢性肾脏病没有恶化,最后将预处理后的基因数据集按照预设比例拆分为训练集和测试集;所述数据清洗是对有缺失值的基因数据采用均值填补的方法,填补缺失值;所述特征归一化处理是指通过如下公式将得到的基因数据特征F映射到0

1之间,其中,基因数据特征表示为F=[f1,F2,...,f
n
],其中,f
i
表示第i个特征,n表示共有n个特征;上式中,f
i
表示对应患者的基因数据特征表示为F中的第i个特征,f
min
表示所有患者的第i个特征的最小值,f
max
表示所有患者的第i个特征的最大值;x
i
表示第i个基因数据特征被归一化之后的标准特征值,最终归一化之后的基因数据特征表示为X=[x1,x2,...,x
n
];所述模型训练模块通过机器学习XGBoost方法,根据数据预处理模块得到的训练集训练构建的慢性肾脏病遗传基因风险筛查分类模型;所述慢性肾脏病遗传基因风险筛查分类模型,输入数据为数据预处理模块得到的训练集中归一化基因数据特征X=[x1,x2,...,x
n
]以及训练集数据样本的恶化标签,该分类模型通过迭代训练,学习恶化样本和非恶化样本的基因数据特征分布,当模型的准确度和AUC满足要求时,停止训练,最终得到训练完成的慢性肾脏病遗传基因风险筛查分类模型,用于预测慢性肾脏病患者恶化的概率;所述模型的准确度,即测试集中分类正确的样本数占测试集中的总的样本数的比例;所述AUC,即ROC曲线下与坐标轴围成的面积;所述模型预测模块使用模型训练模块得到的训练完成的慢性肾脏病遗传基因风险筛查分类模型,利用数据预处理得到的测试集中的数据样本,即测试集样本,预测慢性肾脏病患者恶化概率;进一步通过shap方法,输出每个基因特征的影响度,来对慢性肾脏病遗传基因风险筛查分类模型的预测结果进行解释;所述报告生成模块用于将慢性肾脏病遗传基因风险筛查分类模型输出的预测结果整理为风险报告,上传至终端,医生和患者均可在终端中查询报告结果;所述风险报告,包含待检查的遗传基因信息数据、慢性肾脏病遗传基因风险筛查分类模型根据待检查的遗传基因信息数据预测出的恶化概率预测值和对预测结果进行解释的基因特征影响度、患者的历史病历以及医生给出的防治建议。
2.根据权利要求1所述的慢性肾脏病遗传基因风险筛查系统,其特征在于,所述采集慢性肾脏病患者的遗传基因信息数据,是通过专业的基因检测芯片和慢性肾脏病患者的血液样本进行基因检测得到;所述恶化标签用于表征慢性肾...

【专利技术属性】
技术研发人员:段立新李文刘丹蕾魏凡越
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1