基于级联机器学习模型的爱德华氏综合征筛查系统技术方案

技术编号:33461301 阅读:39 留言:0更新日期:2022-05-19 00:42
本发明专利技术属于医学筛查方法技术领域,具体涉及一种基于级联机器学习模型的爱德华氏综合征筛查系统;是基于相关性的特征选择算法(CFS)、随机森林RF机器学习模型和K近邻机器学习模型的爱德华氏综合征筛查系统,包括数据预处理模块、特征选择模块、模型预筛选模块、模型最终判决模块,对产前筛查数据集学习并分类,从而达到提高诊断准确率,筛选出与结局强相关的变量的效果。的变量的效果。

【技术实现步骤摘要】
基于级联机器学习模型的爱德华氏综合征筛查系统


[0001]本专利技术属于医学筛查方法
,具体涉及一种基于级联机器学习模型的爱德华氏综合征筛查系统。

技术介绍

[0002]爱德华氏综合征也称为18

三体综合征,是由染色体异常而导致的疾病。该疾病是继21

三体之后第二常见的常染色体三体综合征。活产患病率估计为1/6000

1/8000,但总体患病率较高(1/2500

1/2600),爱德华氏综合征的患病率随着母亲年龄的增加而增加。60%以上的患儿在胎内早期即流产,存活者有明显的智能障碍、特殊面容、生长发育迟缓和多发畸形。目前爱德华氏综合征尚缺乏有效的治疗方法,因此产前筛查是防止爱德华氏综合征患儿出生的有效措施。我国目前主要采用测定孕妇血清标记物、孕中期和晚期超声异常检测,并结合孕妇的年龄、孕妇外周血细胞染色体核型分析以及羊水细胞染色体检查来进行爱德华氏综合征筛查。
[0003]由于中国没有自己的筛查软件,目前,我国的产前筛查方案以及计算软件大多采用国外统计数据的标准。由于种族以及自身体质的不同,这些产前筛查软件应用到国内会出现准确率降低的问题,据统计爱德华氏综合征筛查的准确率仅为65%左右。目前我国普遍采用的产前筛查方法是羊膜穿刺术或绒毛取样(CVS)检测,这一度被称为染色体异常检测的“金标准”。然而,这种方法是侵入性的,检查过程中胎儿损伤、羊膜穿刺术的流产率约为0.4%,绒毛取样的流产率约为1.1%。因此在使用上收到了极大地限制。
[0004]近年来,随着机器学习技术的发展,机器学习方法已广泛应用于癌症诊断以及其他常见疾病的预测。精确的计算机辅助工具有助于加快疾病的诊断,减少医生工作量的同时提高工作效率,带来更精确、更高效的诊断结果。
[0005]产前筛查数据是医疗数据中一类较为特殊的数据,具有严重的非均衡性。基于上述原因,机器学习在爱德华氏综合征筛查中的应用鲜有报道。相关文献考虑数据量较少,未能充分体现出产前筛查数据的严重非均衡性。与均衡数据的分类问题相比,很明显非均衡数据的分类问题要困难得多。传统的机器学习模型针对非均衡数据集的分类效果并不好,难以应用于爱德华氏综合征的筛查。
[0006]级联式机器学习模型是一种适用于非均衡数据集的融合式机器学习算法。该算法的本质是针对不同机器学习模型的优缺点,将两种不同的机器学习算法相结合,将第一阶段未能筛选出的阳性样本送入到第二阶段继续筛选,从而尽可能达到在误检率低的前提下筛出绝大多数阳性样本的效果。两种机器学习模型能够将各自的优势互补,结合后的算法在非均衡数据集的分类准确率方面有了很大提升。目前,该方法大多用于工业界,还没有应用于爱德华氏综合征的筛查。

技术实现思路

[0007]为了克服上述问题,本专利技术提供一种基于级联机器学习模型的爱德华氏综合征筛
查系统,是基于相关性的特征选择算法(CFS)、随机森林RF机器学习模型和K近邻机器学习模型的爱德华氏综合征筛查系统,包括数据预处理模块、特征选择模块、模型预筛选模块、模型最终判决模块,对产前筛查数据集学习并分类,从而达到提高诊断准确率,筛选出与结局强相关的变量的效果。
[0008]一种基于级联机器学习模型的爱德华氏综合征筛查系统,包括数据预处理模块、特征选择模块、模型预筛选模块和模型最终判决模块,其中数据预处理模块用于接收爱德华氏综合征筛查结果的文本数据,并将数据进行标准化处理,同时对数据中缺失的文本进行填补;
[0009]特征选择模块将经过数据预处理模块后的文本数据使用基于相关性的特征选择算法进行与爱德华氏综合征筛查结果相关特征的选取;
[0010]模型预筛选模块使用随机森林RF模型对特征选择模块提取出的特征所对应的数据进行爱德华氏综合征的筛查,在得出预测结果的同时找出随机森林RF模型预测错误的爱德华氏综合征文本数据,以进行下一阶段模型的最终判决;
[0011]模型最终判决模块使用K近邻模型对模型预筛选模块得到的诊断错误的爱德华氏综合征文本数据进行最终判决,将诊断错误的爱德华氏综合征文本数据进行重新分类。
[0012]所述数据预处理模块接收的爱德华氏综合征筛查结果的文本数据是指孕妇中孕期的爱德华氏综合征筛查结果的文本数据,每一结果的文本数据看作一条爱德华氏综合征样本,每个爱德华氏综合征样本均包含58维特征;所述将数据进行标准化处理采用Min

Max标准化方法对每一维特征进行标准化,公式如下:
[0013][0014]其中:x
j
代表标准化后的一维特征,x
i
代表原始的一维特征,min(x)为全部爱德华氏综合征样本中该维度特征中所有数据的最小值,max(x)为全部爱德华氏综合征样本中该维度特征中所有数据的最大值;
[0015]所述一维特征中若存在缺失数据,则用特定值去填补缺失的特征数据,填补完成后再采用Min

Max标准化方法进行标准化处理,其中对于连续型数据,采用中位数填补的方式填补;对于离散型数据,采用众数填补的方式填补。
[0016]所述特征选择模块选取与爱德华氏综合征筛查结果相关的特征,具体采用的是基于相关性的特征选择算法,具体过程如下:
[0017]步骤一,从数据预处理模块输出的标准化后的爱德华氏综合征样本中分别计算出每一维特征分别与其他维特征之间的相关性,以及每一维特征与爱德华氏综合征预测类别的相关性,进而得到两个相关性矩阵;
[0018]其中每一维特征分别与其他维特征之间的相关性按下式计算:
[0019][0020]其中:X1代表全部爱德华氏综合征样本中某一维特征下的所有数据,E(X1)代表该维特征下所有数据的数学期望,D(X1)对应的是该维特征下所有数据的方差,X2代表全部爱德华氏综合征样本中另一维特征下的所有数据,E(X2)对应的是该维特征下所有数据的数学期望,D(X2)对应的是该维特征下所有数据的方差;
[0021]每一维特征与爱德华氏综合征预测类别的相关性按下式计算:
[0022][0023]其中,X代表全部爱德华氏综合征样本中一维特征下的所有数据,E(X)代表该维特征下所有数据的数学期望,D(X)对应的是该维特征下所有数据的方差,Y代表每维特征的诊断结局,1为爱德华氏综合征,0为非爱德华氏综合征,E(Y)代表诊断结局这一列所有数据的数学期望,D(Y)代表诊断结局这一列所有数据的方差;
[0024]步骤二,采用最佳优先搜索搜索特征子集,具体内容如下:
[0025]首先给定一个空集M,接着依次向空集M中有放回的放入每一维特征并计算每维特征的估计值merit,选择估计值最大的一维特征进入M,然后选择估计值第二大的一维特征进入M,此时在M中形成一个组合特征,计算该组合特征的估计值,如果该组合特征的估计值小于最先进入M中估计值最大的特征原来的估计值,则去除这个估计值第二大的特征,如果该组合特征的估计值不小于最先进入M中估本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于级联机器学习模型的爱德华氏综合征筛查系统,其特征在于包括数据预处理模块、特征选择模块、模型预筛选模块和模型最终判决模块,其中数据预处理模块用于接收爱德华氏综合征筛查结果的文本数据,并将数据进行标准化处理,同时对数据中缺失的文本进行填补;特征选择模块将经过数据预处理模块后的文本数据使用基于相关性的特征选择算法进行与爱德华氏综合征筛查结果相关特征的选取;模型预筛选模块使用随机森林RF模型对特征选择模块提取出的特征所对应的数据进行爱德华氏综合征的筛查,在得出预测结果的同时找出随机森林RF模型预测错误的爱德华氏综合征文本数据,以进行下一阶段模型的最终判决;模型最终判决模块使用K近邻模型对模型预筛选模块得到的诊断错误的爱德华氏综合征文本数据进行最终判决,将诊断错误的爱德华氏综合征文本数据进行重新分类。2.根据权利要求1所述的一种基于级联机器学习模型的爱德华氏综合征筛查系统,其特征在于所述数据预处理模块接收的爱德华氏综合征筛查结果的文本数据是指孕妇中孕期的爱德华氏综合征筛查结果的文本数据,每一结果的文本数据看作一条爱德华氏综合征样本,每个爱德华氏综合征样本均包含58维特征;所述将数据进行标准化处理采用Min

Max标准化方法对每一维特征进行标准化,公式如下:其中:x
j
代表标准化后的一维特征,x
i
代表原始的一维特征,min(x)为全部爱德华氏综合征样本中该维度特征中所有数据的最小值,max(x)为全部爱德华氏综合征样本中该维度特征中所有数据的最大值;所述一维特征中若存在缺失数据,则用特定值去填补缺失的特征数据,填补完成后再采用Min

Max标准化方法进行标准化处理,其中对于连续型数据,采用中位数填补的方式填补;对于离散型数据,采用众数填补的方式填补。3.根据权利要求1所述的一种基于级联机器学习模型的爱德华氏综合征筛查系统,其特征在于所述特征选择模块选取与爱德华氏综合征筛查结果相关的特征,具体采用的是基于相关性的特征选择算法,具体过程如下:步骤一,从数据预处理模块输出的标准化后的爱德华氏综合征样本中分别计算出每一维特征分别与其他维特征之间的相关性,以及每一维特征与爱德华氏综合征预测类别的相关性,进而得到两个相关性矩阵;其中每一维特征分别与其他维特征之间的相关性按下式计算:其中:X1代表全部爱德华氏综合征样本中某一维特征下的所有数据,E(X1)代表该维特征下所有数据的数学期望,D(X1)对应的是该维特征下所有数据的方差,X2代表全部爱德华氏综合征样本中另一维特征下的所有数据,E(X2)对应的是该维特征下所有数据的数学期望,D(X2)对应的是该维特征下所有数据的方差;每一维特征与爱德华氏综合征预测类别的相关性按下式计算:
其中,X代表全部爱德华氏综合征样本中一维特征下的所有数据,E(X)代表该维特征下所有数据的数学期望,D(X)对应的是该维特征下所有数据的方差,Y代表每维特征的诊断结局,1为爱德华氏综合征,0为非爱德华氏综合征,E(Y)代表诊断结局这一列所有数据的数学期望,D(Y)代表诊断结局这一列所有数据的方差;步骤二,采用最佳优先搜索搜索特征子集,具体内容如下:首先给定一个空集M,接着依次向空集M中有放回的放入每一维特征并计算每维特征的估计值merit,选择估计值最大的一维特征进入M,然后选择估计值第二大的一维特征进入M,此时在M中形成一个组合特征,计算该组合特征的估计值,如果...

【专利技术属性】
技术研发人员:李玲宋柬霏荆瑞航黄玉兰张海蓉
申请(专利权)人:盐城吉研智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1