基于级联机器学习模型的爱德华氏综合征筛查系统技术方案

技术编号:33461301 阅读:57 留言:0更新日期:2022-05-19 00:42
本发明专利技术属于医学筛查方法技术领域,具体涉及一种基于级联机器学习模型的爱德华氏综合征筛查系统;是基于相关性的特征选择算法(CFS)、随机森林RF机器学习模型和K近邻机器学习模型的爱德华氏综合征筛查系统,包括数据预处理模块、特征选择模块、模型预筛选模块、模型最终判决模块,对产前筛查数据集学习并分类,从而达到提高诊断准确率,筛选出与结局强相关的变量的效果。的变量的效果。

【技术实现步骤摘要】
基于级联机器学习模型的爱德华氏综合征筛查系统


[0001]本专利技术属于医学筛查方法
,具体涉及一种基于级联机器学习模型的爱德华氏综合征筛查系统。

技术介绍

[0002]爱德华氏综合征也称为18

三体综合征,是由染色体异常而导致的疾病。该疾病是继21

三体之后第二常见的常染色体三体综合征。活产患病率估计为1/6000

1/8000,但总体患病率较高(1/2500

1/2600),爱德华氏综合征的患病率随着母亲年龄的增加而增加。60%以上的患儿在胎内早期即流产,存活者有明显的智能障碍、特殊面容、生长发育迟缓和多发畸形。目前爱德华氏综合征尚缺乏有效的治疗方法,因此产前筛查是防止爱德华氏综合征患儿出生的有效措施。我国目前主要采用测定孕妇血清标记物、孕中期和晚期超声异常检测,并结合孕妇的年龄、孕妇外周血细胞染色体核型分析以及羊水细胞染色体检查来进行爱德华氏综合征筛查。
[0003]由于中国没有自己的筛查软件,目前,我国的产前筛查方案以及计算软件大多采用国外统计本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于级联机器学习模型的爱德华氏综合征筛查系统,其特征在于包括数据预处理模块、特征选择模块、模型预筛选模块和模型最终判决模块,其中数据预处理模块用于接收爱德华氏综合征筛查结果的文本数据,并将数据进行标准化处理,同时对数据中缺失的文本进行填补;特征选择模块将经过数据预处理模块后的文本数据使用基于相关性的特征选择算法进行与爱德华氏综合征筛查结果相关特征的选取;模型预筛选模块使用随机森林RF模型对特征选择模块提取出的特征所对应的数据进行爱德华氏综合征的筛查,在得出预测结果的同时找出随机森林RF模型预测错误的爱德华氏综合征文本数据,以进行下一阶段模型的最终判决;模型最终判决模块使用K近邻模型对模型预筛选模块得到的诊断错误的爱德华氏综合征文本数据进行最终判决,将诊断错误的爱德华氏综合征文本数据进行重新分类。2.根据权利要求1所述的一种基于级联机器学习模型的爱德华氏综合征筛查系统,其特征在于所述数据预处理模块接收的爱德华氏综合征筛查结果的文本数据是指孕妇中孕期的爱德华氏综合征筛查结果的文本数据,每一结果的文本数据看作一条爱德华氏综合征样本,每个爱德华氏综合征样本均包含58维特征;所述将数据进行标准化处理采用Min

Max标准化方法对每一维特征进行标准化,公式如下:其中:x
j
代表标准化后的一维特征,x
i
代表原始的一维特征,min(x)为全部爱德华氏综合征样本中该维度特征中所有数据的最小值,max(x)为全部爱德华氏综合征样本中该维度特征中所有数据的最大值;所述一维特征中若存在缺失数据,则用特定值去填补缺失的特征数据,填补完成后再采用Min

Max标准化方法进行标准化处理,其中对于连续型数据,采用中位数填补的方式填补;对于离散型数据,采用众数填补的方式填补。3.根据权利要求1所述的一种基于级联机器学习模型的爱德华氏综合征筛查系统,其特征在于所述特征选择模块选取与爱德华氏综合征筛查结果相关的特征,具体采用的是基于相关性的特征选择算法,具体过程如下:步骤一,从数据预处理模块输出的标准化后的爱德华氏综合征样本中分别计算出每一维特征分别与其他维特征之间的相关性,以及每一维特征与爱德华氏综合征预测类别的相关性,进而得到两个相关性矩阵;其中每一维特征分别与其他维特征之间的相关性按下式计算:其中:X1代表全部爱德华氏综合征样本中某一维特征下的所有数据,E(X1)代表该维特征下所有数据的数学期望,D(X1)对应的是该维特征下所有数据的方差,X2代表全部爱德华氏综合征样本中另一维特征下的所有数据,E(X2)对应的是该维特征下所有数据的数学期望,D(X2)对应的是该维特征下所有数据的方差;每一维特征与爱德华氏综合征预测类别的相关性按下式计算:
其中,X代表全部爱德华氏综合征样本中一维特征下的所有数据,E(X)代表该维特征下所有数据的数学期望,D(X)对应的是该维特征下所有数据的方差,Y代表每维特征的诊断结局,1为爱德华氏综合征,0为非爱德华氏综合征,E(Y)代表诊断结局这一列所有数据的数学期望,D(Y)代表诊断结局这一列所有数据的方差;步骤二,采用最佳优先搜索搜索特征子集,具体内容如下:首先给定一个空集M,接着依次向空集M中有放回的放入每一维特征并计算每维特征的估计值merit,选择估计值最大的一维特征进入M,然后选择估计值第二大的一维特征进入M,此时在M中形成一个组合特征,计算该组合特征的估计值,如果...

【专利技术属性】
技术研发人员:李玲宋柬霏荆瑞航黄玉兰张海蓉
申请(专利权)人:盐城吉研智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1