【技术实现步骤摘要】
基于融合采样算法的21
‑
三体综合症筛查系统
[0001]本专利技术属于医学筛查方法
,具体涉及一种基于融合采样算法的21
‑
三体综合症筛查系统。
技术介绍
[0002]21
‑
三体综合征即唐氏综合症,又称为先天愚型,是由21号染色体异常所导致,临床表现为智能落后、面容特殊和多发畸形。目前,针对21
‑
三体综合征尚无有效治疗方法,应对其最好的方式是产前筛查并及时终止妊娠。在我国进行21
‑
三体综合征产前筛查的主要方式是对孕妇进行母血筛查,检测对象为孕妇血清中人绒毛膜促性腺激素、甲胎蛋白和游离雌三醇水平。筛查后根据筛查结果对孕妇进行风险评估。
[0003]相关文献表明,由于目前广泛应用的母血筛查静态统计模型是根据欧美人的数据构建的,因此在中国人群中该中模型性能显著下降。据统计,我国国内21
‑
三体综合征的筛查准确率仅为60%
‑
70%,而误检率在3%
‑
13%。此外,截至 ...
【技术保护点】
【技术特征摘要】
1.一种基于融合采样算法的21
‑
三体综合征筛查系统,其特征在于包括数据预处理模块、过采样模块、欠采样模块和模型预测模块,其中数据预处理模块用于接收21
‑
三体综合征筛查结果的文本数据,并将数据进行标准化处理,同时对数据中缺失的文本进行填补;模型预测模块使用支持向量机SVM机器学习模型对数据预处理模块输出的数据进行21
‑
三体综合征的筛查与预测,并输出预测结果;所述过采样模块、欠采样模块用于提供训练模型预测模块的支持向量机SVM机器学习模型所用的数据;其中过采样模块学习经数据预处理模块处理的少数类21
‑
三体综合征样本中的特点,然后根据少数类的特点用过采样算法生成另外一部分新的少数类样本;欠采样模块学习经数据预处理模块输出的多数类21
‑
三体综合征样本中的特点,然后根据多数类的特点采用欠采样算法筛选出一定数量的多数类样本,使得所保留的多数类样本的数量不能超过过采样模块输出的全部少数类样本的2倍;过采样模块输出的全部少数类样本以及欠采样模块输出的多数类样本作为模型预测模块的支持向量机SVM机器学习模型的训练数据。2.根据权利要求1所述的一种基于融合采样算法的21
‑
三体综合征筛查系统,其特征在于所述的数据预处理模块接收的21
‑
三体综合征筛查结果的文本数据是指每个孕妇中孕期的21
‑
三体综合征筛查结果,每一结果看作一条21
‑
三体综合征样本,每个样本包含了6维特征样本,所述将数据标准化采用Z
‑
Score标准化方法对每一维特征样本进行数据标准化处理,公式如下:其中x
i,j
代表标准化后的第i个样本的第j维特征样本;x
′
i,j
代表原始数据的第i个样本的第j维特征样本;μ
j
代表全部21
‑
三体综合征样本中第j维特征样本中所有数据的平均值;σ
j
代表全部21
‑
三体综合征样本中第j维特征样本中所有数据的标准差。3.根据权利要求1所述的一种基于融合采样算法的21
‑
三体综合征筛查系统,其特征在于所述的过采样模块是采取基于Adaboost算法改进的SMOTE算法,该算法的具体过程如下:步骤一,将数据预处理模块处理好的少数类21
‑
三体综合征样本送入Adaboost模型进行训练,Adaboost模型是一种集成的高级模型,它是由多个低级的分类器首尾相连集合而成的,样本被送入Adaboost模型后,得到最后一个即第r个低级分类器为每个少数类21
‑
三体综合征样本分配的权重其中定义第r
‑
1个低级分类器的投票权重θ
r
‑1为:其中ε
r
‑1为第r
‑
1个低级分类器的错误率,即该分类器分类错误的样本数量/样本总数量*100%;则第r个低级分类器赋予样本x
p
的权重为:其中,y
p
代表一条21
‑
三体综合征样本x
p
的类别,0代表正常,1代表患21
‑
三体综合征,
f
r
‑1代表第r
‑
1个低级分类器,f
r
‑1(x
p
)代表第r
‑
1个低级分类器对样本x
p
的分类结果;步骤二,依据步骤一得到的权重和SMOTE算法对数据预处理模块处理好的少数类21
‑
三体综合征样本进行过采样:计算样本和样本之间欧氏距离和权重相结合的混合距离,依据混合距离来找出每个少数类样本的k个近邻样本,然后在当前少数类样本与其k个近邻样本之间生成另外一部分新的少数类样本,其中生成另外一部分新的少数类样本的规则如下:x
pq
=(x
p,1
+λ1(x
q,1
‑
x
p,1
),x
p,2
+λ2(x
q,2
‑
x
p,2
),...,x
p,n
+λ1(x
q,n
‑
x
p,n
))其中,λ1,λ2,...,λ
n
是0到1之间的随...
【专利技术属性】
技术研发人员:李玲,荆瑞航,宋柬霏,黄玉兰,张海蓉,
申请(专利权)人:盐城吉研智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。