一种数据校正及分类方法及存储介质技术

技术编号:29706691 阅读:11 留言:0更新日期:2021-08-17 14:36
本申请公开了一种数据校正及分类方法及存储介质。该数据校正及分类方法包括:获取序列数据步骤,数据校准步骤,数据重建步骤,分类步骤,鉴别器训练步骤,以及推测目标批次标签向量步骤。实现了批次效应的校正,解决两个批次数据分布高度不匹配的问题。我们提出了一个端到端的联合深度学习框架在数据校正的基础上对序列数据进行分类,在流式细胞仪和激光解析电离质谱的数据上验证了上述框架,特别是对于后者而言诊断精确度大幅度提升,与当前最先进的主流方法相比平均值提高了约5.5〜7.9%。实验证明我们开发的方法其性能明显优于传统方法,克服了批次效应的影响。

【技术实现步骤摘要】
一种数据校正及分类方法及存储介质
本专利技术涉及基于人工智能方法实现代谢组学数据进行分类领域,尤其涉及一种数据校正及分类方法及存储介质。
技术介绍
代谢组学是五大组学分析的一个重要分支,在临床应用和代谢生物标志物的基础研究中均占有重要地位。然而,该领域的相关研究经常被由于诸多外部因素导致的批次效应所影响。在过去的二十年间,批次效应带来的瓶颈已经引起了许多业内学者的广泛关注,开发了许多用于消除批次效应的算法。这些传统技术按照其工作原理可分为基于位置尺度(LS)的方法和基于矩阵因式分解(MF)的方法两大类。第一大类包括经验贝叶斯方法(ComBat)、距离加权判别(DWD)、单向方差分析(PAMR)和基于比率的方法(Ratio_G)等,这些方法通常仅关注于调整不同批次的分布,其试图将复杂的批次效应过分简化为线性的加乘叠加。第二大类则假设由批次效应引起的数据变化与目标标签无关,并通过这种假设将原始数据分解成批次效应部分和剩余部分两大块。替代变量分析(SVA)是一种典型的MF方法。然而事实上这种假设在代谢组学的实际应用场景下通常是不成立的,并且矩阵分解的代价有时会减少疾病组与对照组之间的差异,从而降低后续分析中的分类准确性。通常在代谢组学领域需要使用一批现有样本(源数据)构建判别模型,并将其应用于预测未来样本(目标数据)的标签。基于比率的方法(Ratio_G)和冻结替代变量分析(fSVA)都是为预测模型而开发的。在预测模型下分类的能力对于代谢生物标志物的诊断、预后和鉴定至关重要。不幸的是,在对校准器进行建模时许多现有的工具都不了解随后的分类或诊断任务,它们仅通过减少不同批次间的不匹配去除批次效应,最终诊断效力不一定会提高。高通量组学技术产生的大量测量结果(对应于高维特征)以及通常很少的样本量显然是对传统机器学习方法的又一大挑战。近几年深度学习的兴起为克服这些障碍提供了前所未有的契机,已经证明它在筛选潜在药物、识别DNA突变、分析癌症预后以及揭示隐藏的细胞亚型等方面均优于传统的机器学习技术,并且这些分析都可能帮助医生提供精确的诊断和个性化治疗。一种典型的基于深度学习的批次效应处理算法残差网络法(ResNet)应运而生。它利用了非线性映射的强大功能,却忽视了疾病标记样本承载的分类信息,因此其本质还是无监督的。实验证明其并不能始终提供良好的诊断精确度。在过去的几年中,虽然深度学习技术已成为数据科学界的领头羊,比如我们可以训练一个已知批次的诊断网络,然后将其推广到一个新批次。但是批次效应的存在会阻碍这项工作,因为这两个批次的分布可能会高度不匹配。因此,将机器学习模型推广到实际代谢组学数据的主要挑战来自于批次效应,即由于实验环境的不同而导致的与所关注的目标标记无关的测量结果。它的来源很广泛,包括不同的平台、同一样品的不同试剂以及获取数据的不同时间点等等,几乎是不可避免的。例如在我们的质谱实验中,如果在不同的靶板上重复处理患者的血清样本而板间差异又不曾矫正的话,可能会导致诊断结果不一致。因此,有必要在进行代谢组学的下游数据分析之前抑制批次效应,只有这样,随后基于机器学习的分类和诊断才能受益。
技术实现思路
专利技术的目的在于,提供一种方法,用于解决目前将机器学习模型推广到实际代谢组学数据时由于批次效应的影响,无法避免不同的平台、同一样品的不同试剂以及获取数据的不同时间点在不同的靶板上重复处理患者的血清样本导致诊断结果不一致,严重阻碍其应用于机器学习的分类和诊断中的技术问题。为了实现上述目的,本专利技术其中一实施例中提供一种数据校正及分类方法,包括步骤:获取序列数据步骤,获取至少两个批次的序列数据,分别为附带标签向量y的原批次矩阵X1和未标记的目标批次矩阵X2;数据校准步骤,将所述原批次矩阵X1和所述目标批次矩阵X2输入至校准器C,将其映射到同一空间内消除域的差异,以获取在潜在特征空间中的分布Z1=C(X1)和Z2=C(X2);数据重建步骤,将在潜在特征空间中的分布Z1=C(X1)输入重建器R,以获取与所述原批次矩阵X1相同表示方式的原批次重建矩阵X1’;分类步骤,将在潜在特征空间中的分布Z1=C(X1)输入至鉴别器D,以获取训练标签向量y1’;鉴别器D训练步骤,根据在潜在特征空间中的分布Z1=C(X1)和Z2=C(X2)计算校准损失函数Lc,根据原批次矩阵X1和原批次重建矩阵X1’计算重建损失函数,根据标签向量y和训练标签向量y1’计算分类损失函数LD,将校准损失函数Lc、重建损失函数LR、分类损失函数LD加权求和形成总损失函数L后通过根据梯度更新参数获取权重以训练所述鉴别器D;以及推测目标批次标签向量步骤,将在潜在特征空间中的Z2=C(X2)输入至训练后的所述鉴别器D,以获取对应所述目标批次矩阵X2的预测标签向量y2’,所述预测标签向量y2’为所述目标批次矩阵X2的每个样本的诊断结果。进一步地,在鉴别器训练步骤之后还包括:测试验证步骤,将在潜在特征空间中的分布Z2=C(X2)分别输入至重建器R,以获取与所述目标批次矩阵X2相同表示方式的目标批次重建矩阵X2’;通过对比所述目标批次矩阵X2与所述目标批次重建矩阵X2’以验证所述数据校准步骤保留了原始生物信息。进一步地,在所述数据校准步骤中,所述校准器C包括归一化(BN)层、第一激活层、第一全连接(FC)层、第二激活层、第二全连接(FC)层,用以将所述序列数据正则化后进行特征提取和分类形成位于同一引空间的分布Z1=C(X1)和Z2=C(X2)。进一步地,在所述鉴别器训练步骤中,所述校准损失函数Lc为引空间上分布Z1=C(X1)和Z2=C(X2)距离的绝对值,其中和分别表示源批次矩阵X1中的第i个样本和目标批次矩阵X2中的第j个样本,而||·||1是L1范数运算符。进一步地,在所述鉴别器训练步骤中,所述重建损失函数LR为所述原批次矩阵X1和所述原批次重建矩阵X1’距离的平方,其中表示源批次矩阵X1中的第i个样本,C是校准器,R是重建器,R(C(x))=R(Z)=X’。进一步地,在所述鉴别器训练步骤中,所述分类损失函数LD为标签向量y和训练标签向量y1’的二元交叉熵,其中表示源批次矩阵X1中的第i个样本,其中表示训练标签向量y1中的第i个样本的值为0(对于阴性训练样本)或1(对于阳性),C是校准器,D是分类器,D(C(x))=D(Z)=y’。进一步地,在所述鉴别器训练步骤中,所述总损失函数L为其中α、β、γ分别为校准损失函数Lc、重建损失函数LR、分类损失函数LD的权重系数。进一步地,在所述鉴别器训练步骤中,训练方式采用批量梯度下降(mini-batch),在训练数据中随机选择小批量数据,反复学习直到找到合适权重值α、β、γ。进一步地,所述鉴别器D的训练方法具体包括步骤:每次从源批次矩阵X1和目标批次矩阵X2中挑选多个样本;计算梯度;根据梯度更新参数;重复以上步骤,通过梯度对参数更新epoch次。本专利技术还提供一种存储介质,所述存储介质存储有多条指令,所述本文档来自技高网
...

【技术保护点】
1.一种数据校正及分类方法,其特征在于,包括步骤:/n获取序列数据步骤,获取至少两个批次的序列数据,分别为附带标签向量y的原批次矩阵X

【技术特征摘要】
1.一种数据校正及分类方法,其特征在于,包括步骤:
获取序列数据步骤,获取至少两个批次的序列数据,分别为附带标签向量y的原批次矩阵X1和未标记的目标批次矩阵X2;
数据校准步骤,将所述原批次矩阵X1和所述目标批次矩阵X2输入至校准器C,将其映射到同一空间内消除域的差异,以获取在潜在特征空间中的分布Z1=C(X1)和Z2=C(X2);
数据重建步骤,将在潜在特征空间中的分布Z1=C(X1)输入重建器R,以获取与所述原批次矩阵X1相同表示方式的原批次重建矩阵X1’;
分类步骤,将在潜在特征空间中的分布Z1=C(X1)输入至鉴别器D,以获取训练标签向量y1’;
鉴别器训练步骤,根据在潜在特征空间中的分布Z1=C(X1)和Z2=C(X2)计算校准损失函数Lc,根据原批次矩阵X1和原批次重建矩阵X1’计算重建损失函数,根据标签向量y和训练标签向量y1’计算分类损失函数LD,将校准损失函数Lc、重建损失函数LR、分类损失函数LD加权求和形成总损失函数L后通过根据梯度更新参数获取权重以训练所述鉴别器D;以及
推测目标批次标签向量步骤,将在潜在特征空间中的Z2=C(X2)输入至训练后的所述鉴别器D,以获取对应所述目标批次矩阵X2的预测标签向量y2’,所述预测标签向量y2’为所述目标批次矩阵X2的每个样本的诊断结果。


2.根据权利要求1所述的数据校正及分类方法,其特征在于,在鉴别器训练步骤之后还包括:
测试验证步骤,将在潜在特征空间中的分布Z2=C(X2)分别输入至重建器R,以获取与所述目标批次矩阵X2相同表示方式的目标批次重建矩阵X2’;通过对比所述目标批次矩阵X2与所述目标批次重建矩阵X2’以验证所述数据校准步骤保留了原始生物信息。


3.根据权利要求1所述的数据校正及分类方法,其特征在于,在所述数据校准步骤中,所述校准器C包括归一化(BN)层、第一激活层、第一全连接(FC)层、第二激活层、第二全连接(FC)层,用以将所述序列数据正则化后进行特征提取和分类形成位于同一引空间的分布Z1=C(X1)和...

【专利技术属性】
技术研发人员:王乾牛京阳
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1