一种基于自注意力深度学习的癌症亚型识别方法和系统技术方案

技术编号:33043200 阅读:21 留言:0更新日期:2022-04-15 09:25
本发明专利技术提供了一种基于自注意力深度学习的癌症亚型识别方法和系统,包括以下步骤:首先对癌症的多组学数据进行预处理,接着利用深度学习Dense网络分别学习各组学的低维特征,将不同组学特征通过拼接的方式进行初步集成;然后利用自注意力构建样本之间的相似性矩阵,根据矩阵权重以及拼接特征进行特征融合,得到最终的集成特征表示。利用解码器最小化融合特征与原始组学特征之间的误差,通过辨别器进行集成特征分布的对抗学习。最后通过高斯混合模型对学习到的集成特征分布进行聚类以识别癌症亚型。本发明专利技术能有效地整合多组学数据、同时自适应地建模样本之间的关系,学习更好的特征表示,得到较好的聚类结果,实现对癌症亚型的精确识别。精确识别。精确识别。

【技术实现步骤摘要】
一种基于自注意力深度学习的癌症亚型识别方法和系统


[0001]本专利技术涉及生物信息
,具体涉及一种基于自注意力深度学习的癌症亚型识别方法和系统。

技术介绍

[0002]癌症的诊断与治疗及预后评价是当前生命科学和医学领域最为迫切和重要的研究课题之一。研究表明,癌症具有高度的异质性,具有相同的临床分期或组织形态学其分子分型存在很大差异,而不同的分子分型对患者术前治疗方案选择及预后起着至关重要的作用,是个体化治疗尤其是内分泌治疗和靶向治疗的重要依据。
[0003]早期的癌症分子分型研究主要是利用单一组学数据,这种分型方法依赖所使用的数据类型,而且不同类型的组学数据所得出的结果并不相符,导致模型精度偏低。癌症的异质性并不仅仅表现在一个组学层面,而是在基因组、转录组、表观遗传组等组学层面都存在差异。作为这样一类由不同因素导致的复杂度较高的疾病,基于单一组学数据的研究已很难满足科研需求。不同组学数据具有互补性,联合多组学数据,可以更好地揭示肿瘤发生与发展的机制,为肿瘤分子分型提供了新的研究方向。
[0004]特征提取是多组学数据研究的基础,良好的特征要能够很好地反映肿瘤的细微差别和更深层次的信息,具有辨别性、鲁棒性和可重复性。生物组学数据通常是高维的小样本数据,直接应用传统的数据挖掘方法对其进行分析得到的结果往往泛化能力并不好。这是因为高的特征空间维度和小的样本个数可引发维数灾难问题,即随着特征维度的增加,构建的数据模型具有泛化能力的难度会以指数级增加,进而造成数据过拟合。
[0005]为了克服高维组学数据分析中的维度灾难问题,需要对原始数据进行特征提取,以缩小各组学数据的大小。近年来,深度学习作为一个崭新的机器学习算法,因其良好的特征学习能力,被逐步应用于多组学数据特征提取中。深度学习通过多层神经网络来模拟人类大脑的学习过程,希望借鉴人脑的多层抽象机制实现对数据的抽象表达,学习更有用的特征。基于深度学习的癌症分型研究是目前的研究热点。
[0006]目前基于深度学习的多组学癌症亚型识别大部分是将多组学数据进行前端集成,然后通过深度学习模型学习特征。这些方法忽略了不同组学之间的数据特征以及样本之间的关系。为了解决上述问题,本专利技术提出了一种新的基于自注意力深度学习的癌症亚型识别方法。该方法充分考虑了各组学特征的不同以及样本在所有组学特征上的关系。

技术实现思路

[0007]本专利技术的目的:针对上述现有技术存在的问题和不足,本专利技术的目的是一种基于自注意力深度学习的癌症亚型识别方法和系统。
[0008]本专利技术的技术方案:为了实现上述专利技术目的,本专利技术采用的技术方案为:
[0009]一种基于自注意力深度学习的癌症亚型识别方法,包括以下步骤:
[0010]利用深度学习Dense网络分别学习各组学的低维特征,将学习获得的不同组学的
低维特征进行拼接,获得拼接后的特征;
[0011]利用自注意力机制构建样本之间的相似性矩阵,根据相似性矩阵的矩阵权重以及拼接后的特征进行特征融合,得到最终的集成特征表示;
[0012]通过解码器最小化原始特征与集成特征之间的误差,通过辨别器进行集成特征分布的对抗学习,训练学习后的获得最优的集成特征分布;
[0013]利用高斯混合模型对训练学习后的集成特征分布进行聚类,得到癌症样本的亚型。
[0014]优选地,还包括对癌症样本的多种组学数据进行数据预处理,包括以下步骤:
[0015]对癌症样本的四种不同组学数据进行预处理;其中,四种不同组学数据分别为mRNA数据、miRNA数据、DNA拷贝数变异数据和DNA甲基化数据;
[0016]对于mRNA和miRNA数据,进行对数转换,缩小数据的绝对数值;
[0017]对于DNA拷贝数变异数据,对重复区域进行去除,根据样本与基因组区域之间的对应关系构建特征;
[0018]对于DNA甲基化数据,将DNA甲基化信息整合,计算每个样本的平均值;
[0019]对各组学数据进行归一化处理。
[0020]优选地,所述利用深度学习Dense网络分别学习各组学的低维特征,包括以下步骤:
[0021]利用深度学习Dense网络分别进行多组学数据的特征提取:
[0022]令表示第k个组学的输入数据,表示第k个组学的输入数据,表示经过网络后第k个组学的输出特征,其中,N为样本量,D与d分别表示输入数据与输出特征的维度;
[0023]经过Dense网络,y
k
表示为:
[0024]y
k
=W
k
x
k
+b
k
[0025]其中,W
k
表示网络的权重矩阵,b
k
表示偏置;
[0026]将y
k
进行拼接得到拼接后的特征矩阵Y:
[0027]Y=Concat(y1,..,y4)
[0028]拼接后的特征矩阵Y的矩阵大小为N
×
4d;为了防止网络过拟合,在Dense网络后面添加批标准化层,并使用GELU函数作为非线性激励函数,获得拼接后的特征矩阵T':
[0029][0030]优选地,所述利用自注意力机制构建样本之间的相似性矩阵,根据相似性矩阵的矩阵权重以及拼接后的特征进行特征融合,得到最终的集成特征分布,包括以下步骤:
[0031]将每个拼接后的特征视为一个句子中的单词,令:
[0032]d
k
=4d
[0033][0034][0035][0036]Q=K=V=Y

[0037]Q=Y

W
Q
[0038]K=Y

W
K
[0039]V=Y

WV
[0040]其中,Q、K、V分别表示query、key、value矩阵,W
Q
、W
K
、W
V
表示线性投影参数;
[0041]则样本i和j之间的相似性表示为:
[0042][0043]其中,为缩放矩阵;
[0044][0045]其中,第j个特征向量z
j
计算步骤如下:
[0046]设α
i
为样本i与其他所有样本的相似性权重向量,α
i
表示为:
[0047][0048]假设样本i的融合特征向量为Z
i
,将V的每个向量值和它的权值相乘,最后相加得到,计算公式如下:
[0049][0050]所有样本的集成特征表示为:
[0051][0052]在自注意力模型之后添加批标准化层,保持数据分布不变;假设Z遵循高斯分布Z~N(u,σ2),利用全连接层直接学习Z的均值u与方差σ2,得到集成特征分布S(z)。
[0053]优选地,所述通过解码器最小化原始特征与集成特征之间的误差,包括以下步骤:本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自注意力深度学习的癌症亚型识别方法,其特征在于,包括以下步骤:利用深度学习Dense网络分别学习各组学的低维特征,将学习获得的不同组学的低维特征进行拼接,获得拼接后的特征;利用自注意力机制构建样本之间的相似性矩阵,根据相似性矩阵的矩阵权重以及拼接后的特征进行特征融合,得到最终的集成特征表示;通过解码器最小化原始特征与集成特征之间的误差,通过辨别器进行集成特征分布的对抗学习,获得训练学习后的最优的集成特征分布;对训练学习后的最优的集成特征分布进行聚类,得到癌症样本的亚型。2.根据权利要求1所述的基于自注意力深度学习的癌症亚型识别方法,其特征在于,还包括对癌症样本的多种组学数据进行数据预处理,包括以下步骤:对癌症样本的四种不同组学数据进行预处理;其中,四种不同组学数据分别为mRNA数据、miRNA数据、DNA拷贝数变异数据和DNA甲基化数据;对于mRNA和miRNA数据,进行对数转换,缩小数据的绝对数值;对于DNA拷贝数变异数据,对重复区域进行去除,根据样本与基因组区域之间的对应关系构建特征;对于DNA甲基化数据,将DNA甲基化信息整合,计算每个样本的平均值;对各组学数据进行归一化处理。3.根据权利要求1所述的基于自注意力深度学习的癌症亚型识别方法,其特征在于,所述利用深度学习Dense网络分别学习各组学的低维特征,包括以下步骤:利用深度学习Dense网络分别进行多组学数据的特征提取:令表示第k个组学的输入数据,表示第k个组学的输入数据,表示经过网络后第k个组学的输出特征,其中,N为样本量,D与d分别表示输入数据与输出特征的维度;经过Dense网络,y
k
表示为:y
k
=W
k
x
k
+b
k
其中,W
k
表示网络的权重矩阵,b
k
表示偏置;将y
k
进行拼接得到拼接后的特征矩阵Y:Y=Concat(y1,..,y4)拼接后的特征矩阵Y的矩阵大小为N
×
4d;为了防止网络过拟合,在Dense网络后面添加了批标准化层NB,并使用GELU函数作为非线性激励函数,获得拼接后的特征矩阵Y

:4.根据权利要求3所述的基于自注意力深度学习的癌症亚型识别方法,其特征在于,所述利用自注意力机制构建样本之间的相似性矩阵,根据相似性矩阵的矩阵权重以及拼接后的特征进行特征融合,得到最终的集成特征表示,包括以下步骤:将每个拼接后的特征视为一个句子中的单词,令:d
k
=4d
Q=K=V=Y

Q=Y

W
Q
K=Y

W
K
V=Y

W
V
其中,Q、K、V分别表示query、key、value矩阵,W
Q
、W
K
、W
V
表示线性投影参数;则样本i和j之间的相似性表示为:其...

【专利技术属性】
技术研发人员:巩萍孙秋文程磊张志远孟军葛海涛陈洁章龙珍
申请(专利权)人:徐州医科大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1