【技术实现步骤摘要】
一种基于自注意力深度学习的癌症亚型识别方法和系统
[0001]本专利技术涉及生物信息
,具体涉及一种基于自注意力深度学习的癌症亚型识别方法和系统。
技术介绍
[0002]癌症的诊断与治疗及预后评价是当前生命科学和医学领域最为迫切和重要的研究课题之一。研究表明,癌症具有高度的异质性,具有相同的临床分期或组织形态学其分子分型存在很大差异,而不同的分子分型对患者术前治疗方案选择及预后起着至关重要的作用,是个体化治疗尤其是内分泌治疗和靶向治疗的重要依据。
[0003]早期的癌症分子分型研究主要是利用单一组学数据,这种分型方法依赖所使用的数据类型,而且不同类型的组学数据所得出的结果并不相符,导致模型精度偏低。癌症的异质性并不仅仅表现在一个组学层面,而是在基因组、转录组、表观遗传组等组学层面都存在差异。作为这样一类由不同因素导致的复杂度较高的疾病,基于单一组学数据的研究已很难满足科研需求。不同组学数据具有互补性,联合多组学数据,可以更好地揭示肿瘤发生与发展的机制,为肿瘤分子分型提供了新的研究方向。
[0004]特征提取是多组学数据研究的基础,良好的特征要能够很好地反映肿瘤的细微差别和更深层次的信息,具有辨别性、鲁棒性和可重复性。生物组学数据通常是高维的小样本数据,直接应用传统的数据挖掘方法对其进行分析得到的结果往往泛化能力并不好。这是因为高的特征空间维度和小的样本个数可引发维数灾难问题,即随着特征维度的增加,构建的数据模型具有泛化能力的难度会以指数级增加,进而造成数据过拟合。
[0005]为了克服高 ...
【技术保护点】
【技术特征摘要】
1.一种基于自注意力深度学习的癌症亚型识别方法,其特征在于,包括以下步骤:利用深度学习Dense网络分别学习各组学的低维特征,将学习获得的不同组学的低维特征进行拼接,获得拼接后的特征;利用自注意力机制构建样本之间的相似性矩阵,根据相似性矩阵的矩阵权重以及拼接后的特征进行特征融合,得到最终的集成特征表示;通过解码器最小化原始特征与集成特征之间的误差,通过辨别器进行集成特征分布的对抗学习,获得训练学习后的最优的集成特征分布;对训练学习后的最优的集成特征分布进行聚类,得到癌症样本的亚型。2.根据权利要求1所述的基于自注意力深度学习的癌症亚型识别方法,其特征在于,还包括对癌症样本的多种组学数据进行数据预处理,包括以下步骤:对癌症样本的四种不同组学数据进行预处理;其中,四种不同组学数据分别为mRNA数据、miRNA数据、DNA拷贝数变异数据和DNA甲基化数据;对于mRNA和miRNA数据,进行对数转换,缩小数据的绝对数值;对于DNA拷贝数变异数据,对重复区域进行去除,根据样本与基因组区域之间的对应关系构建特征;对于DNA甲基化数据,将DNA甲基化信息整合,计算每个样本的平均值;对各组学数据进行归一化处理。3.根据权利要求1所述的基于自注意力深度学习的癌症亚型识别方法,其特征在于,所述利用深度学习Dense网络分别学习各组学的低维特征,包括以下步骤:利用深度学习Dense网络分别进行多组学数据的特征提取:令表示第k个组学的输入数据,表示第k个组学的输入数据,表示经过网络后第k个组学的输出特征,其中,N为样本量,D与d分别表示输入数据与输出特征的维度;经过Dense网络,y
k
表示为:y
k
=W
k
x
k
+b
k
其中,W
k
表示网络的权重矩阵,b
k
表示偏置;将y
k
进行拼接得到拼接后的特征矩阵Y:Y=Concat(y1,..,y4)拼接后的特征矩阵Y的矩阵大小为N
×
4d;为了防止网络过拟合,在Dense网络后面添加了批标准化层NB,并使用GELU函数作为非线性激励函数,获得拼接后的特征矩阵Y
′
:4.根据权利要求3所述的基于自注意力深度学习的癌症亚型识别方法,其特征在于,所述利用自注意力机制构建样本之间的相似性矩阵,根据相似性矩阵的矩阵权重以及拼接后的特征进行特征融合,得到最终的集成特征表示,包括以下步骤:将每个拼接后的特征视为一个句子中的单词,令:d
k
=4d
Q=K=V=Y
′
Q=Y
′
W
Q
K=Y
′
W
K
V=Y
′
W
V
其中,Q、K、V分别表示query、key、value矩阵,W
Q
、W
K
、W
V
表示线性投影参数;则样本i和j之间的相似性表示为:其...
【专利技术属性】
技术研发人员:巩萍,孙秋文,程磊,张志远,孟军,葛海涛,陈洁,章龙珍,
申请(专利权)人:徐州医科大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。