System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于对比学习特征降维的轨迹预测方法技术_技高网

一种基于对比学习特征降维的轨迹预测方法技术

技术编号:40927724 阅读:2 留言:0更新日期:2024-04-18 14:50
本发明专利技术公开了一种基于对比学习特征降维的轨迹预测方法,该方法首先根据待降维细胞原始矩阵X,获取每个细胞的正样本细胞集和负样本细胞集。其次将待降维细胞原始矩阵X输入到一个全连接神经网络中,得到细胞的降维特征Y,在将其分别输入到细胞级成对模块和聚类级对比模块中,并计算特征的损失。然后根据特征的损失,对细胞级成对模块和聚类级对比模块的输出进行优化。最后在优化完成后,使用特征Y进行轨迹推断,得到预测的轨迹。本发明专利技术提高了学习到的细胞特征的准确度,并使得学习到的细胞特征更利于轨迹推断。

【技术实现步骤摘要】

本专利技术涉及单细胞测序分析技术中的细胞轨迹预测的领域,尤其涉及一种基于对比学习特征降维的轨迹预测方法


技术介绍

1、单细胞测序(scrna-seq)技术能够在单细胞水平分析转录组范围内的基因表达,为人们研究细胞异质性和生物关系提供了巨大的帮助。通常scrna-seq数据分析包括两个主要步骤:第一步为上游分析,其中包含对获取的数据矩阵进行去噪,并对细胞进行聚类以注释细胞类型或细胞状态;第二步是基于第一步分析的结果进行下游分析以解释生物学机制,其中包括细胞轨迹预测和基因分析等任务。作为scrna-seq数据分析中的重要下游任务之一,细胞轨迹分析可对细胞数据进行建模并估算拟时序以揭示生物发育中的一些动态过程,例如细胞分化过程和细胞发育的关键节点。

2、目前,国内外学者在细胞轨迹预测领域做出了很多有价值的研究成果。这些轨迹预测方法根据其推断方式分为两类:第一类是基于细胞层面的推断方法,使用主成分分析(pca)或统一流形逼近与投影(umap)等降维方法对每个细胞的基因维度进行降维后,在细胞之间构建发育路径;第二类是基于分区层面,先使用pca或umap学习到细胞的特征,然后将细胞划分为独立的多个区域并视为不同的“细胞状态”,并基于这些细胞状态来构建轨迹。然而,现有的两类轨迹预测方法大都使用的pca或umap等方法进行降维后再进行推断,这些降维方法并不是专门为scrna-seq的细胞数据设计的,此外这些方法也无法利用到上游分析的结果(例如细胞聚类)来学习细胞特征,使得轨迹预测的效果不佳。因此,有必要为轨迹预测方法专门设计一种降维方法。


技术实现思路

1、本专利技术针对现有轨迹预测方法所使用的pca或umap等降维方法无法充分利用到先验信息的不足,提出一种基于对比学习的scrna-seq细胞数据降维方法来用于轨迹预测。本专利技术采用两个特征学习组件,细胞级成对模块和聚类级对比模块,用于学习有助于推断细胞轨迹的细胞特征。首先,使用两层全连接神经网络将scrna-seq的基因表达数据(原始特征)映射到降维空间以获得细胞表示(降维特征),然后细胞级和聚类级模块同时优化单元表示。具体而言,在每轮训练中,本方法基于细胞原始特征的欧几里得距离为每个细胞样本选择了一个正样本和一个负样本,细胞级成对模块在降维空间最小化细胞和正样本的距离的同时最大化对应负样本的距离。此外,基于在上游分析中的聚类任务获得的细胞类型标签为每个细胞类型构建两个增强聚类,聚类级模块在增强聚类中进行对比学习,以最大化正聚类对的相似性并最小化所有其他负聚类对的相似性。简而言之,细胞级成对模块使细胞在降维空间中保持原始特征空间中细胞间的位置关系,而聚类级对比模块防止细胞过度分散,这两个模块保证了模型学习到了准确的细胞特征。最后,根据学习到的特征预测细胞谱系。

2、本专利技术方法的具体步骤包括:

3、步骤(1).计算待降维细胞原始矩阵x中每个细胞之间的距离,并基于计算的距离为每个细胞选择距离最近kp个的细胞作为正样本细胞集,最远的kn个细胞作为负样本细胞集。

4、步骤(2).将待降维细胞原始矩阵x输入到一个全连接神经网络中,得到细胞的降维特征y。

5、步骤(3).将降维特征y分别输入到细胞级成对模块和聚类级对比模块中。

6、步骤(3.1).在细胞级模块中,每轮训练为每个细胞yi分别从正样本集随机选取一个细胞以构成正样本对并从负样本集中选取一个细胞以构成负样本对

7、步骤(3.2).在聚类级模块中,每轮训练在每个类ci(由上游分析中的聚类结果得到的每个细胞所属的类别)的所有细胞随机下采样2次以形成2个增强细胞类和其中表示增强类中的第t个细胞,|ci|表示类ci包含细胞的数量,γ表示下采样率。将由同一个类生成的两个增强细胞类作为正样本对,将非同类生成的所有细胞生成类或视为负样本对。

8、步骤(4).根据细胞级成对模块和聚类级对比模块的输出计算特征损失,并进行优化。

9、步骤(4.1).通过最小化正样本对的细胞距离并最大化负样本对的距离来使细胞在低维空间中保持高维空间的关系。细胞样本对间距离和的计算公式如下:

10、

11、

12、其中d表示细胞低维特征的维度。然后使用交叉熵损失函数lossi来最小化细胞i的正样本对的距离并最大化负样本对的距离,计算公式为:

13、

14、将所有细胞的损失通过加权平均得到细胞级成对模块的损失函数lcell:

15、

16、步骤(4.2).通过最大化细胞类ci的增强细胞类之间的相似度并最小化其他所有负样本增强类的相似度来使相同细胞在低维空间中不过度分散。首先通过加权平均计算每个增强类的中心视为其特征

17、

18、然后使用余弦相似度函数计算任意两个增强类i,j中心ri和rj之间的相似度s(ri,rj),余弦相似度函数的计算方式如下,其中||·||表示该变量的模长:

19、

20、通过最大化两个增强类特征的相似度,能使两者的细胞更加接近。因此最大化由相同类ci生成的增强正样本对的相似度能使同一类的细胞更加接近,最小化不同类的相似度能使不同类的细胞在空间上更加分离。使用交叉熵损失函数来计算ci的增强样本a类中心与其正样本对其所有负样本对和损失的方式如下:

21、

22、

23、将所有细胞类的损失通过加权平均得到聚类级成对模块的损失函数lcluster:

24、

25、最后,细胞级损失函数lcell和聚类级损失函数lcluster通过相加得到模型的整体损失函数loss,其公式为:

26、loss=lcell+lcluster

27、步骤(5).在步骤4优化完成后,使用步骤2中学习到的降维特征y进行轨迹预测。首先根据降维特征y计算细胞之间的欧几里得距离,然后为每个细胞选取kc个最近细胞进行构建连接。然后对不同类的细胞之间存在的连接求和,并根据不同类之间存在的连接数量,以连接数量最多的条件为在细胞类之间构建最小生成树。最后定义一个细胞类作为初始类,从初始类开始到生成树中的任意叶子结点的细胞类视为一条细胞的发育轨迹,完成轨迹预测。

28、本专利技术使用全连接神经网络获取细胞低维的特征,并与单细胞测序分析流程中上游任务的聚类或标注结果一起作为模型的输入,结合细胞级成对特征学习模块和聚类级对比特征学习模块来构建最终的细胞降维模型。本专利技术具有如下有益效果:1、引入了上游任务的分析结果作为先验信息,提高了学习到的细胞特征的准确度;2、构建的细胞级和聚类级模块能使细胞降维特征能够保持原始特征空间中细胞-细胞的位置关系的同时防止同一个类中的细胞过度分散,使得学习到的细胞特征更利于轨迹预测。

本文档来自技高网...

【技术保护点】

1.一种基于对比学习特征降维的轨迹预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于对比学习特征降维的轨迹预测方法,其特征在于,步骤1具体过程为:计算待降维细胞原始矩阵X中每个细胞之间的距离,并基于计算的距离为每个细胞选择距离最近kp个的细胞作为正样本细胞集,最远的kn个细胞作为负样本细胞集。

3.根据权利要求1所述的基于对比学习特征降维的轨迹预测方法,其特征在于,步骤3具体过程如下:

4.根据权利要求3所述的基于对比学习特征降维的轨迹预测方法,其特征在于,步骤4所述计算特征损失并进行优化具体过程如下:

5.根据权利要求1至4任一所述的基于对比学习特征降维的轨迹预测方法,其特征在于,步骤5所述轨迹预测具体过程如下:

【技术特征摘要】

1.一种基于对比学习特征降维的轨迹预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于对比学习特征降维的轨迹预测方法,其特征在于,步骤1具体过程为:计算待降维细胞原始矩阵x中每个细胞之间的距离,并基于计算的距离为每个细胞选择距离最近kp个的细胞作为正样本细胞集,最远的kn个细胞作为负样本细胞集。

3.根据...

【专利技术属性】
技术研发人员:殷昱煜施雨辰张新梁婷婷万健
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1