【技术实现步骤摘要】
基于多组学数据整合的细胞类型识别方法、系统及设备
[0001]本专利技术涉及细胞类型识别
,特别是涉及一种基于多组学数据整合的细胞类型识别方法、系统及设备。
技术介绍
[0002]随着高通量生物技术的快速发展,获取稳定可靠、数据量大的基因组、转录组、蛋白组和代谢组等单细胞多组学数据已经变得越来越可行。每个组学中都包含了细胞的部分信息,整合多个组学可以为单细胞的研究提供一种系统的方法。多组学数据能够为进一步了解、认识多种细胞类型提供一个更加宏观的视角,有助于解开每种细胞类型中特定的因果网络。由于细胞类型真实标签的获取是困难和代价高昂的,因此多组学聚类方法通常被用于多组学数据整合和细胞类型识别的研究中。虽然目前已经有许多多组学聚类方法被开发出来,但是现有方法往往没有考虑同时学习单细胞多组学数据中的特定信息和共享信息,忽略了多组学数据的互补性和一致性,导致细胞类型识别准确率不高。
技术实现思路
[0003]针对上述
技术介绍
中提出的问题,本专利技术提供一种基于多组学数据整合的细胞类型识别方法、系统及设备,以提高 ...
【技术保护点】
【技术特征摘要】
1.一种基于多组学数据整合的细胞类型识别方法,其特征在于,包括:使用细胞测序技术获取多个单细胞样本的多组学数据集合;使用自动编码器提取所述多组学数据集合中各个组学数据的共享信息和特定信息;利用非线性投影函数将提取的共享信息投影到子空间,得到投影后共享信息;应用实例级对比学习来强化所述投影后共享信息的一致性,得到强化后共享信息;应用正交性约束分离所述强化后共享信息与所述特定信息;根据分离出的共享信息和特定信息构建单细胞样本的完备嵌入表示;采用聚类算法将多个单细胞样本的完备嵌入表示划分到多个簇中,获取簇对应的聚类标签作为细胞类型识别结果。2.根据权利要求1所述的基于多组学数据整合的细胞类型识别方法,其特征在于,所述使用细胞测序技术获取多个单细胞样本的多组学数据集合,具体包括:使用细胞测序技术获取多个单细胞样本的多组学数据集合X={X1,X2,...,X
V
};所述多组学数据集合X中包括的第v个组学数据1≤v≤V,V表示多组学数据集合X中包括的组学数量;表示第v个组学数据X
v
中的第i个单细胞样本数据,1≤i≤N,N为单细胞样本数量;所述组学数据包括基因组学数据、转录组学数据、代谢组学数据。3.根据权利要求2所述的基于多组学数据整合的细胞类型识别方法,其特征在于,所述使用自动编码器提取所述多组学数据集合中各个组学数据的共享信息和特定信息,具体包括:分别将所述多组学数据集合中的每个组学数据X
v
输入到两个自动编码器中,来提取出各个组学数据X
v
的共享信息和特定信息4.根据权利要求3所述的基于多组学数据整合的细胞类型识别方法,其特征在于,所述利用非线性投影函数将提取的共享信息投影到子空间,得到投影后共享信息,具体包括:利用非线性投影函数将提取的共享信息投影到子空间,得到投影后共享信息;其中非线性投影函数f(
·
)为两层的神经网络;为提取的共享信息中第i个单细胞样本的初始嵌入表示;为投影后共享信息的嵌入表示。5.根据权利要求4所述的基于多组学数据整合的细胞类型识别方法,其特征在于,所述应用正交性约束分离所述强化后共享信息与所述特定信息,具体包括:应用正交性约束分离所述强化后共享信息与所述特定信息;其中L
ort
代表损失函数;代表Frobenius范数平方;C
v
代表从第v个组学数据中分离出的N个单细胞样本的共享信息所组成的共享信息矩阵;S
v
代表从第v个...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。