当前位置: 首页 > 专利查询>厦门大学专利>正文

基于多组学数据整合的细胞类型识别方法、系统及设备技术方案

技术编号:37787048 阅读:22 留言:0更新日期:2023-06-09 09:17
本发明专利技术公开一种基于多组学数据整合的细胞类型识别方法、系统及设备,涉及细胞类型识别领域。本发明专利技术方法能够有效挖掘每个组学数据的特定信息和不同组学数据之间的共享信息;通过应用实例级对比学习来对齐不同组学间的共享信息,强化了其一致性;应用正交性约束强制分离特定信息和共享信息,提高了信息的纯度,减少了冗余和相互污染;由此获得的样本嵌入表示是完备的,更完备的样本嵌入表示对多组学数据整合和细胞类型识别非常重要,能够极大提高细胞类型识别的准确率。细胞类型识别的准确率。细胞类型识别的准确率。

【技术实现步骤摘要】
基于多组学数据整合的细胞类型识别方法、系统及设备


[0001]本专利技术涉及细胞类型识别
,特别是涉及一种基于多组学数据整合的细胞类型识别方法、系统及设备。

技术介绍

[0002]随着高通量生物技术的快速发展,获取稳定可靠、数据量大的基因组、转录组、蛋白组和代谢组等单细胞多组学数据已经变得越来越可行。每个组学中都包含了细胞的部分信息,整合多个组学可以为单细胞的研究提供一种系统的方法。多组学数据能够为进一步了解、认识多种细胞类型提供一个更加宏观的视角,有助于解开每种细胞类型中特定的因果网络。由于细胞类型真实标签的获取是困难和代价高昂的,因此多组学聚类方法通常被用于多组学数据整合和细胞类型识别的研究中。虽然目前已经有许多多组学聚类方法被开发出来,但是现有方法往往没有考虑同时学习单细胞多组学数据中的特定信息和共享信息,忽略了多组学数据的互补性和一致性,导致细胞类型识别准确率不高。

技术实现思路

[0003]针对上述
技术介绍
中提出的问题,本专利技术提供一种基于多组学数据整合的细胞类型识别方法、系统及设备,以提高细胞类型识别的准确率本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多组学数据整合的细胞类型识别方法,其特征在于,包括:使用细胞测序技术获取多个单细胞样本的多组学数据集合;使用自动编码器提取所述多组学数据集合中各个组学数据的共享信息和特定信息;利用非线性投影函数将提取的共享信息投影到子空间,得到投影后共享信息;应用实例级对比学习来强化所述投影后共享信息的一致性,得到强化后共享信息;应用正交性约束分离所述强化后共享信息与所述特定信息;根据分离出的共享信息和特定信息构建单细胞样本的完备嵌入表示;采用聚类算法将多个单细胞样本的完备嵌入表示划分到多个簇中,获取簇对应的聚类标签作为细胞类型识别结果。2.根据权利要求1所述的基于多组学数据整合的细胞类型识别方法,其特征在于,所述使用细胞测序技术获取多个单细胞样本的多组学数据集合,具体包括:使用细胞测序技术获取多个单细胞样本的多组学数据集合X={X1,X2,...,X
V
};所述多组学数据集合X中包括的第v个组学数据1≤v≤V,V表示多组学数据集合X中包括的组学数量;表示第v个组学数据X
v
中的第i个单细胞样本数据,1≤i≤N,N为单细胞样本数量;所述组学数据包括基因组学数据、转录组学数据、代谢组学数据。3.根据权利要求2所述的基于多组学数据整合的细胞类型识别方法,其特征在于,所述使用自动编码器提取所述多组学数据集合中各个组学数据的共享信息和特定信息,具体包括:分别将所述多组学数据集合中的每个组学数据X
v
输入到两个自动编码器中,来提取出各个组学数据X
v
的共享信息和特定信息4.根据权利要求3所述的基于多组学数据整合的细胞类型识别方法,其特征在于,所述利用非线性投影函数将提取的共享信息投影到子空间,得到投影后共享信息,具体包括:利用非线性投影函数将提取的共享信息投影到子空间,得到投影后共享信息;其中非线性投影函数f(
·
)为两层的神经网络;为提取的共享信息中第i个单细胞样本的初始嵌入表示;为投影后共享信息的嵌入表示。5.根据权利要求4所述的基于多组学数据整合的细胞类型识别方法,其特征在于,所述应用正交性约束分离所述强化后共享信息与所述特定信息,具体包括:应用正交性约束分离所述强化后共享信息与所述特定信息;其中L
ort
代表损失函数;代表Frobenius范数平方;C
v
代表从第v个组学数据中分离出的N个单细胞样本的共享信息所组成的共享信息矩阵;S
v
代表从第v个...

【专利技术属性】
技术研发人员:张仲楠陈宇鑫
申请(专利权)人:厦门大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1