当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于图对比学习的单细胞多组学数据整合方法和系统技术方案

技术编号:42616497 阅读:25 留言:0更新日期:2024-09-03 18:22
一种基于图对比学习的单细胞多组学数据整合方法和系统,其方法包括:收集并预处理数据,包括确定数据集的组学类型和所需字段,进行数据清洗和标准化;对基因表达数据进行增强操作以增加数据多样性;构建细胞‑组学异质图,确定构建方法并初始化节点特征;利用图神经网络提取节点特征,得到细胞在不同模态下的表示;引入自监督对比学习,分为模态内对比和模态间对比;进行细胞类型注释任务,定义分类器映射细胞特征表示到不同细胞类型;使用标记好的训练集训练模型;输出模型在测试集上的细胞类型注释精度和其他评估指标。本发明专利技术可以整合单细胞多组学数据,涵盖不同组学和规模的多个数据集,在诸如细胞类型注释等下游任务中,能够取得较好的结果。

【技术实现步骤摘要】

:本专利技术涉及一种基于图对比学习的单细胞多组学数据整合方法和系统,属于计算机人工智能领域。


技术介绍

0、
技术介绍

1、随着单细胞多组学技术的快速发展,我们现在可以从同一个细胞获取多个组学数据,如染色质可及性、rna表达量、蛋白质丰度等。单细胞多组学数据的整合不仅提供了对细胞特征的全面理解,还能够识别潜在的生物标志物,有助于疾病的预测和诊断。通过全面利用多组学数据,医疗专业人员和研究人员可以更全面、更准确地了解患者的生物特征,为精准医学提供更可靠的基础。

2、现有的单细胞测序技术可以同时从同一细胞中获取多个组学数据。例如,cite-seq捕获了单细胞rna基因表达水平(gex)和表面蛋白水平(抗体衍生标签,adt);10xmultiome测定可以同时量化单细胞rna基因表达水平(gex)和染色质可及性(基于转座酶可及染色质测定,atac)。将来自多组学的数据进行整合,提供了对细胞特征和定义身份的基本特征(例如染色质区域、基因、蛋白质等)的全面视角。这种整合还促进了不同模式之间相互关联的探索,促进了对它们相互关系更深入的理解。在临本文档来自技高网...

【技术保护点】

1.一种基于图对比学习的单细胞多组学数据整合方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于图对比学习的单细胞多组学数据整合方法,其特征在于,步骤S2对基因表达数据进行数据增强操作,按下列步骤顺序执行,不是所有的步骤都会被执行,每个步骤都按照其执行概率被选中或丢弃。

3.根据权利要求1所述的一种基于图对比学习的单细胞多组学数据整合方法,其特征在于,步骤S5引入自监督对比学习,自监督对比学习分为两个部分:模态内对比和两种模态之间对比。在进行对比学习之前,首先通过组学编码器将来自不同模态的细胞表示映射到一个低维潜在空间中。形式上,可以写成如下形式:<...

【技术特征摘要】

1.一种基于图对比学习的单细胞多组学数据整合方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于图对比学习的单细胞多组学数据整合方法,其特征在于,步骤s2对基因表达数据进行数据增强操作,按下列步骤顺序执行,不是所有的步骤都会被执行,每个步骤都按照其执行概率被选中或丢弃。

3.根据权利要求1所述的一种基于图对比学习的单细胞多组学数据整合方法,其特征在于,步骤s5引入自监督对比学习,自监督对比学习分为两个部分:模态内对比和两种模态之间对比。在进行对比学习之前,首先通过组学编码器将来自不同模态的细胞表示映射到一个低维潜在空间中。形式上,可以写成如下形式:

4.根据权利要求1所述的一种基于图对比学习的单细胞多组学数据整合方法,其特征在于,步骤s5-1所述的模态内对比,对于基因表达数据,采用步骤s2的增强策略来生成增强数据。对于每个细胞的基因表达谱,将原始数据和增强数据视为正样本对,而将其他数据视为负样本。更具体地说,将输入的基因表达数据表示为dcg,则表示经过数据增强后的增强数据。分别为原始数据和增强数据构建细胞-基因异质图。在应用异质图卷积后,从原始数据和增强数据中获得细胞的表示。然后,将这些表示传递给组学编码器fcg,生成低维表示zcg和

5.根据权利要求1所述的一种基于图对比学习的单细胞多组学数据整合方法,其特征在于,步骤s5-2所述的模态之间对比,对...

【专利技术属性】
技术研发人员:王海帅陈益涵高扬卜佳俊
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1