一种单细胞ATAC-seq数据分析方法技术

技术编号:37667266 阅读:7 留言:0更新日期:2023-05-26 04:26
本发明专利技术公开了一种单细胞ATAC

【技术实现步骤摘要】
一种单细胞ATAC

seq数据分析方法


[0001]本专利技术属于生物信息分析
,具体涉及一种单细胞ATAC

seq数据分析方法。

技术介绍

[0002]单细胞染色质可达性靶向测序(single

cell Assay for Targeting Accessible

Chromatin sequencing,scATAC

seq)方法的兴起为刻画单细胞分辨率的染色质可达性图谱奠定了坚实的基础,其已经成为揭示基因转录过程中细胞特异性调控机制的重要手段。近年来,随着单细胞ATAC

seq数据规模的快速增长,即scATAC

seq方法检测到的染色质可达性特征峰的规模的快速增长,生物信息学家们开始着手致力于利用单细胞ATAC

seq数据实现染色质可达性预测、细胞类型注释、染色质可达性图谱降噪、转录因子活性推断等下游分析任务。然而,单细胞ATAC

seq数据固有的高维性、二值性、稀疏性为计算分析带来了巨大挑战。因此,设计精准、鲁棒、高效的单细胞ATAC

seq数据分析方法已然成为生物信息学领域中亟待解决的关键问题。
[0003]截至目前为止,生物信息学家们已经提出了一系列单细胞ATAC

seq数据分析方法,它们的基本思想是利用数理统计、机器学习等手段从海量单细胞ATAC

seq数据中提取每个细胞的高阶特征,并将所提取的特征应用于下游分析任务中。例如,威库鲁文脑与疾病研究中心的斯坦因
·
艾茨教授领衔设计的cisTopic算法、清华大学张强峰教授领衔设计的SCALE算法分别采用隐式迪利克雷分配模型、高斯变分自编码器模型等生成式模型将单个细胞映射到低维的、连续的、广义的特征空间中,有效地克服了单细胞ATAC

seq数据的高维性、二值性、稀疏性,成功地实现了细胞类型注释、染色质可达性图谱降噪等下游分析任务。然而,cisTopic和SCALE算法仅通过染色体坐标表示染色质可达性特征峰,忽略了DNA序列中潜藏的转录调控语法规则,导致了单细胞特征表示的不准性。斯坦福大学医学院的威廉
·
格林利夫教授领衔设计的chromVAR算法、美国麻省理工学院

哈佛大学博德研究所的阿维夫
·
雷格夫教授领衔设计的BROCKMAN算法分别使用转录因子

DNA结合基元的数量、染色质可达性特征峰中k

mer碱基字符串等生物学先验知识刻画不同细胞的特征,相比于cisTopic和SCALE而言进一步提高了转录因子活性推断等下游分析任务的可用性、精准性、可解释性。“谷歌”公司旗下的计算生物学家大卫
·
凯利教授领衔设计的scBasset算法运用卷积神经网络从已知染色质可达性特征峰的一级序列中提取转录因子

DNA结合基元的基元信息,开创性地实现了单细胞染色质可达性的预测任务。
[0004]但上述chromVAR、BROCKMAN、scBasset等广泛使用的单细胞ATAC

seq数据分析方法依然存在一些不足之处。第一点,大量研究表明启动子和增强子等具有生物功能的DNA短序列能够通过发生相互作用控制各类细胞的状态,然而现有的单细胞ATAC

seq数据分析方法难以有效地捕捉启动子和增强子等转录因子

DNA结合基元的相对位置和长距离依赖关系,进而无法精准地刻画启动子和增强子之间的相互作用。第二点,现有的单细胞ATAC

seq数据分析方法呈现各司其职的状态,难以将染色质可达性预测、细胞类型注释、染色质可达
性图谱降噪、转录因子活性推断等重要的下游分析任务集成到一个统一的框架中,导致了方法的通用性有一定局限。

技术实现思路

[0005]针对现有技术中的上述不足,本专利技术提供的单细胞ATAC

seq数据分析方法解决了现有分析方法中,无法精准地刻画启动子和增强子之间的相互作用,以及方法通用性存在局限的问题,本专利技术提供一种精准、统一、高效的基于DNA语言模型的单细胞ATAC

seq数据计算分析方法。
[0006]为了达到上述专利技术目的,本专利技术采用的技术方案为:一种单细胞ATAC

seq数据分析方法,包括以下步骤:
[0007]S1、采集ATAC

seq特征峰的DNA一级序列,作为ATAC

seq数据集;
[0008]S2、通过基于ProbDep Transformer的DNA语言模型对DNA一级序列进行分析,预测DNA一级序列中各细胞的染色质可达性,并学习每个细胞的功能状态和高阶特征;
[0009]S3、根据学习的功能状态和高阶特征,进行细胞类型注释;
[0010]S4、基于预测的染色质可达性,进行ATAC

seq特征峰的染色质可达性图谱降噪;
[0011]S5、通过DNA语言模型,分析ATAC

seq特征峰中每个转录因子在各细胞中的活跃性;
[0012]S6、将染色质可达性预测结果、细胞类型注释、降噪的染色质可达性图谱以及转录因子的活跃性分析结果作为单细胞ATAC

seq数据分析结果。
[0013]进一步地,所述步骤S2具体为:
[0014]S21、将长度为L的DNA一级序列采用独热编码映射至维数为4
×
L的隐式特征空间中,并将其转换为基元编码矩阵;
[0015]对DNA一级序列采用绝对位置编码生成维数为pos
×
2i的位置编码矩阵,将基元编码矩阵和位置编码矩阵相加作为DNA语言模型的输入数据;其中,pos为当前转录因子

DNA结合基元在DNA一级序列中的位置下标,2i为当前转录因子

DNA结合基元的位置编码向量的长度;
[0016]S22、在DNA模型中,采用长距离依赖性测量评估查询与键之间的依赖性的方法对输入数据进行分析,获得每个键向量聚焦于排名最高的u个查询向量,进而得到DNA模型的输出数据;
[0017]S23、将DNA模型的输出数据作为DNA一级序列的高维语义编码,通过序列高阶编码器将其映射到低维空间中,获得DNA一级序列的高阶特征;
[0018]S24、根据获得的高阶特征,通过染色质可达性预测器预测当前DNA一级序列在各细胞的染色质可达性大小,并学习得到每个细胞的功能状态和高阶特征。
[0019]进一步地,所述步骤S22中,长距离依赖性测量的表达式为:
[0020][0021]式中,为长距离依赖性测量操作,表示q
i
向量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种单细胞ATAC

seq数据分析方法,其特征在于,包括以下步骤:S1、采集ATAC

seq特征峰的DNA一级序列,作为ATAC

seq数据集;S2、通过基于ProbDep Transformer的DNA语言模型对DNA一级序列进行分析,预测DNA一级序列中各细胞的染色质可达性,并学习每个细胞的功能状态和高阶特征;S3、根据学习的功能状态和高阶特征,进行细胞类型注释;S4、基于预测的染色质可达性,进行ATAC

seq特征峰的染色质可达性图谱降噪;S5、通过DNA语言模型,分析ATAC

seq特征峰中每个转录因子在各细胞中的活跃性;S6、将染色质可达性预测结果、细胞类型注释、降噪的染色质可达性图谱以及转录因子的活跃性分析结果作为单细胞ATAC

seq数据分析结果。2.根据权利要求1所述的单细胞ATAC

seq数据分析方法,其特征在于,所述步骤S2具体为:S21、将长度为L的DNA一级序列采用独热编码映射至维数为4
×
L的隐式特征空间中,并将其转换为基元编码矩阵;对DNA一级序列采用绝对位置编码生成维数为pos
×
2i的位置编码矩阵,将基元编码矩阵和位置编码矩阵相加作为DNA语言模型的输入数据;其中,pos为当前转录因子

DNA结合基元在DNA一级序列中的位置下标,2i为当前转录因子

DNA结合基元的位置编码向量的长度;S22、在DNA模型中,采用长距离依赖性测量评估查询与键之间的依赖性的方法对输入数据进行分析,获得每个键向量聚焦于排名最高的u个查询向量,进而得到DNA模型的输出数据;S23、将DNA模型的输出数据作为DNA一级序列的高维语义编码,通过序列高阶编码器将其映射到低维空间中,获得DNA一级序列的高阶特征;S24、根据获得的高阶特征,通过染色质可达性预测器预测当前DNA一级序列在各细胞的染色质可达性大小,并学习得到每个细胞的功能状态和高阶特征。3.根据权利要求2所述的单细胞ATAC

seq数据分析方法,其特征在于,所述步骤S22中,长距离依赖性测量的表达式为:式中,为长距离依赖性测量操作,表示q
i
向量与全部键向量之间经过Log

Sum

Exp操作之后的结果,表示Log

Sum

Exp结果的算术平均值,q
i
为查询矩阵Q的第i行,K为键矩阵,In为求对数操作,l为键矩阵K中当前行的下标,L
k
为键矩阵K中行的个数,为键矩阵K中的第k行的转置,d为键矩阵K中列的个数;DNA模型的输出数据表示为:式中,为自注意力机制操作的输出,为自注意力机制操作,Q,K,V分别为查询矩阵,键矩阵,值矩阵,Softmax(
·
)为激活函数,为与矩阵Q大小相同的稀疏矩阵,且只包
含了了长距离依赖性测量中排名最高的u个查询向量。4.根据权利要求3所述的单细胞ATAC

seq数据分析方法,其特征在于,所述步骤S23中,DNA一级序列的高阶特征z为:式中,ELU...

【专利技术属性】
技术研发人员:张永清王紫轩邹权喻云牛颢丁春利吴锡张峻铭刘宇航熊术文王茂丞
申请(专利权)人:成都信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1