【技术实现步骤摘要】
一种单细胞ATAC
‑
seq数据分析方法
[0001]本专利技术属于生物信息分析
,具体涉及一种单细胞ATAC
‑
seq数据分析方法。
技术介绍
[0002]单细胞染色质可达性靶向测序(single
‑
cell Assay for Targeting Accessible
‑
Chromatin sequencing,scATAC
‑
seq)方法的兴起为刻画单细胞分辨率的染色质可达性图谱奠定了坚实的基础,其已经成为揭示基因转录过程中细胞特异性调控机制的重要手段。近年来,随着单细胞ATAC
‑
seq数据规模的快速增长,即scATAC
‑
seq方法检测到的染色质可达性特征峰的规模的快速增长,生物信息学家们开始着手致力于利用单细胞ATAC
‑
seq数据实现染色质可达性预测、细胞类型注释、染色质可达性图谱降噪、转录因子活性推断等下游分析任务。然而,单细胞ATAC
‑
seq数据固有的高维性、二值性、稀疏性为计算分析带来了巨大挑战。因此,设计精准、鲁棒、高效的单细胞ATAC
‑
seq数据分析方法已然成为生物信息学领域中亟待解决的关键问题。
[0003]截至目前为止,生物信息学家们已经提出了一系列单细胞ATAC
‑
seq数据分析方法,它们的基本思想是利用数理统计、机器学习等手段从海量单细胞ATAC
‑
seq ...
【技术保护点】
【技术特征摘要】
1.一种单细胞ATAC
‑
seq数据分析方法,其特征在于,包括以下步骤:S1、采集ATAC
‑
seq特征峰的DNA一级序列,作为ATAC
‑
seq数据集;S2、通过基于ProbDep Transformer的DNA语言模型对DNA一级序列进行分析,预测DNA一级序列中各细胞的染色质可达性,并学习每个细胞的功能状态和高阶特征;S3、根据学习的功能状态和高阶特征,进行细胞类型注释;S4、基于预测的染色质可达性,进行ATAC
‑
seq特征峰的染色质可达性图谱降噪;S5、通过DNA语言模型,分析ATAC
‑
seq特征峰中每个转录因子在各细胞中的活跃性;S6、将染色质可达性预测结果、细胞类型注释、降噪的染色质可达性图谱以及转录因子的活跃性分析结果作为单细胞ATAC
‑
seq数据分析结果。2.根据权利要求1所述的单细胞ATAC
‑
seq数据分析方法,其特征在于,所述步骤S2具体为:S21、将长度为L的DNA一级序列采用独热编码映射至维数为4
×
L的隐式特征空间中,并将其转换为基元编码矩阵;对DNA一级序列采用绝对位置编码生成维数为pos
×
2i的位置编码矩阵,将基元编码矩阵和位置编码矩阵相加作为DNA语言模型的输入数据;其中,pos为当前转录因子
‑
DNA结合基元在DNA一级序列中的位置下标,2i为当前转录因子
‑
DNA结合基元的位置编码向量的长度;S22、在DNA模型中,采用长距离依赖性测量评估查询与键之间的依赖性的方法对输入数据进行分析,获得每个键向量聚焦于排名最高的u个查询向量,进而得到DNA模型的输出数据;S23、将DNA模型的输出数据作为DNA一级序列的高维语义编码,通过序列高阶编码器将其映射到低维空间中,获得DNA一级序列的高阶特征;S24、根据获得的高阶特征,通过染色质可达性预测器预测当前DNA一级序列在各细胞的染色质可达性大小,并学习得到每个细胞的功能状态和高阶特征。3.根据权利要求2所述的单细胞ATAC
‑
seq数据分析方法,其特征在于,所述步骤S22中,长距离依赖性测量的表达式为:式中,为长距离依赖性测量操作,表示q
i
向量与全部键向量之间经过Log
‑
Sum
‑
Exp操作之后的结果,表示Log
‑
Sum
‑
Exp结果的算术平均值,q
i
为查询矩阵Q的第i行,K为键矩阵,In为求对数操作,l为键矩阵K中当前行的下标,L
k
为键矩阵K中行的个数,为键矩阵K中的第k行的转置,d为键矩阵K中列的个数;DNA模型的输出数据表示为:式中,为自注意力机制操作的输出,为自注意力机制操作,Q,K,V分别为查询矩阵,键矩阵,值矩阵,Softmax(
·
)为激活函数,为与矩阵Q大小相同的稀疏矩阵,且只包
含了了长距离依赖性测量中排名最高的u个查询向量。4.根据权利要求3所述的单细胞ATAC
‑
seq数据分析方法,其特征在于,所述步骤S23中,DNA一级序列的高阶特征z为:式中,ELU...
【专利技术属性】
技术研发人员:张永清,王紫轩,邹权,喻云,牛颢,丁春利,吴锡,张峻铭,刘宇航,熊术文,王茂丞,
申请(专利权)人:成都信息工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。