【技术实现步骤摘要】
针对单细胞染色质开放性测序数据的细胞类型识别方法
[0001]本专利技术属于细胞检测
,具体涉及一种针对单细胞染色质开放性测序数据的细胞类型识别方法、系统、电子设备及存储介质。
技术介绍
[0002]在常规状态下,真核生物细胞的核DNA一圈圈缠绕在组蛋白上,形成高度压缩的折叠结构;当细胞需要进行DNA的复制和转录时,DNA的折叠结构会被打开形成染色质开放区域。这些染色质开放区域通常是转录因子结合和基因调控的关键元素,是表观基因组的重要信息之一。获取染色质开放区域的测序方法有许多,例如DNase
‑
seq、MNase
‑
seq和CHIP
‑
seq,但这些方法往往将所有细胞当成一个整体,失去了细胞的异质性信息。近年来,单细胞测序技术的发展使得染色质开放性测序达到了单细胞分辨率的水平,并产生了大量的单细胞染色质开放性测序数据,对于绘制染色质开放图谱、细胞分化发育、疾病致病机制、肿瘤微环境和生物标志物方面的研究有着极大的帮助。
[0003]细胞类型辨识是分析单细胞染 ...
【技术保护点】
【技术特征摘要】
1.一种针对单细胞染色质开放性测序数据的细胞类型识别方法,其特征在于,包括:采集待识别的单细胞染色质开放性数据;将所述待识别的单细胞染色质开放性数据进行TF
‑
IDF变换和z
‑
score标准化处理,获得待识别的单细胞染色质开放性数据的数据矩阵;利用预训练的叶贝斯神经网络,根据所述待识别的单细胞染色质开放性数据的数据矩阵获取单细胞染色质开放性数据的低维表示向量;利用预训练的隐空间高斯混合模型,根据所述单细胞染色质开放性数据的低维表示向量,获取每个高斯分布对应的细胞类型及识别概率,并形成待识别的细胞类型集合;在所述待识别的细胞类型集合中,选择最大的识别概率对应的细胞类型作为所述待识别的单细胞染色质开放性数据所属的细胞类型。2.如权利要求1所述的针对单细胞染色质开放性测序数据的细胞类型识别方法,其特征在于,所述贝叶斯神经网络的预训练的方法,包括,将标注有细胞类型的单细胞染色质开放性数据设置为训练集,将待标注细胞类型的单细胞染色质开放性数据设置为测试集;分别对所述训练集和测试集的单细胞染色质开放性数据进行TF
‑
IDF变换和z
‑
score标准化处理,分别获得训练集和测试集的数据矩阵;根据细胞类型识别标签和训练集的数据矩阵,利用高斯分布拟合属于同一细胞类型的隐空间向量;对整个隐空间的所有隐空间向量进行聚合并拟合,形成k个高斯分布的混合高斯模型;其中,所述k为细胞类型的总数量;通过贝叶斯神经网络,将混合高斯分布的隐空间数据映射到高维原始空间,获得包含高斯混合模型的贝叶斯神经网络;通过似然函数,获得所述高斯混合模型的各模型参数的条件后验分布;设定所述高斯混合模型的各模型参数的初始值,根据各模型参数对应的各模型参数的条件后验分布,对训练集的数据矩阵样本进行采样,获得各模型参数对应的细胞类型及属于所述细胞类型的概率;利用变分推断方法,对包含高斯混合模型的贝叶斯神经网络参数进行反向传播,进而确定所述高斯混合模型和贝叶斯神经网络的参数值;利用所述测试集对训练完成的贝叶斯神经网络进行测试;完成包含高斯混合模型的贝叶斯神经网络的训练。3.如权利要求2所述的针对单细胞染色质开放性测序数据的细胞类型识别方法,其特征在于,在分别对所述训练集和测试集的单细胞染色质开放性数据进行TF
‑
IDF变换和z
‑
score标准化处理之前,还包括对所述训练集和测试集的单细胞染色质开放性数据进行筛选,方法包括,获取所述测试集和所述训练集共有的单细胞染色质开放区域;按照单细胞染色质开放区域占比超过训练集3%细胞数量的标准,对所述训练集和所述测试集进行筛选。4.如权利要求2所述的针对单细胞染色质开放性测序数据的细胞类型识别方法,其特征在于,通过似然函数,获得所述高斯混合模型的各模型参数的条件后验分布的方法,包括,
利用近似分布对所述高斯混合模型的各模型参数的后验概率进行拟合,获得所述高斯混合模型的各模型参数的拟合高斯分布;根据平行场定理,获得所述高斯混合模型的各模型参数的似然函数;通过最小化...
【专利技术属性】
技术研发人员:江瑞,陈晓阳,陈盛泉,闾海荣,张学工,
申请(专利权)人:清华大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。