一种基于单细胞转录组数据的转录因子调控网络建模方法技术

技术编号:37404568 阅读:9 留言:0更新日期:2023-04-30 09:31
本发明专利技术公开了一种基于单细胞转录组数据的转录因子调控网络建模方法,包括步骤如下:S1提取多表型单细胞组学数据,进行数据清洗,对清洗后的数据进行数据整合;S2基于生物学知识库,对S1处理后的数据进行分析,构建先验的分子间互作关系网络;S3基于多因子非负矩阵分解算法,根据S1处理后的数据和S2先验的分子间互作关系网络建立多维分子协同互作关系模块;S4计算多维分子协同互作关系模块与表型相关的互作关系模块;S5对多维分子协同互作关系模块与表型相关的互作关系进行可视化导出。本发明专利技术借助单细胞测序技术和先验生物学知识,提取高维单细胞组学数据内多维分子协同调控关系,获得与表型变化密切相关的转录因子

【技术实现步骤摘要】
一种基于单细胞转录组数据的转录因子调控网络建模方法


[0001]本专利技术属于生物技术行业领域,涉及一种利用单细胞组学数据解析多维分子协同调控机制的方法,具体地说,是一种利用多表型单细胞组学数据,基于多项非负矩阵因式分解算法框架,识别表型变化相关的转录因子

基因功能协同调控互作机制的新方法。

技术介绍

[0002]近年来,受益于微流体芯片技术的发展,单细胞水平的组学测序技术在越来越多基础实验室和临床研究中得到推广应用。其中单细胞转录组测序技术(scRNA

seq)因能通过转录表达谱反映单个细胞的即时生理状态,最为受到生物医学领域研究者的关注。随着scRNA

seq技术测序深度和精度的不断优化以及一次性可测细胞数目的不断增多,scRNA

seq不仅被用于不同细胞类型、细胞亚群的鉴定,细胞不同状态的区分,还被用于细胞谱系的追踪以及细胞在发育、分化等转化过程中关键特征的捕捉。虽然scRNA

seq公共数据和工具都在井喷式增长,但目前只有零星研究对scRNA

seq数据中的多维分子协同调控信息进行整合提取,尚无基于单细胞组学数据提取表型相关转录因子

基因功能协同调控模块的方法及工具。
[0003]转录因子是生物体内调控细胞命运、发育模式和特定生物学功能的一类DNA结合蛋白,能通过特异性识别真核基因顺式作用元件来调控下游靶基因的转录或激活,进而促进生物表型或生理状态的变化。很多转录因子,如P53,CREB等与重要疾病如肿瘤、炎症的发生和发展过程密切相关。了解特定表型变化下转录因子介导的信号途径变化和靶基因表达变化是解析变化背后分子作用机制的重要一环。现存多表型单细胞转录组分析往往只针对同类细胞群体在不同表型下的转录组进行差异基因分析,并直接在该结果基础上开展下游功能分析。但单细胞组学数据通常具有数据稀疏和高噪音的特点,只依靠比较组学手段获得的表型相关分子信息,无法直观反映表型变化相关的调控子活性变化,也无法完整反映表型变化相关的转录因子介导的信号通路或基因功能发生的改变。
[0004]为研究表型相关的转录因子

基因功能之间的协同调控作用,本专利技术建立了一种基于多表型单细胞数据识别多维分子协同调控机制的新方法。本方法引入了一项多项非负矩阵因式分解技术。该技术是非负矩阵因式分解技术(Non

negative Matrix Factorization,NMF)的一类衍生。它依赖先验的分子间互作关系网络以利用已有生物学知识,通过对单细胞数据高维特征的降维提取,实现从单细胞数据中提取与表型变化相关的转录因子

基因功能协同互作信息。和常见非负矩阵分解技术相比,多项非负矩阵因式分解技术依赖先验的分子互作关系,因此基于该技术设计的多维分子协同调控机制识别方法对单细胞数据噪音有更强抗扰性,所识别的多维分子协同调控机制有更好的生物鲁棒性。

技术实现思路

[0005]本专利技术的目的在于借助单细胞测序技术和已有的先验生物学知识,提取高维单细胞组学数据内的多维分子协同调控关系,获得与表型变化密切相关的转录因子

基因功能
协同调控互作机制,并以一种易读和整合紧密的形式呈现与表型变化相关的多维分子互作关系。
[0006]本专利技术公开了一种基于单细胞转录组数据的转录因子调控网络建模方法,包括步骤如下:
[0007]S1.提取多表型单细胞组学数据,进行数据清洗,对清洗后的数据进行数据整合;
[0008]S2.基于生物学知识库,对S1处理后的数据进行分析,构建先验的分子间互作关系网络;
[0009]S3.基于多因子非负矩阵分解算法,根据S1处理后的数据和S2先验的分子间互作关系网络建立多维分子协同互作关系模块;
[0010]S4.计算多维分子协同互作关系模块与表型相关的互作关系模块;
[0011]S5.对多维分子协同互作关系模块与表型相关的互作关系模块进行可视化导出。
[0012]进一步地,所述S1中数据清洗包括:
[0013]S101设定过滤条件;所述过滤条件至少包括多表型单细胞组学数据中低丰富度的细胞、被细胞碎片污染的细胞、凋亡或裂解的细胞、多聚体中的一种;
[0014]S102根据过滤条件对多表型单细胞组学数据进行过滤,获得过滤后的数据;
[0015]S103对过滤后的数据进行特征识别,将识别后的数据进行数据整合;所述特征识别至少包括细胞分群、细胞特征基因识别。
[0016]进一步地,所述S2中分子间互作关系网络包括转录因子与靶基因之间的调控关系网络、基因与基因之间的功能关联网络。
[0017]更进一步地,所述基因与基因之间的功能关联网络构建中关联基因至少参与包括调控同一生物学过程、参与同一基因通路、对同一表型有响应中的一种;
[0018]所述基因与基因之间的功能关联网络中功能关联形式包括但不限于共表观遗传修饰的基因关联网络、基因编码蛋白的配受体互作关系网络、基因编码蛋白的蛋白质相互作用网络中的一种或多种。
[0019]更进一步地,所述多因子非负矩阵分解算法为:
[0020]S301设定观测到的总细胞数为n、观测到的总基因个数为m、观测到的总转录因子个数为s,建立一个n
×
m维的非负矩阵,设定为多表型的单细胞基因表达谱数据X1;建立一个n
×
s维的非负矩阵,设定为单细胞调控子活性矩阵数据X2;
[0021]S302设定n个细胞中观察到的所有转录因子

基因功能协同互作模块个数为k,建立一个n
×
k维的非负矩阵W;建立一个k
×
m维非负矩阵,用于描述低维空间中变量与基因之间的权重关系,设为H1;建立一个k
×
s维非负矩阵,用于描述低维空间中变量与转录因子之间的权重关系,设为H2;
[0022]W满足X
I
≈WH
I
,H
I
≥0,W≥0,I=1,2;且分解的平方误为:
[0023][0024]其中‖


F
为Frobenius范数,基于平方误,构建目标函数:
[0025][0026]更进一步地,所述S302中式可进一步写为:
[0027][0028]其中λ
I
为迹系数,Tr(H
I
AH
JT
)和Tr(H
I
BH
JT
)为矩阵的迹矩阵,A为先验基因

基因功能关系的邻接矩阵,B为先验转录因子

靶基因功能关联的邻接矩阵,h
j
为H1矩阵中第i列向量,h
j

为H2矩阵中第j列向量;
[0029]先验关系邻接矩阵的最大化本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于单细胞转录组数据的转录因子调控网络建模方法,其特征在于,包括步骤如下:S1.提取多表型单细胞组学数据,进行数据清洗,对清洗后的数据进行数据整合;S2.基于生物学知识库,对S1处理后的数据进行分析,构建先验的分子间互作关系网络;S3.基于多因子非负矩阵分解算法,根据S1处理后的数据和S2先验的分子间互作关系网络建立多维分子协同互作关系模块;S4.计算多维分子协同互作关系模块中与表型相关的互作关系模块;S5.对多维分子协同互作关系模块与表型相关的互作关系模块进行可视化导出。2.根据权利要求1所述一种基于单细胞转录组数据的转录因子调控网络建模方法,其特征在于,所述S1中数据清洗包括:S101设定过滤条件;所述过滤条件至少包括多表型单细胞组学数据中低丰富度的细胞、被细胞碎片污染的细胞、凋亡或裂解的细胞、多聚体中的一种;S102根据过滤条件对多表型单细胞组学数据进行过滤,获得过滤后的数据;S103对过滤后的数据进行特征识别,将识别后的数据进行数据整合;所述特征识别至少包括细胞分群、细胞特征基因识别。3.根据权利要求1所述一种基于单细胞转录组数据的转录因子调控网络建模方法,其特征在于,所述S2中分子间互作关系网络包括转录因子与靶基因之间的调控关系网络、基因与基因之间的功能关联网络。4.根据权利要求3所述一种基于单细胞转录组数据的转录因子调控网络建模方法,其特征在于,所述基因与基因之间的功能关联网络构建中关联基因至少参与包括调控同一生物学过程、参与同一基因通路、对同一表型有响应中的一种;所述基因与基因之间的功能关联网络中功能关联形式包括但不限于共表观遗传修饰的基因关联网络、基因编码蛋白的配受体互作关系网络、基因编码蛋白的蛋白质相互作用网络中的一种或多种。5.根据权利要求4所述一种基于单细胞转录组数据的转录因子调控网络建模方法,其特征在于,所述多因子非负矩阵分解算法为:S301设定观测到的总细胞数为n、观测到的总基因个数为m、观测到的总转录因子个数为s,建立一个n
×
m维的非负矩阵,设定为多表型的单细胞基因表达谱数据X1;建立一个n
×
s维的非负矩阵,设定为单细胞调控子活性矩阵数据X2;S302设定n个细胞中观察到的所有转录因子

基因功能协同互作模块个数为k,建立一个n
×
k维的非负矩阵W;建立一个k
×
m维非负矩阵,用于描述低维空间中变量与基因之间的权重关系,设为H1;建立一个k
×
s维非负矩阵,用于描述低维空间中变量与转录因子之间的权重关系,设为H2;W满足X
I
≈WH
I
,H
I
≥0,W≥0,I=1,2...

【专利技术属性】
技术研发人员:李旭日张嘉宁
申请(专利权)人:中山大学中山眼科中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1