一种转录因子活性计算方法、存储器及电子设备技术

技术编号:38091674 阅读:9 留言:0更新日期:2023-07-06 09:03
本发明专利技术公开了一种转录因子活性计算方法、存储器及电子设备,属于生物信息技术领域。方法包括:在各个细胞类群中计算转录因子基因表达值和非转录因子基因表达值的互信息;根据互信息的大小和互信息的统计显著性筛选转录因子的靶标基因;根据转录因子基因表达值和靶标基因表达值的相关性筛选正向调控靶标基因和负向调控靶标基因;计算正向调控靶标基因表达值、负向调控靶标基因表达值与转录因子基因表达值的平均互信息,并将该平均互信息作为转录因子的活性。本发明专利技术基于细胞类群的基因表达信息计算转录因子活性,还基于统计学方法对转录因子潜在的靶标基因进行筛选,同时考虑正向调控和负向调控的靶标基因,提高了转录因子活性计算的准确度。计算的准确度。计算的准确度。

【技术实现步骤摘要】
一种转录因子活性计算方法、存储器及电子设备


[0001]本专利技术涉及生物信息
,尤其涉及一种转录因子活性计算方法、存储器及电子设备。

技术介绍

[0002]转录因子是调控细胞生理活动的关键基因,该类基因通过与其靶标基因转录起始位点(transcription start site,TSS)附近的DNA基序(motif)结合,来激活或抑制靶标基因的表达,最终实现对细胞生理活动的调控。如果转录因子的活性出现异常,那么将会使得其靶标基因的表达模式发生紊乱,进而引起细胞生理活动的异常以及生物体的病理表型。因此,转录因子活性可以用于判断细胞的生理活动是否异常,从而鉴定出对应于特定疾病的异常细胞类群;另外,对具有异常活性转录因子的鉴定也为药物研发提供了潜在的靶标。
[0003]目前,计算单细胞转录因子活性的方法通常包括三个步骤:步骤一,基于每个细胞的转录组测序数据,首先采用随机森林(random forest)模型,为每一个转录因子基因筛选与其表达值相关性最高的前五十个非转录因子基因作为其潜在的靶标基因,然后基于转录因子基因和其潜在的靶标基因之间表达值的Spearman(斯皮尔曼)相关系数将潜在靶标基因分为正向调控和负向调控的潜在靶标基因,后续各步计算只针对正向调控的潜在靶标基因进行。如果经过步骤一的筛选,某个转录因子潜在的靶标基因数量少于二十个,那么该转录因子活性计算不会进入步骤二。步骤二包括两个子步骤: 步骤2.1、基于染色质免疫沉淀测序(ChIP

seq)数据,确定转录因子、DNA基序以及靶标基因之间的关系。ChIP

seq数据可以为每个转录因子确定其在基因组上结合的DNA基序,同时可以确定启动子区域与DNA基序发生交叠的基因,这些基因就是转录因子调控的靶标基因;步骤2.2、针对每一个转录因子,在步骤一获得的潜在的靶标基因和步骤2.1获得的具有实验数据支持的靶标基因之间取交集,作为该转录因子确定的靶标基因。步骤三,首先基于单细胞转录组测序数据,将每个细胞的基因按照表达值从高到低的顺序进行排序,然后最少取排序前1%,最多取排序前20%的基因作为高表达基因集合,最后针对每一个转录因子,在步骤2.2获得的确定的靶标基因与高表达基因集合之间取交集,并计算该交集基因占所有确定的靶标基因的比例,以该比例作为衡量转录因子活性的定量指标。
[0004]该方法存在三个问题:其一,该方法独立地基于每个细胞的转录组测序数据对转录因子活性进行计算,由于单细胞基因表达数据的稀疏性及其易受测序噪音干扰的特点,使得转录因子活性计算的准确性下降。其二,该方法步骤二基于实验数据而非统计学方法为转录因子潜在的靶标基因进行过滤,由于转录因子和靶标基因的调控关系与所处细胞的生理状态高度相关,所以用其他实验条件下产生的数据对潜在的靶标基因进行过滤会带来偏性,进而导致假阳性或假阴性结果的出现。其三,该方法只考虑了被转录因子正向调控的靶标基因,仅基于受转录因子正向调控的靶标基因对转录因子活性进行定量是不全面、不客观的,会导致假阳性或假阴性结果的出现。

技术实现思路

[0005]为了解决现有技术中存在的问题,本专利技术提供了如下技术方案。
[0006]本专利技术一方面提供了一种转录因子活性计算方法,包括:基于单细胞的基因表达值划分细胞类群;在各个细胞类群中计算转录因子基因表达值和非转录因子基因表达值的互信息;根据计算得到的互信息的大小和互信息的统计显著性筛选转录因子的靶标基因;根据转录因子基因表达值和靶标基因表达值的相关性筛选正向调控靶标基因和负向调控靶标基因;计算正向调控靶标基因表达值、负向调控靶标基因表达值与转录因子基因表达值的平均互信息,并将该平均互信息作为转录因子的活性。
[0007]优选地,所述基于单细胞的基因表达值划分细胞类群包括:对单细胞的基因表达值进行归一化处理;根据归一化处理后的单细胞的基因表达值划分细胞类群。
[0008]优选地,所述根据归一化处理后的单细胞的基因表达值划分细胞类群包括:采用无监督聚类的方法划分细胞类群,或根据特征基因的表达模式对细胞类型、细胞状态进行注释和分群;其中,每个细胞类群至少包括100个细胞。
[0009]优选地,所述在各个细胞类群中计算转录因子基因表达值和非转录因子基因表达值的互信息包括:对于每个细胞类群,首先采用相同的基因表达值区间宽度将每个基因在每个细胞中的表达值进行离散化处理,然后基于各细胞中离散化处理的基因表达值,为任意一对转录因子和非转录因子的基因表达值计算互信息。
[0010]优选地,所述互信息的统计显著性按照如下方法计算:将细胞与转录因子基因表达值和非转录因子基因表达值的对应关系进行打乱处理,形成打乱处理的单细胞基因表达图谱;基于打乱处理的单细胞基因表达图谱,为转录因子基因表达值和非转录因子基因表达值多次计算打乱互信息,并利用该打乱互信息构成互信息的零假设分布;根据互信息的零假设分布,通过置换检验和FDR校正计算互信息的统计显著性。
[0011]优选地,所述根据计算得到的互信息的大小和互信息的统计显著性筛选转录因子的靶标基因包括:若互信息大于第一预设值,且互信息的FDR小于第二预设值,则转录因子的靶标基因为该转录因子对应的非转录因子。
[0012]优选地,所述根据转录因子基因表达值和靶标基因表达值的相关性筛选正向调控靶标基因和负向调控靶标基因包括:计算转录因子基因表达值和靶标基因表达值的Spearman等级相关系数并进行FDR校正;若Spearman等级相关系数为正且FDR小于0.05,则靶标基因为转录因子的正向调控靶标基因;若Spearman等级相关系数为负且FDR小于0.05,则靶标基因为转录因子的负向调控靶标基因。
[0013]优选地,所述计算正向调控靶标基因表达值、负向调控靶标基因表达值与转录因子基因表达值的平均互信息包括:
计算每个基因在细胞类群所有细胞中的平均表达值;按照平均表达值由高到低的顺序对细胞类群中的所有基因进行排序,取排名靠前预设比例的基因构成高表达基因集合,取排名靠后预设比例的基因构成低表达基因集合;在转录因子的正向调控靶标基因的集合与高表达基因集合之间取交集得到高表达正调控靶标基因的集合;在转录因子的负向调控靶标基因的集合与低表达基因集合之间取交集得到低表达负调控靶标基因的集合;为所有的高表达正调控靶标基因表达值和低表达负调控靶标基因表达值的互信息计算平均值,并将该平均值作为转录因子的活性。
[0014]本专利技术还提供了一种存储器,存储有多条指令,所述指令用于实现所述的转录因子活性计算方法。
[0015]本专利技术还提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器加载并执行,以使所述处理器能够执行所述的转录因子活性计算方法。
[0016]本专利技术的有益效果是:本专利技术基于单细胞转录组测序数据,在采用一定方法划定的细胞类群中,为转录因子基因和其他非转录因子的基因表达值计算互信息,然后根据互信息的大小、互信息统本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种转录因子活性计算方法,其特征在于,包括:基于单细胞的基因表达值划分细胞类群;在各个细胞类群中计算转录因子基因表达值和非转录因子基因表达值的互信息;根据计算得到的互信息的大小和互信息的统计显著性筛选转录因子的靶标基因;根据转录因子基因表达值和靶标基因表达值的相关性筛选正向调控靶标基因和负向调控靶标基因;计算正向调控靶标基因表达值、负向调控靶标基因表达值与转录因子基因表达值的平均互信息,并将该平均互信息作为转录因子的活性。2.如权利要求1所述的转录因子活性计算方法,其特征在于,所述基于单细胞的基因表达值划分细胞类群包括:对单细胞的基因表达值进行归一化处理;根据归一化处理后的单细胞的基因表达值划分细胞类群。3.如权利要求2所述的转录因子活性计算方法,其特征在于,所述根据归一化处理后的单细胞的基因表达值划分细胞类群包括:采用无监督聚类的方法划分细胞类群,或根据特征基因的表达模式对细胞类型、细胞状态进行注释和分群;其中,每个细胞类群至少包括100个细胞。4.如权利要求1所述的转录因子活性计算方法,其特征在于,所述在各个细胞类群中计算转录因子基因表达值和非转录因子基因表达值的互信息包括:对于每个细胞类群,首先采用相同的基因表达值区间宽度将每个基因在每个细胞中的表达值进行离散化处理,然后基于各细胞中离散化处理的基因表达值,为任意一对转录因子和非转录因子的基因表达值计算互信息。5.如权利要求1所述的转录因子活性计算方法,其特征在于,所述互信息的统计显著性按照如下方法计算:将细胞与转录因子基因表达值和非转录因子基因表达值的对应关系进行打乱处理,形成打乱处理的单细胞基因表达图谱;基于打乱处理的单细胞基因表达图谱,为转录因子基因表达值和非转录因子基因表达值多次计算打乱互信息,并利用该打乱互信息构成互信息的零假设分布;根据互信息的零假设分布,通过置换检验和FDR校正计算互信息的统计显著性。6.如权利要求1所述的转录因子活性计...

【专利技术属性】
技术研发人员:季序我赵义彭鑫鑫李哲
申请(专利权)人:普瑞基准科技北京有限公司北京普康瑞仁医学检验所有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1