当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于基因调控网络识别驱动调控因子的方法技术

技术编号:38315954 阅读:14 留言:0更新日期:2023-07-29 08:57
本发明专利技术涉及生物信息学领域,具体涉及一种基于基因调控网络识别驱动调控因子的方法。该方法针对单细胞转录组数据基于图注意力神经网络构建基因调控网络,利用该基因调控网络识别驱动基因,通过计算候选驱动基因的影响力得分,识别驱动调控因子以及由驱动调控因子控制的调控基因模块。本发明专利技术提供的识别方法准确性高,有利于进行与细胞命运决定相关的基因调控,对于细胞的分化、发育,疾病机制的研究等具有重要的理论意义和实用价值。有重要的理论意义和实用价值。有重要的理论意义和实用价值。

【技术实现步骤摘要】
一种基于基因调控网络识别驱动调控因子的方法


[0001]本专利技术涉及生物信息学领域,具体涉及一种基于基因调控网络识别驱动调控因子的方法。

技术介绍

[0002]细胞命运决定的机制关系到人体发育、维持稳态、癌症等疾病的发生发展。细胞通过分化产生功能各异的细胞类型,如骨髓造血干细胞受到激素刺激后可分化为淋巴干细胞,并进一步选择性分化为T淋巴细胞和B淋巴细胞。此外,细胞中基因变异等众多复杂因素,可导致正常细胞转变为癌细胞,使细胞命运发生根本性的变化。细胞的分化和重编程等过程是由复杂的基因调节控制的,每个细胞通过整合大量的信号并且执行复杂的基因调控变化来决定自己的命运。究竟什么因素决定了细胞命运,一直是生命科学领域一个基础且非常重要的问题。
[0003]从基因到细胞层面阐明细胞命运决定机制至关重要,随着单细胞测序技术的快速发展,越来越多的研究已经从细胞“群体”层面具体到单个细胞水平上,使得生命科学领域的研究更加精准化,然而通过计算方法从单细胞测序数据中挖掘基因调控关系,并检测决定细胞命运的关键调控因子,仍然是一个巨大的挑战。
[0004]大量研究发现,细胞命运选择是由一些关键的转录因子调控的,但是这些转录因子如何决定细胞的分化进程还并不完全清楚。很多计算研究通过重建转录因子驱动的基因调控网络来描述细胞命运的转变,这些最关键的转录因子通常被称为主要调控子(Master regulators,MRs),主要调控子被认为负责控制相关表型下的细胞的整个调控程序。目前常用的主要调控子识别方法包括VIPER,ANANSE,SCENIC等方法,其中只有SCENIC是专门针对单细胞转录组数据设计的。然而,由于单细胞测序数据存在噪声高、缺失值较多等问题,当前基于单细胞转录组测序数据的基因调控网络的构建还不理想,并且目前缺乏专门针对单细胞数据的控制细胞命运决定的主要调控因子识别方法。一般来说,这些主要调控因子仅仅被局限为转录因子,且很难明确哪些调控因子是真正起到驱动作用的,因而迫切需要基于单细胞转录组测序数据的基因调控网络的构建以及对驱动调控因子准确高效地识别。

技术实现思路

[0005]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提供一种基于基因调控网络识别驱动调控因子以及由驱动调控因子控制的调控基因模块的方法。本专利技术提供的方法充分利用单细胞转录组数据的特征,构建更加精确的基因调控网络,并且基于此网络获得起关键调控作用的驱动调控因子,有助于解析细胞命运决定的调控机制。
[0006]为此,本专利技术第一方面提供一种构建基因调控网络的方法,所述方法包括以下步骤;
[0007]S01:获取细胞内部基因相互作用网络作为背景基因网络;
[0008]S02:获取单细胞转录组数据,对所述数据进行预处理,获取单细胞发育轨迹信息;
[0009]S03:基于图注意力神经网络构建所述基因调控网络的编码器;
[0010]S04:输入所述背景基因网络和所述单细胞发育轨迹信息,基于图对比学习框架对所述编码器进行训练;
[0011]S05:获取基因相互关系,利用注意力系数为所述基因相互关系赋权;
[0012]S06:设定基因相互关系权重阈值,选取高于所述阈值的基因相互关系,得到所述基因调控网络。
[0013]其中背景基因网络作为先验网络,用来从中选择与特定细胞命运相关的基因相互作用。单细胞转录组数据进行预处理后获取细胞的不同发育轨迹信息和伪时间信息,将先验网络同上述信息输入基于图注意力神经网络构建的编码器中,并基于图对比学习框架对编码器进行训练,构建得到细胞谱系特异的基因调控网络。该基因调控网络还为后续驱动调控因子的识别以及调控基因模块的识别提供了有力的基础。
[0014]根据本专利技术的实施方案,步骤S01中所述细胞内部基因相互作用网络来自NicheNet(https://github.com/saeyslab/nichenetr)、OmniPath(https://omnipathdb.org/)、InbioMap(https://inbio

discover.com/)或PathwayCommons(https://www.pathwaycommons.org/)中的至少一个,其中所述NicheNet、OmniPath、InbioMap和PathwayCommons剔除掉细胞间的配体

受体相互作用关系,将无向边处理为双向边,由此获得有向的基因关系网络。
[0015]根据本专利技术的实施方案,所述步骤S02中所述预处理包括:
[0016]基于所述单细胞转录组数据中每个细胞表达的基因数量对细胞进行过滤,根据每个基因参与表达的细胞数目对基因进行过滤,去除低质量细胞和基因后,对基因表达量进行归一化处理,获取单细胞发育轨迹信息。
[0017]根据本专利技术的实施方案,所述单细胞发育轨迹信息包括采用Slingshot、DPT、Palantir中的至少一种方法获取。
[0018]根据本专利技术的实施方案,步骤S03中所述编码器包括:注意力机制函数、批量归一化、前馈神经网络和激活函数。其中,输入的先验基因网络被表示为一个有向图G=(V,E),其中节点V(|V|=N)表示基因,E表示边。图G的邻接矩阵表示为其中A
ij
=1表示有一条从v
i
到v
j
的边,否则A
ij
=0。
[0019]根据本专利技术的实施方案,所述编码器的组成方式包括:每一层图注意力神经网络之前进行所述批量归一化,每一层图注意力神经网络之后连接所述前馈神经网络。
[0020]根据本专利技术的实施方案,所述组成方式堆叠两层。
[0021]根据本专利技术的实施方案,所述注意力机制函数包括如下公式:
[0022][0023][0024][0025]其中,att函数为注意力函数,度量节点v
i
和节点v
j
间的相关性;l表示所述图注意力神经网络中的层;和分别为与源节点和目标节点相关的权重矩阵;和)分别为节点v
i
和节点v
j
的基因特征表示,其中对于第一层为输入的基因表达谱数据,D
score
为基因差异表达得分;
[0026]e
ij
通过softmax函数归一化得到注意力系数α
ij
;τ为温度参数,且τ<1;
[0027]最终节点v
i
的输出特征是得到的注意力系数α
ij
所对应的特征的线性组合,使用多头注意力机制同时捕捉多个表征子空间的基因特征表示得到σ是GELU激活函数;K是多头注意力的总头数;||表示连接操。
[0028]基于注意力机制的模型,通过对节点特征之间的相关性进行评分,来学习每个节点的邻居对其特征表示的重要性。节点v
i
和节点v
j
间的相关性可以用一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种构建基因调控网络的方法,其特征在于,所述方法包括以下步骤:S01:获取细胞内部基因相互作用网络作为背景基因网络;S02:获取单细胞转录组数据,对所述数据进行预处理,获取单细胞发育轨迹信息;S03:基于图注意力神经网络构建所述基因调控网络的编码器;S04:输入所述背景基因网络和所述单细胞发育轨迹信息,基于图对比学习框架对所述编码器进行训练;S05:获取基因相互关系,利用注意力系数为所述基因相互关系赋权;S06:设定基因相互关系权重阈值,选取高于所述阈值的基因相互关系,得到所述基因调控网络。2.根据权利要求1所述的方法,其特征在于,步骤S01中所述细胞内部基因相互作用网络来自NicheNet、OmniPath、InbioMap、PathwayCommons中的至少一个,其中所述NicheNet、OmniPath、InbioMap和PathwayCommons剔除掉细胞间的配体

受体相互作用关系,将无向边处理为双向边。3.根据权利要求1所述的方法,其特征在于,步骤S02中所述预处理包括:基于所述单细胞转录组数据中每个细胞表达的基因数量对细胞进行过滤,根据每个基因参与表达的细胞数目对基因进行过滤,去除低质量细胞和基因后,对基因表达量进行归一化处理,获取单细胞发育轨迹信息;任选地,所述单细胞发育轨迹信息包括采用Slingshot、DPT、Palantir中的至少一种方法获取。4.根据权利要求1所述的方法,其特征在于,步骤S03中所述编码器包括:注意力机制函数、批量归一化、前馈神经网络和激活函数。5.根据权利要求4所述的方法,其特征在于,所述编码器的组成方式包括:每一层图注意力神经网络之前进行所述批量归一化,每一层图注意力神经网络之后连接所述前馈神经网络;任选地,所述组成方式堆叠两层。6.根据权利要求4所述的方法,其特征在于,所述注意力机制函数包括如下公式:6.根据权利要求4所述的方法,其特征在于,所述注意力机制函数包括如下公式:6.根据权利要求4所述的方法,其特征在于,所述注意力机制函数包括如下公式:其中,att函数为注意力函数,度量节点v
i
和节点v
j
间的相关性;l表示所述图注意力神经网络中的层;和分别为与源节点和目标节点相关的权重矩阵;和分别为节点v
i
和节点v
j
的基因特征表示,其中对于第一层为输入的基因表达谱数据;D
score
为基因差异表达得分;e
ij
通过softmax函数归一化得到注意力系数α
ij
;τ为温度参数,且τ<1;
最终节点v
i
的输出特征是得到的注意力系数α
ij
所对应的特征的线性组合,使用多头注意力机制同时捕捉多个表征子空间的基因特征表示得到是GELU激活函数;K是多头注意力的总头数;||表示连接操;任选地,所述批量归一化包括采用如下公式对节点v
i
的基因表达谱进行处理:其中,BN为Batch Normalization函数;任选地,所述前馈神经网络包括如下函数:其中,w1和w2为系数矩阵,b1和b2为偏置项;任选地,所述激活函数如下式所示:7.根据权利要求6所述的方法,其特征在于,所述步骤S03进一步包括:将背景基因网络划分为传入网络和传出网络,所述传入网络和传出网络上的计算同时进行,根据以下公式将节点v
i
的基因特征表示连接起来:其中,和分别表示传入网络和传出网络上的基因特征表示,concat表示拼接操作。8.根据权利要求6所述的方法,其特征在于,所述基因差异表达得分D
score

【专利技术属性】
技术研发人员:曾坚阳王培卓赵诞
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1