【技术实现步骤摘要】
一种基于基因调控网络识别驱动调控因子的方法
[0001]本专利技术涉及生物信息学领域,具体涉及一种基于基因调控网络识别驱动调控因子的方法。
技术介绍
[0002]细胞命运决定的机制关系到人体发育、维持稳态、癌症等疾病的发生发展。细胞通过分化产生功能各异的细胞类型,如骨髓造血干细胞受到激素刺激后可分化为淋巴干细胞,并进一步选择性分化为T淋巴细胞和B淋巴细胞。此外,细胞中基因变异等众多复杂因素,可导致正常细胞转变为癌细胞,使细胞命运发生根本性的变化。细胞的分化和重编程等过程是由复杂的基因调节控制的,每个细胞通过整合大量的信号并且执行复杂的基因调控变化来决定自己的命运。究竟什么因素决定了细胞命运,一直是生命科学领域一个基础且非常重要的问题。
[0003]从基因到细胞层面阐明细胞命运决定机制至关重要,随着单细胞测序技术的快速发展,越来越多的研究已经从细胞“群体”层面具体到单个细胞水平上,使得生命科学领域的研究更加精准化,然而通过计算方法从单细胞测序数据中挖掘基因调控关系,并检测决定细胞命运的关键调控因子,仍然是一个巨大的挑战。
[0004]大量研究发现,细胞命运选择是由一些关键的转录因子调控的,但是这些转录因子如何决定细胞的分化进程还并不完全清楚。很多计算研究通过重建转录因子驱动的基因调控网络来描述细胞命运的转变,这些最关键的转录因子通常被称为主要调控子(Master regulators,MRs),主要调控子被认为负责控制相关表型下的细胞的整个调控程序。目前常用的主要调控子识别方法包括VIPER,ANANS ...
【技术保护点】
【技术特征摘要】
1.一种构建基因调控网络的方法,其特征在于,所述方法包括以下步骤:S01:获取细胞内部基因相互作用网络作为背景基因网络;S02:获取单细胞转录组数据,对所述数据进行预处理,获取单细胞发育轨迹信息;S03:基于图注意力神经网络构建所述基因调控网络的编码器;S04:输入所述背景基因网络和所述单细胞发育轨迹信息,基于图对比学习框架对所述编码器进行训练;S05:获取基因相互关系,利用注意力系数为所述基因相互关系赋权;S06:设定基因相互关系权重阈值,选取高于所述阈值的基因相互关系,得到所述基因调控网络。2.根据权利要求1所述的方法,其特征在于,步骤S01中所述细胞内部基因相互作用网络来自NicheNet、OmniPath、InbioMap、PathwayCommons中的至少一个,其中所述NicheNet、OmniPath、InbioMap和PathwayCommons剔除掉细胞间的配体
‑
受体相互作用关系,将无向边处理为双向边。3.根据权利要求1所述的方法,其特征在于,步骤S02中所述预处理包括:基于所述单细胞转录组数据中每个细胞表达的基因数量对细胞进行过滤,根据每个基因参与表达的细胞数目对基因进行过滤,去除低质量细胞和基因后,对基因表达量进行归一化处理,获取单细胞发育轨迹信息;任选地,所述单细胞发育轨迹信息包括采用Slingshot、DPT、Palantir中的至少一种方法获取。4.根据权利要求1所述的方法,其特征在于,步骤S03中所述编码器包括:注意力机制函数、批量归一化、前馈神经网络和激活函数。5.根据权利要求4所述的方法,其特征在于,所述编码器的组成方式包括:每一层图注意力神经网络之前进行所述批量归一化,每一层图注意力神经网络之后连接所述前馈神经网络;任选地,所述组成方式堆叠两层。6.根据权利要求4所述的方法,其特征在于,所述注意力机制函数包括如下公式:6.根据权利要求4所述的方法,其特征在于,所述注意力机制函数包括如下公式:6.根据权利要求4所述的方法,其特征在于,所述注意力机制函数包括如下公式:其中,att函数为注意力函数,度量节点v
i
和节点v
j
间的相关性;l表示所述图注意力神经网络中的层;和分别为与源节点和目标节点相关的权重矩阵;和分别为节点v
i
和节点v
j
的基因特征表示,其中对于第一层为输入的基因表达谱数据;D
score
为基因差异表达得分;e
ij
通过softmax函数归一化得到注意力系数α
ij
;τ为温度参数,且τ<1;
最终节点v
i
的输出特征是得到的注意力系数α
ij
所对应的特征的线性组合,使用多头注意力机制同时捕捉多个表征子空间的基因特征表示得到是GELU激活函数;K是多头注意力的总头数;||表示连接操;任选地,所述批量归一化包括采用如下公式对节点v
i
的基因表达谱进行处理:其中,BN为Batch Normalization函数;任选地,所述前馈神经网络包括如下函数:其中,w1和w2为系数矩阵,b1和b2为偏置项;任选地,所述激活函数如下式所示:7.根据权利要求6所述的方法,其特征在于,所述步骤S03进一步包括:将背景基因网络划分为传入网络和传出网络,所述传入网络和传出网络上的计算同时进行,根据以下公式将节点v
i
的基因特征表示连接起来:其中,和分别表示传入网络和传出网络上的基因特征表示,concat表示拼接操作。8.根据权利要求6所述的方法,其特征在于,所述基因差异表达得分D
score
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。