System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种推断基因调控网络的方法技术_技高网
当前位置: 首页 > 专利查询>安徽大学专利>正文

一种推断基因调控网络的方法技术

技术编号:40966377 阅读:8 留言:0更新日期:2024-04-18 20:46
本发明专利技术公开了一种推断基因调控网络的方法,包括以下步骤:S1,构建输入数据集,包括获取数据并对数据进行预处理,最终生成训练模型输入所需的4D张量;S2,构建注意力时间卷积网络,包括空洞因果卷积、注意力残差结构、激活函数、规范化、正则化、dropout;将4D输入张量输入注意力时间卷积网络中;S3,构建基因调控网络和实现基因功能分配。本发明专利技术可同时用于构建基因调控网络和实现基因功能分配,提高了模型在推断基因对之间调控关系时的性能,此外,注意力时间卷积网络可以同时学习时程scRNA‑seq数据的时间特征信息和空间特征信息,避免侧重于其中一类信息从而导致数据信息的丢失。

【技术实现步骤摘要】

本专利技术涉及单细胞基因调控网络构建领域,特别涉及一种推断基因调控网络的方法


技术介绍

1、基因调控网络由影响生物体生物过程的调节因子之间的相互作用组成,基因调控网络定义并维持着细胞类型特异性转录状态,而转录状态又是细胞形态和功能的基础。基因调控网络通过转录因子与靶基因的结合来控制细胞内基因表达水平和活性,从而在各种生物过程中起作用。但生物过程随时间的推移而保持高度动态性,以响应环境和刺激的变化。因此,转录因子和靶基因的结合也具有时空动态性。研究人员通过对不同时间点的基因表达水平进行分析,并根据时间序列基因表达数据进行建模来重建基因调控网络,可以推断出基因间的因果相互作用。此外,基因调控网络能够从基因组水平解释细胞是如何运作的,并揭示各种生命现象背后的基本规律,这对药物开发或流行病学研究等生物学领域有着重要作用。

2、目前常用的基因表达谱主要来自两种主流技术bulk rna测序(bulk rna-seq)和单细胞rna测序(scrna-seq)。bulk rna-seq得到的bulk基因表达数据是同一样本中所有细胞的转录组的平均数据,较容易获取,但是在这些样本中单个细胞的特异性信息往往会被掩盖。由于bulk rna-seq数据的特性,通过对bulk基因表达谱中的时间依赖性变化进行建模,可以为重建基因调控网络和了解动态生物过程提供有价值的信息。目前已经提出了多种计算方法从时程bulk基因表达数据中重建基因调控网络。这些使用时程bulk基因表达数据重建基因调控网络的方法可从基因表达关系推断基因间的因果关系,但bulk基因表达数据仅代表的是平均表达水平,同时还不恰当地假设在细胞之间的基因表达是同质的,从而忽略了细胞异质性。

3、随着研究人员对生物结构功能的深入研究,越发清晰的认识到每个单细胞之间的转录组数据存在着很大差异。scrna-seq作为一种流行技术,可捕获单个细胞的基因表达谱,它允许通过考虑细胞异质性来重建细胞类型特异性基因调控网络。scrna-seq基因表达数据可分为时程scrna-seq基因表达数据和静态scrna-seq基因表达数据,前者比后者提供的基因间相互作用的信息更多。现有的大多数方法都是使用静态scrna-seq基因表达数据来重建基因调控网络,这些方法并不能直接用于时程scrna-seq基因表达数据。使用静态scrna-seq基因表达数据的主要挑战是无法跟踪在特定时间点分析的细胞,不清楚下一个时间点的哪个细胞与前一个时间点的特定细胞密切相关,从而难以确定基因的确切轨迹。为解决上述问题,一些方法利用伪时间重建scrna-seq数据的基因调控网络,但这类方法并不能直接用于时程scrna-seq基因表达数据。因此,静态scrna-seq基因表达数据多用于交互关系任务,难以推断基因间的因果关系。

4、使用时程scrna-seq基因表达数据开发的模型可以有效解决数据带来的问题,同时展现较优的性能,但这些方法仍存在一定的局限性。首先,由于scrna-seq基因表达数据中的单细胞基因数量众多,因此模型受噪声的影响较大。其次,这些方法在预测基因对因果关系时,只侧重于提取数据的时间特征信息或空间特征信息,从而导致数据信息的丢失。


技术实现思路

1、为了解决现有问题,本专利技术提供了一种推断基因调控网络的方法,具体方案如下:

2、一种推断基因调控网络的方法,包括以下步骤:

3、s1,构建输入数据集,包括获取数据并对数据进行预处理,最终生成训练模型输入所需的4d张量;

4、s2,构建注意力时间卷积网络,包括空洞因果卷积、注意力残差结构、激活函数、规范化、正则化、dropout;将4d输入张量输入注意力时间卷积网络中;

5、s3,构建基因调控网络和实现基因功能分配。

6、优选地,步骤s1具体包括以下步骤:

7、s11,分别获取真实时程scrna-seq数据集和模拟时程scrna-seq数据集;为定义阳性和阴性转录因子-基因对,使用数据集的chip-seq数据作为基准来推断它们的潜在靶点,并将靶基因启动子区域有一个或者多个显著峰值的基因对作为阳性转录因子-基因对,其余作为阴性转录因子-基因对。此外,在构建输入数据集时,选取的正负基因对数量是平衡的;

8、s12,对包含t个时间点的基因表达矩阵进行专门的标准化;其中,基因表达矩阵的行表示基因,列表示细胞;

9、s13,为每个时间点的的基因对(a,b)生成4d输入张量;

10、优选地,步骤s13的具体步骤包括:

11、s131,计算一个新基因“avg”,以表示每个细胞内所有基因的平均表达;

12、s132,将基因“avg”和基因对(a,b)重构成基因组(a,b,avg);

13、s133,将基因组(a,b,avg)在所有细胞样本中的表达值8等分,从而为基因组(a,b,avg)构建一个8×8×8的3d矩阵,其中的每个条目(i,j,k)表示(a,b,avg)在第i个、第j个、第k个表达水平共同出现的概率;

14、s134,对每个时间点的基因表达矩阵都进行上述操作,最终生成训练模型输入所需的4d张量,输入张量的最终维度为t×8×8×8。

15、优选地,步骤s2具体包括以下步骤:

16、s21,所述注意力时间卷积网络由n个注意力残差模块组成,其中每个注意力残差块包含两个残差模块和一个注意力模块;所述残差块依次由空洞因果卷积、权重归一化、relu激活函数、dropout组成;

17、所述注意力模块依次由全局平均池化、全连接层、relu激活函数、全连接层、sigmoid函数组成;

18、所述注意力模块工作流程如下:首先对特征向量进行全局平均池化,使空间特征降维到1×1×1;之后使用非线性激活函数和两个全连接层构建通道间的连接;然后经过sigmoid激活函数获得归一化权重,最后通过乘法逐通道加权到原始特征向量的每一个通道上,完成对不同特征通道的权重分配;其中,使用函数如下:

19、

20、

21、

22、其中,d,h,w表示特征向量的维度,t1,t2是表示全连接层的映射过程,relu表示非线性激活函数,σ表示计算各通道权重值,x表示原始特征向量对应通道的矩阵。

23、s22,对包含t个时间点的输入x={x1,x2,…,xt-1,xt},通过xt及其之前时刻的数据来计算t时刻的输出yt;其中,计算输出yt时,需将xt及其之前时刻的数据共同输入注意力时间卷积网络中;注意力残差模块中的空洞因果卷积可以在卷积时对输入数据进行间隔采样,增加卷积时的感受野;所述感受野的大小与空洞因子相关,空洞因子越大,其感受野越大;对于第i层卷积层,其空洞因子大小为d=2i;

24、s23,包含t个时间点的输入x={x1,x2,…,xt-1,xt},经过两个残差块对特征进行提取之后,将其输入注意力模块,对不同特征通本文档来自技高网...

【技术保护点】

1.一种推断基因调控网络的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,步骤S1具体包括以下步骤:

3.根据权利要求2所述的方法,其特征在于,步骤S13的具体步骤包括:

4.根据权利要求1所述的方法,其特征在于,步骤S2具体包括以下步骤:

5.根据权利要求1所述的方法,其特征在于:所述步骤S3中,根据模型所判断的基因对(a,b)之间的因果调控关系构建基因调控网络,基因对通过有向边相连的即表示它们之间具有因果调控关系,基因对之间没有边相连的即表示它们之间没有调控关系。

6.根据权利要求1所述的方法,其特征在于,步骤S3中实现基因功能分配的过程如下:将该类功能基因集数据输入注意力时间卷积网络中,可以推断该类基因集中具有调控关系的基因对,具有调控关系的基因对表示具有相同的基因功能,且可分配成同类基因的功能块。

7.一种计算机可读存储介质,其特征在于:介质上存有计算机程序,计算机程序运行后,执行如权利要求1至6中任一项所述的方法。

8.一种计算机系统,其特征在于:包括处理器、存储介质,存储介质上存有计算机程序,处理器从存储介质上读取并运行计算机程序以执行如权利要求1至6中任一项所述的方法。

...

【技术特征摘要】

1.一种推断基因调控网络的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的方法,其特征在于,步骤s1具体包括以下步骤:

3.根据权利要求2所述的方法,其特征在于,步骤s13的具体步骤包括:

4.根据权利要求1所述的方法,其特征在于,步骤s2具体包括以下步骤:

5.根据权利要求1所述的方法,其特征在于:所述步骤s3中,根据模型所判断的基因对(a,b)之间的因果调控关系构建基因调控网络,基因对通过有向边相连的即表示它们之间具有因果调控关系,基因对之间没有边相连的即表示它们之间没有调控关系。

...

【专利技术属性】
技术研发人员:谭大禹程昭龙苏延森郑春厚
申请(专利权)人:安徽大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1