【技术实现步骤摘要】
基因表达谱的推断
[0001]本公开内容涉及在生物学中应用的数据科学领域,更具体地,本公开内容涉及与推断基因表达谱相关的方法、数据结构和系统。
技术介绍
[0002]数据科学在生物学领域越来越重要。关于生物过程的数据越来越可用,并且可以用来越来越准确地推断生物过程。特别是,假设提供了所需的数据,数据科学可以应用于涉及基因表达修改的任何生物过程。
[0003]在该背景下,可以预见若干方法来重建转录调节网络。基因调节网络(GRN)是分子调节器集合,它们相互作用并且与细胞中的其它物质相互作用,以控制mRNA和蛋白质的基因表达水平,继而确定细胞的功能。
[0004]第一种方法被称为逻辑TRN,并且已经在下文中讨论过:Bin Yan,Daogang Guan,Chao Wang,Junwen Wang,Bing He,Jing Qin,Kenneth RBoheler,Aiping Lu,Ge Zhang和Hailong Zhu,An integrative method to decode regulatory lo ...
【技术保护点】
【技术特征摘要】
1.一种用于训练神经网络以推断基因表达谱的计算机实现的方法,所述方法包括:
‑
获得(S10)参考基因组的序列的基因集合中的基因之间的潜在调节矩阵,所述潜在调节矩阵描述调节基因和被调节基因之间的连接,调节基因对调节至少一个被调节基因的至少一个转录因子进行编码,连接表示在涉及所述参考基因组的序列的所述基因集合中的所述基因的观察的生物过程的至少一个时间序列中由所述调节基因对所述被调节基因的至少一个观察的调节;
‑
获得(S20)具有节点的输入层和节点的输出层的神经网络,所述输入层和所述输出层具有用于表示所述参考基因组的序列的所述基因集合中的每个基因的等效节点,所述输入层的每个节点表示调节基因,并且所述输出层的每个节点表示被调节基因;
‑
将从所述输入层的节点到所述输出层的节点的连接添加(S30)到所述神经网络,所添加的连接是从所获得的潜在规则矩阵中提取的;
‑
通过使用所述观察的生物过程的基因表达谱集合来训练(S40)所述神经网络,所训练的神经网络的每个连接被加权;以及
‑
移除(S50)所训练的神经网络的具有不重要权重值的连接。2.根据权利要求1所述的计算机实现的方法,其中,所述移除所训练的神经网络的具有不重要权重的所述连接包括:针对所训练的神经网络中的每个连接,执行以下操作:
‑
获得表示在实验误差范围内所述被调节基因的表达的修改的不重要性门限的值;
‑
如果所述权重值小于所述不重要性门限,则移除与所述被调节基因的连接。3.根据权利要求1到2中任一项所述的计算机实现的方法,其中,所获得的参考基因组的序列的基因集合中的基因之间的潜在调节矩阵已经通过以下方式计算:
‑
针对所述参考基因组的所述序列中的所述基因集合中的每个基因,识别一个或多个转录因子结合位点以及结合在所述一个或多个转录因子结合位点上的相应转录因子;
‑
针对每个识别的结合转录因子,进行以下操作:
‑
识别一个或多个潜在被调节基因;
‑
识别对所述结合转录因子进行编码的潜在调节基因;以及
‑
连接所述调节基因和所述一个或多个被调节基因。4.根据权利要求3所述的计算机实现的方法,其中,所述识别一个或多个潜在被调节基因包括:
‑
根据所述参考基因组的所述序列的所述基因集合中的所述基因的基因位置图来确定一个或多个基因是否在所识...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。