【技术实现步骤摘要】
本专利技术涉及基因转录调控领域,尤其是涉及一种基于深度学习的基因组调控元件分析方法。
技术介绍
1、有机体生命的正常发育和功能取决于其所有基因在特定的精确空间和时间表达,这种精确的表达模式主要通过转录调控过程得以维持,基因表达失调通常会导致疾病。转录调控过程是由蛋白质以组合方式结合到dna上的调控元件来介导的,其中转录因子绑定位点的特定组合建立了特定的调控代码。基因组中所有功能元件包括基因和调控序列,它们的识别和注释是基因组学和计算生物学的一项基本挑战。随着测序技术的快速发展为研究者提供了大量生物基因组序列数据用于开发检测转录调控元件的方法。计算方法已经在识别和检测dna调控元件方面取得了重大进展,但是由于调控元件通常很短且多变,因此仍然很难使用计算算法识别和发现它们。三维染色质折叠技术研究的进步使基因组构象在转录调控中的作用凸显出来,在识别顺式调控模块和调控序列的高级结构方面也取得了进展,这对于理解后生动物基因组中的转录调控至关重要。识别和表征基因调控元件具有深远意义,不仅对理解控制特定基因表达模式的分子机制至关重要,而且是了解基因表
...【技术保护点】
1.一种基于深度学习的基因组调控元件分析方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于深度学习的基因组调控元件分析方法,其特征在于,所述共享混合神经网络基于CNN网络和RNN网络构建,包括输入层、编码层、通道匹配模块、特征提取模块和特征集成模块,其中,所述输入层以DNA序列数据及其形状特征为输入;所述编码层将DNA序列通过独热编码转化为DNA序列矩阵,并通过滑动窗口对DNA形状特征进行预处理;所述通道匹配模块对形状特征进行处理以匹配混合共享神经网络的通道数;所述特征提取模块基于编码层给出的DNA序列矩阵和经过通道匹配模块处理的DNA形状
...【技术特征摘要】
1.一种基于深度学习的基因组调控元件分析方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于深度学习的基因组调控元件分析方法,其特征在于,所述共享混合神经网络基于cnn网络和rnn网络构建,包括输入层、编码层、通道匹配模块、特征提取模块和特征集成模块,其中,所述输入层以dna序列数据及其形状特征为输入;所述编码层将dna序列通过独热编码转化为dna序列矩阵,并通过滑动窗口对dna形状特征进行预处理;所述通道匹配模块对形状特征进行处理以匹配混合共享神经网络的通道数;所述特征提取模块基于编码层给出的dna序列矩阵和经过通道匹配模块处理的dna形状信息进行特征提取;所述特征集成模块将特征提取模块提取的特征经过批归一化层处理后由两个全连接层合并得到预测的绑定特异性并输出。
3.根据权利要求1所述的一种基于深度学习的基因组调控元件分析方法,其特征在于,所述s3包括以下步骤:
4.根据权利要求3所述的一种基于深度学习的基因组调控元件分析方法,其特征在于,所述全卷积神经网络耦合全局平均池化模型是一种对称架构,由自上而下的编码过程和自下而上的解码过程组成,其中,
5.根据权利要求3所述的一种基于深度学习的基因组调控元件分析方法,其特征在于,所述全卷积神经网络耦合全局平均池化模型的损失函数为用于定位转录因子绑定位点和预测基序的困难负样本挖掘损失,其计算过程为:1)计算所有正负样本的损失;2)对负样本的损失进行由高到低排序,并选择其中最高的k个损失,其中k由指定比率确定;3)分别取所有正样本的损失和选定的负样本的损失的平均值,输出二者的总和得到困难负样本挖掘损失,该计算过程表示为:
6.根据权利要求3所述的一种基于深度学习的基因组调控元件分析方法,其特征在于,所述全卷积神经网络耦合全局平均池化模型的输出是核苷酸水平的预测,对其进行后处理以定位转录因子绑定位点并...
【专利技术属性】
技术研发人员:黄德双,王思果,李志鹏,张钦虎,
申请(专利权)人:宁波数字孪生东方理工研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。