基于深度卷积自动编码器的转录因子结合位点预测的方法技术

技术编号:24583034 阅读:41 留言:0更新日期:2020-06-21 01:23
本发明专利技术公开一种基于深度卷积自动编码器的转录因子结合位点预测的方法,应用于计算机技术和生物信息技术领域,为了解决模型对没有结合位点的阴性序列样本的依赖性同时提高模型泛化能力;本发明专利技术首先通过染色质免疫共沉淀技术特异性地富集目的蛋白结合的DNA片段,从而获得原始数据集;然后对原始数据集进行预处理,得到训练数据集;其次将训练数据集输入卷积自动编码器进行训练;最后根据训练完成的卷积自动编码器进行结合位点识别;实验证明本发明专利技术能够针对不同细胞系的不同转录因子结合位点预测,且具备高准确率识别的效果。

Prediction of transcription factor binding sites based on deep convolution coder

【技术实现步骤摘要】
基于深度卷积自动编码器的转录因子结合位点预测的方法
本专利技术属于计算机技术和生物信息
,特别涉及一种转录因子结合位点预测技术。
技术介绍
在研究转录因子结合位点早期,传统的转录因子结合位点识别问题是通过实验从DNA序列中获取真实的转录因子结合位点。之后伴随着生物信息学的发展,各种利用数学模型的方法被开发出来,利用数学模型使得研究者不局限于仅有的转录因子结合位点信息。转录因子结合位点(transcriptionfactorbindingsite,TFBS)的研究己有很长时间,最早被广泛应用于研究共表达基因(co-expressedgenes)的上游promoter区的转录调控因子。由于转录因子结合位点序列相对较短,同一转录因子会结合相同或相似的DNA序列,这使得精确的转录因子结合位点的识别变得更具挑战性。对识别转录因子结合位点的算法,总的来说或者基于概率模型,搜索为基础。具体来说,对于识别转录因子结合位点的问题可概括为以下几类。基于一致序列的转录因子结合位点的识别方法是一种模式驱动的方法。在输入序列空间进行搜索。一致序列为转录因子结合位点的一种表示方式,假设寻找长度为l的结合位点,每个位置上有四种碱基,一共有4l种不同的形式出现,然后在输入序列中寻找所有与其相似的实例,最后通过实例的数量计算显著性。这类方法适合搜索长度较短,且高保守性的结合位点。除了基于一致序列的算法,还有基于位置权重矩阵(PositionWeightMatrix)的算法。基于位置权重矩阵的算法是一种启发式捜索算法。基于位置权重矩阵设计概率模型时,由于转录因子结合位点可能出现在输入序列的任何位置,则在输入序列中选取每个输入序列中的相似子序列,将它们对齐,生成相应的概率矩阵,通过概率矩阵计算子序列相对于背景序列的显著性。这样转录因子结合位点识别问题就转化成为了一个组合优化的问题。早期的转录因子结合位点识别方法,主要集中在基因启动子区域,一般获取的后动子序列数量为几百条,多采用搜索算法来解决问题。由于ChIP-seq技术产生的数据规模比较庞大,很多传统的算法无法处理。ChIP-seq技术广泛应用之后,一些改进的算法被设计出来,以便在尽量少的降低计算精度的情况下,大幅提高计算速度。针对ChIP-seq数据的算法,比如著名的传统转录因子结合位点识别算法MEME设计了针对ChIP-seq数据版本的meme-chip算法,GibbsSampler的ChIP版本,STEME是另一个基于MEME加速的方法。通过输入数据集的其中一个子集寻找最优转录因子结合位点,减少了输入数据过大而造成的时间开销。或者通过构建后缀树索引来捜索序列,加速EM算法的速度,解决ChIP-seq转录因子结合位点识别问题。如今,越来越多的结合位点已通过生物湿法实验验证。相反,有许多结合位点尚未被分析和发现。(1)在条件不足的情况下,大多数深度模型严重依赖于负样本。在以前的研究中,产生阴性样品的方法可能没有受到太多关注。它可能包含一些嘈杂的数据并影响TFBS中预测模型的性能。(2)由于不同转录因子的数据样本不均匀,同一模型对不同转录因子的预测水平有限。例如,具有大量数据样本的转录因子通常具有显着的预测效果,而具有较长样本序列的样本将降低模型的预测性能。模型泛化能力不足等一些问题。
技术实现思路
为解决上述技术问题,本专利技术提出一种基于深度卷积自动编码器的转录因子结合位点预测的方法,这些基序的发现有助于理解基因的表达。本专利技术采用的技术方案为:基于深度卷积自动编码器的转录因子结合位点预测的方法,包括:基于深度卷积自动编码器的转录因子结合位点预测的方法,包括:S1、通过染色质免疫共沉淀技术特异性地富集目的蛋白结合的DNA片段,从而获得原始数据集;S2、对原始数据集进行预处理,得到训练数据集;S3、将训练数据集输入卷积自动编码器进行训练;S4、根据训练完成的卷积自动编码器进行结合位点识别。步骤S2所述预处理具体为:A1、对原始数据集进行筛选;使用四种不同的呼叫峰值工具通过统一的管道对原始数据集进行了重新处理,从每个数据集的4个峰值集合中,迭代地排除具有低S的那个,直到数据集中的大和小S之间的比率小于或等于2,该数据集如果仅剩下一个峰值集,则删除整个数据集;S表示轻尾的经验权重;A2、去除经步骤A1处理后样本数不超过5000个的数据集;A3、通过设置序列长度,从经步骤A2处理后的数据集中选取,获得定长的DNA序列的有效数据。步骤A3具体包括以下分步骤:A31、对经步骤A2筛选出的DNA序列制作标签,并且将数据集分为两份,并对其中一份通过打乱序列生成对立样本;另一份映射到D维空间;A32、利用单热编码将经步骤A31处理后DNA序列进行编码;给定长度为DNA的DNA序列s=(s_1,s_2,…,s_l)和固定的motif扫描仪长度m;A33、通过等式得到编码的矩阵S,矩阵S的列对应于A,C,G或T的单热矢量,矩阵S的列其由[1,0,0,0]T,[0,1,0,0]T,[0,0,1,0]T和[0,0,0,1]T表示。步骤S3具体为:S31、将经步骤S2处理后的训练集输入无监督卷积自动编码器进行训练;S32、将训练后的无监督卷积自动编码器的过滤器和池化窗口的参数导入有监督卷积自动编码器;S33、将经步骤S2处理后的训练集输入有监督卷积自动编码器进行训练。步骤S5所述有监督卷积自编码器在卷积层的最大合并输出之后,使用完全连接的高速公路网络替换原有的MLP层。本专利技术的有益效果:本专利技术首先通过染色质免疫共沉淀技术(ChIP)特异性地富集目的蛋白结合的DNA片段,并对其进行纯化与文库构建,然后对富集得到的DNA片段进行高通量测序。对采集到的高通量测序数据进行预处理,从而获得全基因组范围内与组蛋白、转录因子等互作的DNA区段信息;然后针对不同长度的DNA序列进行自适应的提取,探测完整等长峰值明显的序列;其次使用卷积自编码器自动提取与转录因子相互作用的DNA区段信息的特征值,对转录因子结合位点预测模型进行训练;最后利用所述转录因子结合位点预测模型进行结合位点识别;本专利技术的方法能够针对不同细胞系的不同转录因子结合位点预测,对人类和小鼠的转录因子结合位点进行高准确率识别。附图说明图1为本专利技术方法流程图;图2为使用本专利技术方法的完整算法结构图;图3为本专利技术的初步数据预处理训练特征提取图;图4为本专利技术的特征加强模型训练图。具体实施方式为便于本领域技术人员理解本专利技术的
技术实现思路
,下面结合附图对本
技术实现思路
进一步阐释。在本专利技术中,考虑到DNA序列的空间和顺序特征,我们设计了一个混合深度神经网络,该网络在此阶段将卷积自编码器和高速全连接MLP集成在一起。卷积神经网络(CNN)是人工神经网络(ANN)的特殊版本,它采用权重共享策略来捕获数据(例如DNA序列)中的局部模式。包含对经过预处理过后的D本文档来自技高网
...

【技术保护点】
1.基于深度卷积自动编码器的转录因子结合位点预测的方法,其特征在于,包括:/nS1、通过染色质免疫共沉淀技术特异性地富集目的蛋白结合的DNA片段,从而获得原始数据集;/nS2、对原始数据集进行预处理,得到训练数据集;/nS3、将训练数据集输入卷积自动编码器进行训练;/nS4、根据训练完成的卷积自动编码器进行结合位点识别。/n

【技术特征摘要】
1.基于深度卷积自动编码器的转录因子结合位点预测的方法,其特征在于,包括:
S1、通过染色质免疫共沉淀技术特异性地富集目的蛋白结合的DNA片段,从而获得原始数据集;
S2、对原始数据集进行预处理,得到训练数据集;
S3、将训练数据集输入卷积自动编码器进行训练;
S4、根据训练完成的卷积自动编码器进行结合位点识别。


2.根据权利要求1所述的基于深度卷积自动编码器的转录因子结合位点预测的方法,其特征在于,步骤S2所述预处理具体为:
A1、对原始数据集进行筛选;使用四种不同的呼叫峰值工具通过统一的管道对原始数据集进行了重新处理,从每个数据集的4个峰值集合中,迭代地排除具有低S的那个,直到数据集中的大和小S之间的比率小于或等于2,该数据集如果仅剩下一个峰值集,则删除整个数据集;S表示轻尾的经验权重;
A2、去除经步骤A1处理后样本数不超过5000个的数据集;
A3、通过设置序列长度,从经步骤A2处理后的数据集中选取,获得定长的DNA序列的有效数据。


3.根据权利要求2所述的基于深度卷积自动编码器的转录因子结合位点预测的方法,其特征在于,步骤A3具体包括以下分步骤:
A3...

【专利技术属性】
技术研发人员:张永清乔少杰郜东瑞曾圆麒陈庆园卢荣钊林志宇
申请(专利权)人:成都信息工程大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1