The present invention provides a method for eliminating DNA base tendency deviation in DNase high throughput sequencing data based on deep recurrent neural network. Step 1: DNA base acquisition in the region of DNase Seq data enzyme cutting site, step two: DNase DNA base tendency acquisition of Seq data DNA base, step three: DNA base based on deep recurrent neural network The combination tendency model was constructed, step four: DNA base bias bias was eliminated. The DNA base bias bias in DNase high throughput sequencing data can be accurately filtered through the method invented to generate more accurate DNase Seq sequencing results, thus providing data support for subsequent higher level application analysis.
【技术实现步骤摘要】
一种基于深度递归神经网络的DNase高通量测序数据中DNA碱基倾向性偏差消除方法
本专利技术涉及一种基于深度递归神经网络的DNase高通量测序数据中DNA碱基倾向性偏差消除方法,属于分子生物信息检测与分析领域。
技术介绍
目前,DNA蛋白结合位点的检测主要采用染色质免疫共沉淀技术(ChromatinImmunoprecipitation,ChIP)。而将ChIP实验结果与高通量测序技术相结合的ChIP-Seq技术,则能有效地在全基因组范围内检测目的功能蛋白在DNA上的结合位点。ChIP-Seq的原理是:首先通过染色质免疫共沉淀技术(ChIP)利用与目的蛋白特异性结合的酶来富集结合有目的蛋白的DNA片段,并对其进行纯化与文库构建。然后对富集得到的DNA片段进行高通量测序,再将测序获得的数百万条读数序列精确定位到基因组上,从而获得全基因组范围内结合有目的蛋白的DNA区段信息,进而通过各种分析算法得到目的蛋白DNA结合位点。然而,ChIP-Seq技术也有诸多不足之处,首先是富集目的蛋白的结合酶具有特异性,从而导致某些蛋白因找不到合适的特异结合酶而无法进行检测;其次,一次实验只能检测一种蛋白,耗时耗力,成本高,无法大规模使用;第三,更为重要的是,由于实验获取的与目的蛋白结合的DNA片段较长,测序时只能对其两端进行部分测序,由于测序区域并不是结合位点本身,因此,ChIP-Seq技术对DNA蛋白结合位点的检测分辨率无法达到单碱基。针对上述问题,近几年产生了一种新的DNA蛋白结合位点检测技术--基于DNase高通测序信息的DNA蛋白结合位点检测技术,即DNase-Seq ...
【技术保护点】
1.一种基于深度递归神经网络的DNase高通量测序数据中DNA碱基倾向性偏差消除方法,其特征在于:步骤如下:步骤一:DNase‑Seq数据酶切位点区域DNA碱基获取:依据DNase‑Seq数据在基因组中的位置,提取每一个数据对应酶切位点附近区域的DNA碱基;步骤二:DNase‑Seq数据DNA碱基倾向性获取:首先,计算第i种碱基组合ci被剪切nj次的概率:
【技术特征摘要】
1.一种基于深度递归神经网络的DNase高通量测序数据中DNA碱基倾向性偏差消除方法,其特征在于:步骤如下:步骤一:DNase-Seq数据酶切位点区域DNA碱基获取:依据DNase-Seq数据在基因组中的位置,提取每一个数据对应酶切位点附近区域的DNA碱基;步骤二:DNase-Seq数据DNA碱基倾向性获取:首先,计算第i种碱基组合ci被剪切nj次的概率:其中,P(ci|nj)和P(nj)概率是从DNase-Seq实验数据中统计求得的;然后,计算第i种碱基组合ci的酶切倾向性Qi:步骤三:基于深度递归神经网络的DNA碱基组合倾向性模型构建:按照DNA碱基倾向性值由大到小进行排序,选取碱基组合作为正负样本数据进行深度递归神经网络模型训练,获取描述DNase-Seq中DNA碱基组合倾向性的深度递归神经网络预测模型;步骤四:DNA碱基倾向性偏差消除:利用训练得到的深度递归神经网络模型,针对DNase-Seq实验中每一个检测数据预测其碱基倾向性,并予以消除。已知第i个检测数据第j个位点上酶切值DNaseij的碱基组合倾向性为Qij,则碱基倾向性偏差消除后的检测值DNaseij_C为:其中,a、b是经优化求取的参数。2.根据权利要求1所述的一种基于深度递归神经网络的DNase高通量测序数据中D...
【专利技术属性】
技术研发人员:冯伟兴,贺波,丛瑞达,徐斯文,王影,王雪莹,
申请(专利权)人:哈尔滨工程大学,
类型:发明
国别省市:黑龙江,23
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。