一种基于深度递归神经网络的DNase高通量测序数据中DNA碱基倾向性偏差消除方法技术

技术编号:18445368 阅读:121 留言:0更新日期:2018-07-14 10:33
本发明专利技术提供一种基于深度递归神经网络的DNase高通量测序数据中DNA碱基倾向性偏差消除方法,步骤一:DNase‑Seq数据酶切位点区域DNA碱基获取,步骤二:DNase‑Seq数据DNA碱基倾向性获取,步骤三:基于深度递归神经网络的DNA碱基组合倾向性模型构建,步骤四:DNA碱基倾向性偏差消除。通过所发明专利技术的方法可以精确地滤除DNase高通量测序数据中含有的DNA碱基倾向性偏差,以生成更加准确的DNase‑Seq测序结果,从而为后续更高层次的应用分析提供数据保障。

A deep recurrent neural network based approach to eliminate DNA base bias in DNase high throughput sequencing data

The present invention provides a method for eliminating DNA base tendency deviation in DNase high throughput sequencing data based on deep recurrent neural network. Step 1: DNA base acquisition in the region of DNase Seq data enzyme cutting site, step two: DNase DNA base tendency acquisition of Seq data DNA base, step three: DNA base based on deep recurrent neural network The combination tendency model was constructed, step four: DNA base bias bias was eliminated. The DNA base bias bias in DNase high throughput sequencing data can be accurately filtered through the method invented to generate more accurate DNase Seq sequencing results, thus providing data support for subsequent higher level application analysis.

【技术实现步骤摘要】
一种基于深度递归神经网络的DNase高通量测序数据中DNA碱基倾向性偏差消除方法
本专利技术涉及一种基于深度递归神经网络的DNase高通量测序数据中DNA碱基倾向性偏差消除方法,属于分子生物信息检测与分析领域。
技术介绍
目前,DNA蛋白结合位点的检测主要采用染色质免疫共沉淀技术(ChromatinImmunoprecipitation,ChIP)。而将ChIP实验结果与高通量测序技术相结合的ChIP-Seq技术,则能有效地在全基因组范围内检测目的功能蛋白在DNA上的结合位点。ChIP-Seq的原理是:首先通过染色质免疫共沉淀技术(ChIP)利用与目的蛋白特异性结合的酶来富集结合有目的蛋白的DNA片段,并对其进行纯化与文库构建。然后对富集得到的DNA片段进行高通量测序,再将测序获得的数百万条读数序列精确定位到基因组上,从而获得全基因组范围内结合有目的蛋白的DNA区段信息,进而通过各种分析算法得到目的蛋白DNA结合位点。然而,ChIP-Seq技术也有诸多不足之处,首先是富集目的蛋白的结合酶具有特异性,从而导致某些蛋白因找不到合适的特异结合酶而无法进行检测;其次,一次实验只能检测一种蛋白,耗时耗力,成本高,无法大规模使用;第三,更为重要的是,由于实验获取的与目的蛋白结合的DNA片段较长,测序时只能对其两端进行部分测序,由于测序区域并不是结合位点本身,因此,ChIP-Seq技术对DNA蛋白结合位点的检测分辨率无法达到单碱基。针对上述问题,近几年产生了一种新的DNA蛋白结合位点检测技术--基于DNase高通测序信息的DNA蛋白结合位点检测技术,即DNase-Seq技术。DNase-Seq的原理是:首先利用DNase核酸剪切酶对DNA进行酶切处理。则没有DNA蛋白结合的DNA区域将被DNase核酸剪切酶随机地切断,而有DNA蛋白结合的DNA区域由于受到结合蛋白的阻碍特异性不被切断。随后,对酶切处理过的DNA片段进行纯化与文库构建,再进行测序,从而获得全基因组范围内DNase核酸剪切酶的酶切信息。在酶切信息中,蛋白结合位点处的酶切信息将特异性减弱,就像在DNA上留下一个个足迹一样,从而可以精确鉴定DNA结合蛋白在DNA分子上的结合位点。与ChIP-Seq技术相比,DNase-Seq技术的优点非常突出。首先,由于不具有特异性,DNase-Seq可一次性在全基因组范围内同时检测多种DNA蛋白的结合位点;其次,由于一次性检测多种DNA蛋白的结合位点,DNase-Seq大幅提高了检测效率并降低了检测成本,使大规模进行DNA蛋白结合位点检测成为可能;第三,更为重要的是,由于测序起始位置就是酶切位置,DNase-Seq对DNA蛋白结合位点的检测分辨率可达单碱基。然而,近期发现DNase核酸剪切酶在切割DNA时存在DNA碱基倾向性,这将对DNA蛋白结合位点的识别产生非常不利的影响。如何去除该倾向性已成为基于DNase-Seq的DNA蛋白结合位点识别的一个关键问题。相对于简单模型,深度神经网络具有更强的从复杂信息中自主提取本质规律的能力,本专利技术拟采用深度神经网络提取DNase-Seq数据中所隐含的DNA碱基倾向性偏差。由于描述对象是DNA碱基序列组合,这里采用了深度递归神经网络。
技术实现思路
本专利技术的目的是为了提供一种基于深度递归神经网络的DNase高通量测序数据中DNA碱基倾向性偏差消除方法,从而有效提高DNase高通量测序数据的检测信息准确性。本专利技术的目的是这样实现的:步骤如下:步骤一:DNase-Seq数据酶切位点区域DNA碱基获取:依据DNase-Seq数据在基因组中的位置,提取每一个数据对应酶切位点附近区域的DNA碱基;步骤二:DNase-Seq数据DNA碱基倾向性获取:首先,计算第i种碱基组合ci被剪切nj次的概率:其中,P(ci|nj)和P(nj)概率是从DNase-Seq实验数据中统计求得的;然后,计算第i种碱基组合ci的酶切倾向性Qi:步骤三:基于深度递归神经网络的DNA碱基组合倾向性模型构建:按照DNA碱基倾向性值由大到小进行排序,选取碱基组合作为正负样本数据进行深度递归神经网络模型训练,获取描述DNase-Seq中DNA碱基组合倾向性的深度递归神经网络预测模型;步骤四:DNA碱基倾向性偏差消除:利用训练得到的深度递归神经网络模型,针对DNase-Seq实验中每一个检测数据预测其碱基倾向性,并予以消除。已知第i个检测数据第j个位点上酶切值DNaseij的碱基组合倾向性为Qij,则碱基倾向性偏差消除后的检测值DNaseij_C为:其中,a、b是经优化求取的参数。本专利技术还包括这样一些结构特征:1.步骤一具体选用酶切位点附近10个位点的碱基,即以酶切位点为中心,取位点前面的4个碱基和后面的6个碱基。2.步骤二中的每个碱基有A、C、G、T四种取值,则10个位点碱基共有1048576种碱基组合。3.步骤三中选取碱基组合作为正负样本数据进行深度递归神经网络模型训练是指:分别选取最前面和最后面各20000个碱基组合作为正负样本数据进行深度递归神经网络模型训练。4.步骤四中a,b的优化求取过程如下:取同一蛋白的已知结合位点各碱基位点的DNase酶剪切值,由于是同一蛋白的结合位点,不同结合位点的碱基位点DNase酶剪切值构成的向量应该具有整体相关性;但由于不同蛋白结合位点的DNA碱基序列不尽相同,从而由于DNase酶碱基组合剪切倾向性的存在,使得其整体相关性下降,则根据整体相关性最大的原则,实现参数a,b优化求取。与现有技术相比,本专利技术的有益效果是:通过所专利技术的方法可以精确地滤除DNase高通量测序数据中含有的DNA碱基倾向性偏差,以生成更加准确的DNase-Seq测序结果,从而为后续更高层次的应用分析提供数据保障。附图说明图1DNase-Seq碱基倾向性偏差消除公式的参数b优化过程图(a=12);图2DNase-Seq碱基倾向性偏差消除公式的参数a优化过程图(b=0.2);图3是本专利技术的流程图。具体实施方式下面结合附图与具体实施方式对本专利技术作进一步详细描述。作为DNA蛋白结合位点检测的新技术,DNase-Seq技术具有众多突出的优点。由于不具有特异性,DNase-Seq可一次性在全基因组范围内同时检测多种DNA蛋白的结合位点;由于一次性检测多种DNA蛋白的结合位点,DNase-Seq大幅提高了检测效率并降低了检测成本,使大规模进行DNA蛋白结合位点检测成为可能;由于测序起始位置就是酶切位置,DNase-Seq对DNA蛋白结合位点的检测分辨率可达单碱基。然而,近期发现DNase核酸剪切酶在切割DNA时存在DNA碱基倾向性,这将对DNA蛋白结合位点的识别产生非常不利的影响。本专利技术即是针对该问题提出的一种基于深度递归神经网络的DNase高通量测序数据中DNA碱基倾向性偏差消除方法。结合图1至图3,本专利技术的步骤如下:(1)DNase-Seq数据酶切位点区域DNA碱基获取依据DNase-Seq数据在基因组中的位置,提取每一个数据对应酶切位点附近区域的DNA碱基。为了保证DNA碱基倾向性偏差滤除效果,本专利技术选用酶切位点附近10个位点的碱基,即以酶切位点为中心,取位点前面的4个碱基和后面的6个碱基。(2)DNase-Seq数据DN本文档来自技高网
...

【技术保护点】
1.一种基于深度递归神经网络的DNase高通量测序数据中DNA碱基倾向性偏差消除方法,其特征在于:步骤如下:步骤一:DNase‑Seq数据酶切位点区域DNA碱基获取:依据DNase‑Seq数据在基因组中的位置,提取每一个数据对应酶切位点附近区域的DNA碱基;步骤二:DNase‑Seq数据DNA碱基倾向性获取:首先,计算第i种碱基组合ci被剪切nj次的概率:

【技术特征摘要】
1.一种基于深度递归神经网络的DNase高通量测序数据中DNA碱基倾向性偏差消除方法,其特征在于:步骤如下:步骤一:DNase-Seq数据酶切位点区域DNA碱基获取:依据DNase-Seq数据在基因组中的位置,提取每一个数据对应酶切位点附近区域的DNA碱基;步骤二:DNase-Seq数据DNA碱基倾向性获取:首先,计算第i种碱基组合ci被剪切nj次的概率:其中,P(ci|nj)和P(nj)概率是从DNase-Seq实验数据中统计求得的;然后,计算第i种碱基组合ci的酶切倾向性Qi:步骤三:基于深度递归神经网络的DNA碱基组合倾向性模型构建:按照DNA碱基倾向性值由大到小进行排序,选取碱基组合作为正负样本数据进行深度递归神经网络模型训练,获取描述DNase-Seq中DNA碱基组合倾向性的深度递归神经网络预测模型;步骤四:DNA碱基倾向性偏差消除:利用训练得到的深度递归神经网络模型,针对DNase-Seq实验中每一个检测数据预测其碱基倾向性,并予以消除。已知第i个检测数据第j个位点上酶切值DNaseij的碱基组合倾向性为Qij,则碱基倾向性偏差消除后的检测值DNaseij_C为:其中,a、b是经优化求取的参数。2.根据权利要求1所述的一种基于深度递归神经网络的DNase高通量测序数据中D...

【专利技术属性】
技术研发人员:冯伟兴贺波丛瑞达徐斯文王影王雪莹
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1