一种基于Illumina的转录组测序数据和PeakCalling方法的细菌ncRNA预测方法技术

技术编号:16874308 阅读:92 留言:0更新日期:2017-12-23 12:07
本发明专利技术属于生物信息技术领域,尤其涉及利用Illumina二代测序获得的碱基片段结合PeakCalling方法进行细菌非编码RNA的分析预测方法。该方法包括剔除rRNA的细菌二代测序数据;获得数据后,对数据进行以下分析:先对数据进行去污染和去低质量分析,获得Clean reads;然后将reads比对到细菌基因组上;进行转录单元的初步预测;过滤掉已注释的mRNA和ncRNA,获得预测的ncRNA;将ncRNA注释到已知的ncRNA数据库Rfam,获得最终的预测结果。本发明专利技术可以非常精确地预测细菌基因组中未注释的ncRNA,弥补了实验手段的不足,为后期的实验和科学研究提供很有利的支持。

A bacterial ncRNA prediction method based on Illumina based transcriptional sequence data and PeakCalling method

The invention belongs to the field of bioinformation technology, in particular to the analysis and prediction method of bacterial non coding RNA by using the base fragment obtained by Illumina two generation sequencing and PeakCalling method. The method includes eliminating bacteria rRNA two generation sequencing data; data obtained after the analysis of the data of the following: first the data to analysis to pollution and low quality, Clean reads; then reads ratio to the bacterial genome; preliminary prediction of transcription unit; filtering the annotated mRNA and ncRNA. Prediction of ncRNA; ncRNA notes to the known ncRNA Rfam database, to obtain the final prediction results. The invention can predict the ncRNA in the bacterial genome very accurately, and make up for the shortcomings of the experimental means, so as to provide favorable support for later experiments and scientific research.

【技术实现步骤摘要】
一种基于Illumina的转录组测序数据和PeakCalling方法的细菌ncRNA预测方法
本专利技术涉及生物信息
,尤其涉及一种基于Illumina的转录组测序数据和PeakCalling方法的细菌ncRNA预测方法。
技术介绍
2004年以来,二代测序技术以迅猛的速度发展起来,二代测序技术具有一次能并行对几十万到几百万条DNA分子进行序列测定,且读长较短的特点。其为科学和医学研究提供了很好的技术手段,在基因组组装以及基因表达等方面有很广泛的应用。2006年美国的Illumina公司提出了自主研发的基因组分析平台,测序的基本原理是边合成边测序。由于其对样品质量要求不高,而且具有高准确性、高通量、高灵敏度和低运行成本等突出优势,使其很快成为二代测序平台的一支重要力量。Illumina测序平台,每次可以获得几十Gb到上百Gb的数据量,而且在几天的时间里就可以完成测序和转格式的工作。所以Illumina高通量测序仪一直深受广大科研工作者和医务人员的喜爱,成为他们很得力的科研工具。随着越来越多的物种基因组测序工作的完成和完善,科研人员会更加关注转录调控和表观调控,其中基于RNA研究的转录调控是人们研究的热点。RNA在生命过程中起到的作用也被越来越多的人重视。除了我们常说的编码蛋白的mRNA之外,非编码RNA(non-codingRNA,ncRNA)的调控作用越来越凸显。在细菌中,ncRNA起到了重要的转录调控作用,它会和蛋白互作,引起翻译的活跃或抑制。因此我们需要对ncRNA给予更多的关注和研究。目前细菌ncRNA的预测往往采用实验手段,存在周期长,预测范围小等缺点。尽管近年来对于细菌ncRNA的预测,也采用高通量的数据,其中包含了生物信息学的方法,但比较依赖基因组的注释,如2011年的PNAS文章(Koo,Alleyneetal.2011),虽然也预测到了150个ncRNA,但其采用的是cluster方法,准确性会降低。PeakCalling方法,是一种找峰(Peak)的方法,随着二代测序技术的成熟,逐渐发展起来的一种获得特殊位点的分析方法。它将二代测序获得的碱基序列比对到参考序列上,通过计算机程序结合一定的统计模型,寻找出比对上序列丰度较大的位置,也就是所谓的Peak,获得Peak的过程和方法称之为PeakCalling。由于不受众多条件的限制,且容易修改和复制,使其能够进行多种数据的分析,如ChIP-Seq,RNA-Seq和RIP-Seq等。但迄今为止PeakCalling的方法还没有用于ncRNA的预测和分析。
技术实现思路
针对现有技术存在的问题,本专利技术的主要目的在于提供一种基于Illumina的转录组测序数据和PeakCalling方法的细菌ncRNA预测方法,包括:通过Illumina测序平台获取某一物种至少一组rRNA剔除的转录组的原始测序数据;过滤所述各组原始测序数据中的不合格数据,获得所述各个转录组的待分析数据(即cleanreads,它是原始测序数据经过过滤处理后留下的数据);对所述各转录组获得的待分析数据进行如下步骤的分析和筛选:1)将所述各个转录组的待分析数据分别比对到所述物种的参考基因组;2)利用bedtools等软件统计参考基因组中每个位置的比对深度,对全基因组的比对深度进行定量分析;3)根据比对深度,利用PeakCalling方法,获得参考基因组中所有的转录单元;4)获得转录单元后,统计每个转录单元的宽度,比对上的reads数,RPKM标准化方法获得的表达丰度,最高的深度,最高深度的位置等信息。5)和待测细菌所属物种已知的基因注释比较,获得新的ncRNA预测结果;6)对ncRNA进行启动子和终止子预测,获得预测结果;7)对超过1个样品的数据,可以将2到5个样品的ncRNA预测结果进行合并,获得合并后的ncRNA预测结果;8)将最终的ncRNA预测结果比对到Rfam数据库中,获得ncRNA的功能注释结果。在本专利技术的一个实施例中,不合格数据包括:低质量的reads,其中所述低质量的reads包括,序列中超过30%的碱基质量低于20的reads;修剪掉测序接头后序列长度低于16的reads;修剪掉低质量的碱基序列后序列长度低于16的reads,其中所述低质量碱基序列是指从3’端开始,测序质量值低于20的碱基。在本专利技术的又一个实施例中,第一步分析中的比对是使用bowtie或bowtie2软件进行的。在本专利技术的又一个实施例中,利用所述的bowtie软件比对时,参数的具体设置如下:使用-v参数,容许2个mismatch,输出2个最佳匹配结果。在本专利技术的又一个实施例中,利用bowtie2进行比对时,-N参数选择为1,采用--end-to-end比对模式,设置程序运行时的线程数为1~16;设置输出文件类型为sam格式。在本专利技术的又一个实施例中,第二步分析使用bedtools的genomecov方法进行比对深度分析,选择-d参数。在本专利技术的又一个实施例中,第三步分析使用PeakCalling方法预测转录单元,利用Perl编程语言的脚本进行分析和筛选,标准如下:基因区域(Generegion)的peak的鉴定:从全基因组每条DNA序列的开始,以20bp为一个窗口(Window),5bp为一个步长(step),连续两个窗口的中位深度(mediumdepth)小于已有注释基因区的最大深度的20%则停下来,如果已经到了下一个同向基因的边界则强制停下来。基因间区(Intergenicregion)的peak的鉴定:首先通过发现一个窗口后面连续8个窗口(5bp为一个窗口)的中位深度都是其中位深度的2.5倍确定一个峰的开始,然后寻找其结束点,记录寻找过程中的中位深度最大值,直到找到连续5个窗口的中位深度小于这个最大值的8%,则停下来,如果已经找到间区的边界则强制停下来,作为峰的临时边界;然后从临时边界开始反方向查找,使用确定开始位点同样的方法找到一个终止位点,作为这个peak的起始和终止。在本专利技术的又一个实施例中,第四步的分析中,获得转录单元之后,利用Perl脚本,统计每个转录单元的宽度,比对上的reads数,RPKM标准化方法获得的表达丰度,最高的深度,最高深度的位置等信息。其中,转录单元宽度为其长度,reads数为比对到此单元上的reads个数,RPKM值为标准化之后的表达丰度,最高的深度为转录单元覆盖最深的深度,最高深度所在的基因组坐标位置则为最高深度的位置。在本专利技术的又一个实施例中,第六步的分析中,需要对预测获得的ncRNA进行启动子(Promoter)和终止子(Terminator)预测,所使用的软件为:启动子预测软件为bprom,终止子预测软件为findterm,在使用这两款软件时,使用默认参数即可;对每个ncRNA,可同时进行启动子和终止子预测,对于获得了启动子或终止子的ncRNA,则认为是更加可信的ncRNA,在后续的研究中,优选这样的ncRNA进行分析研究。在本专利技术的又一个实施例中,第七步的分析中,对于多个样品的预测结果,如果来自于同一个参考基因组,则会根据不同样品中ncRNA的预测位置进行合并,获得最终的ncRNA列表。在本专利技术的又一个实施例中,第八步的分析中,使用blas本文档来自技高网
...
一种基于Illumina的转录组测序数据和PeakCalling方法的细菌ncRNA预测方法

【技术保护点】
一种基于Illumina的转录组测序数据和PeakCalling方法的细菌ncRNA预测方法,其特征在于,包括如下步骤:通过Illumina测序平台获取某一物种至少一组rRNA剔除的转录组的原始测序数据;过滤所述各组原始测序数据中的不合格数据,获得所述各个转录组的待分析数据;对所述各转录组获得的待分析数据进行如下步骤的分析和筛选:1)将所述各个转录组的待分析数据分别比对到所述物种的参考基因组;2)利用bedtools等软件统计参考基因组中每个位置的比对深度,对全基因组的比对深度进行定量分析;3)根据比对深度,利用Peak Calling方法,获得参考基因组中所有的转录单元;4)获得转录单元后,统计每个转录单元的宽度,比对上的reads数,RPKM标准化方法获得的表达丰度,最高的深度,最高深度的位置等信息;5)和待测细菌所属物种已知的基因注释比较,获得新的ncRNA预测结果;6)对ncRNA进行启动子和终止子预测,获得预测结果;7)如果有多于1个样品,则2到5个样品的ncRNA预测结果进行合并,获得合并后的预测结果;8)将合并后的ncRNA预测结果比对到Rfam数据库中,获得ncRNA的功能注释结果。...

【技术特征摘要】
1.一种基于Illumina的转录组测序数据和PeakCalling方法的细菌ncRNA预测方法,其特征在于,包括如下步骤:通过Illumina测序平台获取某一物种至少一组rRNA剔除的转录组的原始测序数据;过滤所述各组原始测序数据中的不合格数据,获得所述各个转录组的待分析数据;对所述各转录组获得的待分析数据进行如下步骤的分析和筛选:1)将所述各个转录组的待分析数据分别比对到所述物种的参考基因组;2)利用bedtools等软件统计参考基因组中每个位置的比对深度,对全基因组的比对深度进行定量分析;3)根据比对深度,利用PeakCalling方法,获得参考基因组中所有的转录单元;4)获得转录单元后,统计每个转录单元的宽度,比对上的reads数,RPKM标准化方法获得的表达丰度,最高的深度,最高深度的位置等信息;5)和待测细菌所属物种已知的基因注释比较,获得新的ncRNA预测结果;6)对ncRNA进行启动子和终止子预测,获得预测结果;7)如果有多于1个样品,则2到5个样品的ncRNA预测结果进行合并,获得合并后的预测结果;8)将合并后的ncRNA预测结果比对到Rfam数据库中,获得ncRNA的功能注释结果。2.根据权利要求1所述的细菌ncRNA预测方法,其特征在于,所述各组原始测序数据中的不合格数据包括:低质量的reads,其中所述低质量的reads包括,序列中超过30%的碱基质量低于20的reads;修剪掉测序接头后序列长度低于16的reads;修剪掉低质量的碱基序列后序列长度低于16的reads,其中所述低质量碱基序列是指从3’端开始,测序质量值低于20的碱基。3.根据权利要求1或2所述的细菌ncRNA预测方法,其特征在于,对所述各转录组获得的待分析数据进行分析和筛选的第1)步分析中的比对是使用bowtie或bowtie2软件进行的,利用bowtie软件比对时,参数的具体设置如下:使用-v参数,容许2个mismatch,输出2个最佳匹配结果;利用bowtie2进行比对时,-N参数选择为1,采用--end-to-end比对模式,设置程序运行时的线程数为1~16;设置输出文件类型为sam格式。4.根据权利要求3所述的细菌ncRNA预测方法,其特征在于,对所述各转录组获得的待分析数据进行分析和筛选的第2)步分析中使用bedtools的genomecov方法进行比对深度分析,选择-d参数。5.根据权利要求4所述的细菌ncRNA预测方法,其特征在于,对所述各转录组获得的待分析数据进行分析和筛选的第3)步分析中使用PeakCalling方法预测转录单元,利用Perl编程语言的脚本进行分析和筛选,标准如下:基因区域(Gener...

【专利技术属性】
技术研发人员:张翼陈栋程超
申请(专利权)人:武汉生命之美科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1