The invention belongs to the field of bioinformation technology, in particular to the analysis and prediction method of bacterial non coding RNA by using the base fragment obtained by Illumina two generation sequencing and PeakCalling method. The method includes eliminating bacteria rRNA two generation sequencing data; data obtained after the analysis of the data of the following: first the data to analysis to pollution and low quality, Clean reads; then reads ratio to the bacterial genome; preliminary prediction of transcription unit; filtering the annotated mRNA and ncRNA. Prediction of ncRNA; ncRNA notes to the known ncRNA Rfam database, to obtain the final prediction results. The invention can predict the ncRNA in the bacterial genome very accurately, and make up for the shortcomings of the experimental means, so as to provide favorable support for later experiments and scientific research.
【技术实现步骤摘要】
一种基于Illumina的转录组测序数据和PeakCalling方法的细菌ncRNA预测方法
本专利技术涉及生物信息
,尤其涉及一种基于Illumina的转录组测序数据和PeakCalling方法的细菌ncRNA预测方法。
技术介绍
2004年以来,二代测序技术以迅猛的速度发展起来,二代测序技术具有一次能并行对几十万到几百万条DNA分子进行序列测定,且读长较短的特点。其为科学和医学研究提供了很好的技术手段,在基因组组装以及基因表达等方面有很广泛的应用。2006年美国的Illumina公司提出了自主研发的基因组分析平台,测序的基本原理是边合成边测序。由于其对样品质量要求不高,而且具有高准确性、高通量、高灵敏度和低运行成本等突出优势,使其很快成为二代测序平台的一支重要力量。Illumina测序平台,每次可以获得几十Gb到上百Gb的数据量,而且在几天的时间里就可以完成测序和转格式的工作。所以Illumina高通量测序仪一直深受广大科研工作者和医务人员的喜爱,成为他们很得力的科研工具。随着越来越多的物种基因组测序工作的完成和完善,科研人员会更加关注转录调控和表观调控,其中基于RNA研究的转录调控是人们研究的热点。RNA在生命过程中起到的作用也被越来越多的人重视。除了我们常说的编码蛋白的mRNA之外,非编码RNA(non-codingRNA,ncRNA)的调控作用越来越凸显。在细菌中,ncRNA起到了重要的转录调控作用,它会和蛋白互作,引起翻译的活跃或抑制。因此我们需要对ncRNA给予更多的关注和研究。目前细菌ncRNA的预测往往采用实验手段,存在周期长,预测 ...
【技术保护点】
一种基于Illumina的转录组测序数据和PeakCalling方法的细菌ncRNA预测方法,其特征在于,包括如下步骤:通过Illumina测序平台获取某一物种至少一组rRNA剔除的转录组的原始测序数据;过滤所述各组原始测序数据中的不合格数据,获得所述各个转录组的待分析数据;对所述各转录组获得的待分析数据进行如下步骤的分析和筛选:1)将所述各个转录组的待分析数据分别比对到所述物种的参考基因组;2)利用bedtools等软件统计参考基因组中每个位置的比对深度,对全基因组的比对深度进行定量分析;3)根据比对深度,利用Peak Calling方法,获得参考基因组中所有的转录单元;4)获得转录单元后,统计每个转录单元的宽度,比对上的reads数,RPKM标准化方法获得的表达丰度,最高的深度,最高深度的位置等信息;5)和待测细菌所属物种已知的基因注释比较,获得新的ncRNA预测结果;6)对ncRNA进行启动子和终止子预测,获得预测结果;7)如果有多于1个样品,则2到5个样品的ncRNA预测结果进行合并,获得合并后的预测结果;8)将合并后的ncRNA预测结果比对到Rfam数据库中,获得ncRNA的 ...
【技术特征摘要】
1.一种基于Illumina的转录组测序数据和PeakCalling方法的细菌ncRNA预测方法,其特征在于,包括如下步骤:通过Illumina测序平台获取某一物种至少一组rRNA剔除的转录组的原始测序数据;过滤所述各组原始测序数据中的不合格数据,获得所述各个转录组的待分析数据;对所述各转录组获得的待分析数据进行如下步骤的分析和筛选:1)将所述各个转录组的待分析数据分别比对到所述物种的参考基因组;2)利用bedtools等软件统计参考基因组中每个位置的比对深度,对全基因组的比对深度进行定量分析;3)根据比对深度,利用PeakCalling方法,获得参考基因组中所有的转录单元;4)获得转录单元后,统计每个转录单元的宽度,比对上的reads数,RPKM标准化方法获得的表达丰度,最高的深度,最高深度的位置等信息;5)和待测细菌所属物种已知的基因注释比较,获得新的ncRNA预测结果;6)对ncRNA进行启动子和终止子预测,获得预测结果;7)如果有多于1个样品,则2到5个样品的ncRNA预测结果进行合并,获得合并后的预测结果;8)将合并后的ncRNA预测结果比对到Rfam数据库中,获得ncRNA的功能注释结果。2.根据权利要求1所述的细菌ncRNA预测方法,其特征在于,所述各组原始测序数据中的不合格数据包括:低质量的reads,其中所述低质量的reads包括,序列中超过30%的碱基质量低于20的reads;修剪掉测序接头后序列长度低于16的reads;修剪掉低质量的碱基序列后序列长度低于16的reads,其中所述低质量碱基序列是指从3’端开始,测序质量值低于20的碱基。3.根据权利要求1或2所述的细菌ncRNA预测方法,其特征在于,对所述各转录组获得的待分析数据进行分析和筛选的第1)步分析中的比对是使用bowtie或bowtie2软件进行的,利用bowtie软件比对时,参数的具体设置如下:使用-v参数,容许2个mismatch,输出2个最佳匹配结果;利用bowtie2进行比对时,-N参数选择为1,采用--end-to-end比对模式,设置程序运行时的线程数为1~16;设置输出文件类型为sam格式。4.根据权利要求3所述的细菌ncRNA预测方法,其特征在于,对所述各转录组获得的待分析数据进行分析和筛选的第2)步分析中使用bedtools的genomecov方法进行比对深度分析,选择-d参数。5.根据权利要求4所述的细菌ncRNA预测方法,其特征在于,对所述各转录组获得的待分析数据进行分析和筛选的第3)步分析中使用PeakCalling方法预测转录单元,利用Perl编程语言的脚本进行分析和筛选,标准如下:基因区域(Gener...
【专利技术属性】
技术研发人员:张翼,陈栋,程超,
申请(专利权)人:武汉生命之美科技有限公司,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。