一种基于miRBase数据库的无参的miRNA数据分析方法技术

技术编号:21304001 阅读:32 留言:0更新日期:2019-06-12 09:09
本发明专利技术公开了一种基于miRBase数据库的无本物种参考miRNA序列的miRNA数据分析方法,其特征在于,包括如下步骤:文件准备步骤;下机数据过滤步骤;sRNA分类注释步骤;miRNA差异分析步骤;miRNA功能和通路分析步骤;miRNA序列特征分析步骤;结果整理步骤。本发明专利技术的有益效果在于:针对无本物种参考miRNA序列的miRNA测序数据分析。结果全面,包含涉及到的miRNA分析内容以及其他测到的小RNA信息注释。自动整理所有分析结果,完成各个部分分析之后,自动对结果进行统计,可视化,以及归类整理,使结果排布一目了然,直接用于报告生成。所有操作步骤可见,方便错误查询。

A Parametric-free Analysis Method of MicroRNA Data Based on MicroBase Database

The invention discloses a method for analyzing microRNA data based on the reference microRNA sequence of non-native species in the Microbase database, which is characterized by the following steps: file preparation step; off-line data filtering step; sRNA classification annotation step; microRNA differential analysis step; microRNA function and pathway analysis step; microRNA sequence characteristic analysis step; and result collation step. The beneficial effect of the present invention is to analyze the sequencing data of microRNAs for reference microRNAs of non-native species. The results were comprehensive, including the contents of microRNA analysis and other annotations of small RNA information detected. Automatically collate all the analysis results, after completing the analysis of each part, automatically statistics, visualization, and classification of the results, so that the results can be arranged at a glance, and directly used for report generation. All operation steps are visible to facilitate error query.

【技术实现步骤摘要】
一种基于miRBase数据库的无参的miRNA数据分析方法
本专利技术涉及转录组测序领域,具体涉及一种在miRBase数据库中无本物种参考miRNA数据的miRNA测序的数据分析方法。
技术介绍
miRNA是一类由内源基因编码非编码单链RNA分子,在动植物中参与转录后基因表达调控。多数miRNA以单拷贝、多拷贝或基因簇的形式存在于基因组中。miRNA在很多物种中被广泛发现,且在进化进程中高度保守,因此研究miRNA的确切功能、目的靶基因、以及其作用机制,是转录组学数据分析中的重要一环,对于了解生物体内基因的表达调控机制有重要意义。miRNA的作用机制在动物和植物之间存在明显差异,且有的物种有丰富的miRNA参考数据,但有的物种缺乏参考数据,甚至有些物种没有参考基因组信息,这些情况下的miRNA测序的数据分析方法十分不同。由于不同物种中的miRNA有一定的保守性,因此对于没有本物种参考miRNA数据的测序结果,也可以进行分析。但是目前还没有针对无参考miRNA数据的miRNA测序数据分析工具。也没有现成的流程分析能同时分析动物和植物小RNA测序数据;尤其是没有自动化的分析平台实现小RNA测序结果的流程化分析工具,包括后续的sRNA注释,miRNA序列的特征分析,表达量分析和差异分析,靶基因位点分析,等各个步骤的自动化整合。
技术实现思路
为了克服现有技术所存在的上述缺陷,本专利技术的目的在于提供一种基于miRBase数据库的无参的miRNA数据分析方法。为了实现本专利技术的目的之一,所采用的技术方案是:一种基于miRBase数据库的无参的miRNA数据分析方法,包括如下步骤:步骤一,文件准备步骤:准备并读取config文件,读取后生成相应的shell脚本,在运行同时每一步都会有运行日志,方便结果检查;步骤二,下机数据过滤步骤:下机后的原始数据,去除接头,然后过滤低质量序列,即:以5个碱基长度为窗口对原始序列进行搜索,当窗口中碱基的平均测序质量低于20时,将从窗口最前端开始的部分截断并舍弃。将过滤后的数据进行去重,获得无重复的序列,并标记所有序列数量。同时对原始数据和过滤数据量进行统计,并以柱状图展示不同长度的序列的数量分布特征。过滤序列用于后续分析;步骤三,sRNA分类注释步骤:将去重后的序列与Rfam数据库进行blast比对,筛选出碱基错配数小于2的结果,注释出其中的非编码RNA序列,将其余的小RNA序列与miRBase数据库中动物或植物的miRNA成熟体序列进行比对,筛选出碱基错配数小于2的结果,注释为已知的miRNA序列,同时计算测到的miRNA表达量,进行表达模式分析并命名;步骤四,miRNA差异分析步骤:根据上一步注释到的miRNA信息以及表达量结果,使用DESeq进行差异表达分析,并按照差异倍数(FoldChange>2)和显著性(Pvalue<0.05)筛选差异表达的miRNA,并绘制图像;步骤五,miRNA功能和通路分析步骤:以目标物种的mRNA的3’UTR序列或mRNA序列为目标序列,使用miRanda软件或psRobot软件对差异表达的miRNA序列,进行靶基因位点搜索;对上一步预测到的miRNA靶基因进行GO功能和KEGG通路的富集分析,获得差异miRNA可能参与的功能和代谢通路;步骤六,miRNA序列特征分析步骤:对miRNA碱基偏好性进行分析;步骤七,结果整理步骤:将所有用于生成miRNA结题报告的统计分析结果进行整理。在本专利技术的一个优选实施例中,所述文件准备步骤当中所述包含的文件中包括:下机数据位置以及对应的样本名和分组名、用于差异分析的分组、分析结果保存路径、任务名称、物种简称、测序接头序列、植物或动物的物种类型、动物或植物所有的miRNA的成熟体序列、基因组序列及其index文件的位置、用于功能注释的基因注释文件、动物的mRNA的3’UTR序列、植物的mRNA序列、GTF文件中的任意一种或多种。在本专利技术的一个优选实施例中,所述sRNA分类注释步骤当中,所述miRNA的命名方式为采用物种简称-miRNA家族名称的命名方式。在本专利技术的一个优选实施例中,所述sRNA分类注释步骤当中,还包括对新的miRNA预测:使用mapper.pl将剩余的序列与基因组进行比对,并使用mireap.pl对比对上的序列进行新的miRNA预测,并使用RNAfold获得结构信息。最后对所有的小RNA序列的注释结果进行统计。在本专利技术的一个优选实施例中,所述miRNA差异分析步骤中,所述绘制图像包括采用R语言的ggplot2软件包绘制差异表达miRNA的火山图、MA图;采用Pheatmap包对差异表达miRNA的表达量绘制热图。在本专利技术的一个优选实施例中,所述的对miRNA碱基偏好性进行分析为:分析不同长度的miRNA的首位碱基的偏好性和、或所有miRNA每个位置上的碱基偏好性。本专利技术的主要创新点在于:针对无参考miRNA数据的miRNA测序数的分析方法。结果全面,包含涉及到的miRNA分析内容以及其他测到的小RNA信息注释。自动整理所有分析结果,完成各个部分分析之后,自动对结果进行统计,可视化,以及归类整理,使结果排布一目了然,直接用于报告生成。所有操作步骤可见,方便错误查询,在进行每一步分析时,都会记录所用到的命令行和参数,以及运行中产生的日志结果,一旦程序运行出错,可以快速检查错误。附图说明图1为本专利技术的流程示意图。图2为准备文件示意图。图3为本专利技术的MA图示意图。图4为本专利技术的火山图示意图。图5为本专利技术的热图示意图。图6为每个序列首位碱基的分布情况示意图。图7为所有序列每一位碱基的分布情况示意图。具体实施方式以下通过实施例对本专利技术作进一步的说明,但这些实施例不得用于解释对本专利技术的限制。在步骤S1)中接受用户的小RNA测序数据,以及相关的数据库信息,然后对所有的数据进行相关的分析,得到每个样本中所有小RNA的注释信息,并对miRNA进行序列特征分析和表达量分析,以及样本间差异表达分析,功能和通路富集分析。文件准备如图2。首先是对下机数据进行过滤和数量统计。本专利技术实施例中,对下机数据进行去除接头和低质量序列的过滤处理,得到高质量的测序结果。作为示例地,去除接头序列,并通过5bp的滑动窗口,对原始序列进行搜索,当窗口中碱基的平均测序质量低于20时,将从窗口最前端开始的部分截断并舍弃过滤低质量序列。然后过滤掉长度小于18或者大于36bp的序列。然后对高质量数据的重复序列进行归纳,得到所有的无冗余序列。并对原始数据和高质量进行数量统计。接下来先通过比对注释出ncRNA序列。作为示例的,使用Blast将这些序列与Rfam数据库比对,注释其他如rRNA,tRNA,snRNA,snoRNA等非编码RNA信息。然后使用perl脚本对结果筛选出碱基错配数小于2的结果,注释出其中的非编码RNA序列。然后注释出miRNA序列。作为示例的,将其余的小RNA序列与miRBase数据库中该物种的miRNA成熟体序列进行Blast比对,筛选出碱基错配数小于2的结果,注释为已知的miRNA序列,同时计算测到的miRNA表达量,进行表达模式分析。然后从剩余的序列预测新的miRNA信息。作为示例的,使用mapper.pl将剩本文档来自技高网...

【技术保护点】
1.一种基于miRBase数据库的无参的miRNA数据分析方法,其特征在于,包括如下步骤:步骤一,文件准备步骤:准备并读取config文件,读取后生成相应的shell脚本,在运行同时每一步都会有运行日志,方便结果检查;步骤二,下机数据过滤步骤:下机后的原始数据,去除接头,然后过滤低质量序列,即:以5个碱基长度为窗口对原始序列进行搜索,当窗口中碱基的平均测序质量低于20时,将从窗口最前端开始的部分截断并舍弃。将过滤后的数据进行去重,获得无重复的序列,并标记所有序列数量。同时对原始数据和过滤数据量进行统计,并以柱状图展示不同长度的序列的数量分布特征。过滤序列用于后续分析;步骤三,sRNA分类注释步骤:将去重后的序列与Rfam数据库进行blast比对,筛选出碱基错配数小于2的结果,注释出其中的非编码RNA序列,将其余的小RNA序列与miRBase数据库中动物或植物的miRNA成熟体序列进行比对,筛选出碱基错配数小于2的结果,注释为已知的miRNA序列,同时计算测到的miRNA表达量,进行表达模式分析并命名;步骤四,miRNA差异分析步骤:根据上一步注释到的miRNA信息以及表达量结果,使用DESeq进行差异表达分析,并按照差异倍数(FoldChange>2)和显著性(Pvalue<0.05)筛选差异表达的miRNA,并绘制图像;步骤五,miRNA功能和通路分析步骤:以目标物种的mRNA的3’UTR序列或mRNA序列为目标序列,使用miRanda软件或psRobot软件对差异表达的miRNA序列,进行靶基因位点搜索;对上一步预测到的miRNA靶基因进行GO功能和KEGG通路的富集分析,获得差异miRNA可能参与的功能和代谢通路;步骤六,miRNA序列特征分析步骤:对miRNA碱基偏好性进行分析;步骤七,结果整理步骤:将所有用于生成miRNA结题报告的统计分析结果进行整理。...

【技术特征摘要】
1.一种基于miRBase数据库的无参的miRNA数据分析方法,其特征在于,包括如下步骤:步骤一,文件准备步骤:准备并读取config文件,读取后生成相应的shell脚本,在运行同时每一步都会有运行日志,方便结果检查;步骤二,下机数据过滤步骤:下机后的原始数据,去除接头,然后过滤低质量序列,即:以5个碱基长度为窗口对原始序列进行搜索,当窗口中碱基的平均测序质量低于20时,将从窗口最前端开始的部分截断并舍弃。将过滤后的数据进行去重,获得无重复的序列,并标记所有序列数量。同时对原始数据和过滤数据量进行统计,并以柱状图展示不同长度的序列的数量分布特征。过滤序列用于后续分析;步骤三,sRNA分类注释步骤:将去重后的序列与Rfam数据库进行blast比对,筛选出碱基错配数小于2的结果,注释出其中的非编码RNA序列,将其余的小RNA序列与miRBase数据库中动物或植物的miRNA成熟体序列进行比对,筛选出碱基错配数小于2的结果,注释为已知的miRNA序列,同时计算测到的miRNA表达量,进行表达模式分析并命名;步骤四,miRNA差异分析步骤:根据上一步注释到的miRNA信息以及表达量结果,使用DESeq进行差异表达分析,并按照差异倍数(FoldChange>2)和显著性(Pvalue<0.05)筛选差异表达的miRNA,并绘制图像;步骤五,miRNA功能和通路分析步骤:以目标物种的mRNA的3’UTR序列或mRNA序列为目标序列,使用miRanda软件或psRobot软件对差异表达的miRNA序列,进行靶基因位点搜索;对上一步预测到的miRNA靶基因进行GO功能和KEGG通路的富集分析,获得差异miRNA可能参与的功能和代谢通路;步骤六,miRNA序列特征分析步骤:对miRNA碱基偏好性进行分析;步骤七,结果整理步...

【专利技术属性】
技术研发人员:王玲平王智健姜丽荣沈立孙子奎
申请(专利权)人:南京派森诺基因科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1