一种高通量分析多物种化学计量转录组的方法技术

技术编号:37254557 阅读:16 留言:0更新日期:2023-04-20 23:31
本发明专利技术公开了一种高通量分析多物种化学计量转录组的方法。本发明专利技术所提供的高通量分析多物种化学计量转录组的方法综合运用了Perl脚本语言编程,R脚本语言编程和R语言可视化,基于多个物种转录组数据,高通量计算多个转录组的碱基(A、U、C、G)和元素(碳、氢、氧、氮)含量,同时计算每个转录组中各元素平均含量以及可视化展示。实现了高通量分析化学计量转录组的数据处理和图形可视化。实验证明,本发明专利技术所提供的高通量分析多物种化学计量转录组的方法比较系统,效果好,速度快,易实现自动化和流程化。化。化。

【技术实现步骤摘要】
一种高通量分析多物种化学计量转录组的方法


[0001]本专利技术属于生物
,尤其是涉及一种高通量分析多物种化学计量转录组的方法。

技术介绍

[0002]转录组学是从整体转录水平系统研究基因转录图谱并揭示复杂生物学通路和性状调控网络分子机制的学科。近年来随着高通量测序技术的发展,转录组测序不仅能够检测与现有基因组序列相对应的转录本,并能发现和定量新的转录本,对选择性剪接事件、新基因和转录本以及融合转录本的研究更具优势。通过现有的转录组测序技术系统、准确地揭示生物学过程中的复杂性状和解析转录调控网络,已被广泛应用于基础研究、临床诊断和药物研发等领域。多物种的转录组数据不断产生,驱动着多物种分析流程的开发。对多物种转录组数据进行分析,将有助于解析多物种之间的起源关系和对环境的适应方式。方便快捷的转录组数据分析方法显得尤为重要。基于转录组学数据,通过计算转录组中元素的使用偏好性,不仅可以掌握元素使用偏好性的进化规律,还可以此作为评估生物对与周围环境做出的调控反应程度。化学计量转录组的计算方法,指通过计算生物学的方法,计算转录组或mRNA序列的化学计量特征,包括元素(碳、氢、氧、氮)和单体(核苷酸)的组成和含量。化学计量转录组学是一门新兴的交叉学科,包括了化学计量学、生态学、进化生物学、转录组学和生物信息学等内容,为科学研究转录水平的调控是研究提供理论基础,也为后转录组时代数据的挖掘提供了一个全兴的视角。目前化学计量转录组的计算方法涉及复杂的计算、统计学理论和分析方法,缺乏可视化应用。对非专业的研究者来说是一种巨大挑战;此外,需要对下载的转录组文件进行诸多前处理,最后转化为具有固定格式的输入文件,极大的限制了非生物信息专业以及计算机基础相对薄弱人群对其进行分析,最终制约了生物化学组成领域的研究。

技术实现思路

[0003]本专利技术的目的是提供一种高通量分析多物种化学计量转录组的方法。
[0004]本专利技术所提供的高通量分析多物种化学计量转录组的方法,具体可包括如下步骤:
[0005](1)将待测的第一个物种转录组序列文件记为转录组数据A1(fasta或fastq格式),第二个物种转录组序列或多个物种转录组文件记为转录组数据A2(fasta或fastq格式)......将多个物种(≤4)的数据A1、A2、A3等,放入文件夹in,并新建文件夹out。
[0006](2)对文件夹in中的转录组数据进行碱基和元素含量分析,运行Perl脚本1命令“perl coun4RNA.pl in out”,得到out文件夹中的转录组碱基和元素的含量数据B(output1.xls)和转录组元素的平均含量数据C(ourput2.xls)文件。
[0007]进一步地,本专利技术中所述Perl脚本1具体为:count4RNA.pl
[0008][0009][0010][0011][0012][0013][0014](3)将转录组碱基和元素的含量数据B进行可视化展示,运行R脚本1命令(在UNIX/Linux/MacOSX系统运行:“transcriptomics

小提琴图.R”;或在windows的R或Rstudio直接运行:transc呻tomics

小提琴图.R),得到不同物种元素含量分布比较图。
[0015]进一步地,本专利技术中所述R脚本1具体为:transcriptomics

小提琴图.R
[0016][0017][0018](4)将转录组元素的平均含量数据C进行可视化展示,运行R脚本2命令(在UNIX/Linux/MacOSX系统运行:transcriptomics

南丁格尔玫瑰图

柱状图.R;或在windows的R或Rstudio直接运行:transcriptomics

南丁格尔玫瑰图

柱状图.R),得到平均含量可视化

南丁格尔玫瑰图和柱状图。
[0019]进一步地,本专利技术中所述R脚本2具体为:transcriptomics

南丁格尔玫瑰图

柱状图.R
[0020][0021][0022]在本专利技术中,步骤(1)中的所述待测物种为任意的物种,转录组序列可以通过从已公开的转录组数据库中下载或通过转录组测序得到。
[0023]本专利技术具有以下优点:一是,能够快速地计算多个物种转录组化学计量分析的结果,各参数较为全面和准确,效果好,速度快;二是比较系统,效率高,自动化,能够实验多个物种转录组之间的比较分析,高通量处理数据;三是本专利技术将Perl语言脚本编程与几个R语言脚本编程完美流畅的结合起来,实现了软件之间的良好衔接和数据的可视化。
附图说明
[0024]图1为本专利技术高通量分析化学计量转录组的流程图;
[0025]图2为步骤(3)中R脚本1对转录组碱基和元素的含量数据B的可视化图示,包括不同物种元素含量分布比较图;
[0026]图3为步骤(4)中R脚本2对转录组元素的平均含量数据C的可视化图示,包括平均含量可视化

南丁格尔玫瑰图和柱状图。
具体实施方式
[0027]下面将通过以下转录组数据,包括:嗜盐杆菌(Halobacterium),枯草芽孢杆菌(Bacillus subtilis),大肠杆菌(Escherichia coli)和拟南芥(Arabidopsis thaliana),的转录组作为本专利技术的例子,更详细地说明本专利技术。其数据下载于NCBI数据库(https://www.ncbi.nlm.nih.gov)。
[0028]本专利技术所提供的高通量分析化学计量转录组的流程图见图1,具体包括如下步骤:
[0029](1)将待测的第一个物种转录组序列文件记为转录组数据A1(fasta或fastq格式),第二个物种转录组序列或多个物种转录组文件记为转录组数据A2(fasta或fastq格式)......将多个物种(≤4)的数据A1、A2、A3等,放入文件夹in,并新建文件夹out。
[0030](2)在Linux系统下操作,安装perl软件。首先,对文件夹in中的转录组数据进行碱基和元素含量分析,运行Perl脚本1命令“perl coun4RNA.pl in out”。此步骤将得到out文件夹中的2个文件,分别为转录组碱基和元素的含量数据B(output1.xls)和转录组元素的平均含量数据C(output2.xls)文件。
[0031]进一步地,本专利技术中所述Perl脚本1具体为:count4RNA.pl
[0032][0033][0034][0035][0036][0037]进一步地,本专利技术中所述B(output1.xls)文件格式具体为:
[0038][0039][0040]进一步地,本专利技术中所述C(output2.xls)文件格式具体为:
[0041][0042](3)将转录组碱基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种高通量分析多物种化学计量转录组的方法,包括如下流程步骤:(1)将待测的第一个物种转录组序列文件记为转录组数据A1(fasta或fastq格式),第二个物种转录组序列或多个物种转录组文件记为转录组数据A2(fasta或fastq格式)......将多个物种(≤4)的数据A1、A2、A3等,放入文件夹in,并新建文件夹out。(2)对文件夹in中的转录组数据进行碱基和元素含量分析,运行Perl脚本1命令“perl coun4RNA.pl in out”,得到out文件夹中的转录组碱基和元素的含量数据B(output1.xls)和转录组元素的平均含量数据C(output2.xls)文件。(3)将转录组碱基和元素的含量数据B进行可视化展示,运行R脚本1命令(在UNIX/Linux/MacOSX系统运行:“transcriptomic

小提琴图.R”;或在windows的R或Rstudio直接运行:transcriptomic

小提琴图.R),得到不同物种元素含量分布比较图。(4)将转录组元素的平均含量数据C进行可视化展示,运行...

【专利技术属性】
技术研发人员:张玉娟罗泽宇王瑞
申请(专利权)人:重庆师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1