一种化学计量转录组基础分析的计算方法技术

技术编号:37437043 阅读:11 留言:0更新日期:2023-05-06 09:09
本发明专利技术公开了一种化学计量转录组进行基础分析的计算方法。不同于基因组,转录组是研究细胞基因表达的主要手段。本发明专利技术所提供的化学计量转录组进行基础分析的计算方法综合运用了Perl脚本语言编程,R脚本语言编程和R语言可视化,基于物种转录组数据,对物种的转录组进行元素的平均含量、碱基和元素的含量分布、极端基因的筛选和功能富集、元素含量与GC值的相关性的分析以及可视化展示。实验证明,本发明专利技术所提供的化学计量转录组进行基础分析的计算方法比较系统,效果好,速度快,易实现自动化和流程化。和流程化。和流程化。

【技术实现步骤摘要】
一种化学计量转录组基础分析的计算方法


[0001]本专利技术属于生物
,涉及一种化学计量转录组基础分析的计算方法。

技术介绍

[0002]转录组学是从整体转录水平系统研究基因转录图谱并揭示复杂生物学通路和性状调控网络分子机制的学科。近年来随着高通量测序技术的发展,转录组测序不仅能够检测与现有基因组序列相对应的转录本,并能发现和定量新的转录本,对选择性剪接事件、新基因和转录本以及融合转录本的研究更具优势。通过现有的转录组测序技术系统、准确地揭示生物学过程中的复杂性状和解析转录调控网络,已被广泛应用于基础研究、临床诊断和药物研发等领域。随着转录组测序技术不断发展,转录组测序技术的成本和技术难度在下降,使得转录组成为当前研究热潮。转录组数据量成指数增加,然后转录组数据分析有着更高的专业要求,方便快捷的转录组数据分析方法显得尤为重要。基于转录组学数据,通过计算转录组中元素的使用偏好性,不仅可以掌握元素使用偏好性的进化规律,还可以此作为评估生物对与周围环境做出的调控反应程度。化学计量转录组的计算方法,指通过计算生物学的方法,计算转录组或mRNA序列的化学计量特征,包括元素(碳、氢、氧、氮)和单体(核苷酸)的组成和含量。化学计量转录组学是一门新兴的交叉学科,包括了化学计量学、生态学、进化生物学、转录组学和生物信息学等内容,为科学研究转录水平的调控是研究提供理论基础,也为后转录组时代数据的挖掘提供了一个全兴的视角。目前化学计量转录组的计算方法涉及复杂的计算、统计学理论和分析方法,缺乏可视化应用。对非专业的研究者来说是一种巨大挑战;此外,需要对下载的转录组文件进行诸多前处理,最后转化为具有固定格式的输入文件,极大的限制了非生物信息专业以及计算机基础相对薄弱人群对其进行分析,最终制约了化学计量转录组学领域的研究。

技术实现思路

[0003]本专利技术的目的是提供一种化学计量转录组基础分析的计算方法。
[0004]本专利技术所提供的化学计量转录组基础分析的计算方法,具体可包括如下步骤:
[0005](1)将待测物种转录组序列的fasta或fastq格式文件记为转录组数据A,放入文件夹in,并新建文件夹out。对文件夹in中的转录组数据进行碱基和元素含量分析,运行Perl脚本1命令(“perl coun4RNA.pl in out”),得到out文件夹的碱基和元素的含量数据B(output1.xls)文件和碱基和元素的平均含量数据C(output2.xls)文件。
[0006]进一步地,本专利技术中所述perl脚本1具体为:count4RNA.pl
[0007][0008][0009][0010][0011][0012][0013](2)对碱基和元素的平均含量数据C进行可视化展示,运行R脚本1命令(在UNIX/Linux/MacOSX系统运行:“transcriptomics

环状图

柱状图.R”;或在windows的R或Rstudio直接运行:“transcriptomics

环状图

柱状图.R”),得到碱基和元素平均含量的环状图和柱状图。
[0014]进一步地,本专利技术中所述R脚本1具体为:transcriptomics

环状图

柱状图.R
[0015][0016][0017](3)对碱基和元素的含量数据B进行可视化展示,运行R脚本2命令(在UNIX/Linux/MacOSX系统运行:“transcriptomics

频率分布图.R”;或在windows的R或Rstudio直接运行:“transcriptomics

频率分布图.R”),得到元素含量直方分布图。
[0018]进一步地,本专利技术中所述R脚本2具体为:transcriptomics

频率分布图.R
[0019][0020][0021](4)对碱基和元素的含量数据B进行极端值基因数据筛选,运行R脚本3(在UNIX/Linux/MacOSX系统运行:“transcriptomics

气泡图.R”;或在windows的R或Rstudio直接运行:“transcriptomics

气泡图.R”),得到不同元素中,具有该元素含量最高和最低的10种基因图示。
[0022]本专利技术中所述R脚本3具体为:transcriptomics

气泡图.R
[0023][0024][0025][0026](5)对碱基和元素的含量数据B进行极端值基因功能富集,运行R脚本4(在UNIX/Linux/MacOSX系统运行:“transcriptomics

go富集(Arabidopsis).R”;或在windows的R或Rstudio直接运行:“transcriptomics

go富集(Arabidopsis)”),得到极端基因的GO功能富集可视化

GO富集图。
[0027]本专利技术中所述R脚本4具体为:transcriptomics

go富集(Arabidopsis).R
[0028][0029][0030][0031][0032](6)对碱基和元素的含量数据B进行相关性分析,运行R脚本5命令(在UNIX/Linux/MacOSX系统运行:“Rscript transcriptomics

相关性分析.R”;或在windows的R或Rstudio直接运行:“transcriptomics

相关性分析.R”),得到不同元素含量之间及与GC值的相关性
分析图

相关分析可视化。
[0033]进一步地,本专利技术中所述R脚本5具体为:transcriptomics

相关性分析.R
[0034][0035]在本专利技术中,步骤(1)中的所述待测物种为任意的物种,转录组序列可以通过从已公开的转录组数据库中下载或通过全转录组测序得到。具体地,本专利技术所述待测转录组具体为拟南芥(Arabidopsis thaliana)的转录组,其数据下载于NCBI数据库(https://www.ncbi.nlm.nih.gov)。
[0036]本专利技术具有以下优点:一是,能够快速地计算转录组化学计量基础分析的结果,各参数较为全面和准确,效果好,速度快;二是比较系统,效率高,自动化;三是本专利技术将Perl语言脚本编程与几个R语言脚本编程完美流畅的结合起来,实现了软件之间的良好衔接,和数据的可视化。
附图说明
[0037]图1为本专利技术化学计量转录组基础分析的流程图;
[0038]图2为步骤2中R脚本1对元素的平均含量数据C的可视化图示,包括环状图和柱状图;
[0039]图3为步骤3中R脚本2对碱基和元素含量数据B可视化图示,包括元素含量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种化学计量转录组基础分析的计算方法,包括如下流程步骤:(1)将待测物种转录组序列的fasta或fastq格式文件记为转录组数据A,放入文件夹in,并新建文件夹out。对文件夹in中的转录组数据进行碱基和元素含量分析,运行Perl脚本1命令(“perl coun4RNA.pl in out”),得到out文件夹的碱基和元素的含量数据B(outputl.xls)文件和碱基和元素的平均含量数据C(output2.xls)文件。(2)对碱基和元素的平均含量数据C进行可视化展示,运行R脚本1命令(在UNIX/Linux/MacOSX系统运行:“transcriptomics

环状图

柱状图.R”;或在windows的R或Rstudio直接运行:“transcriptomics

环状图

柱状图.R”),得到碱基和元素平均含量的环状图和柱状图。(3)对碱基和元素的含量数据B进行可视化展示,运行R脚本2命令(在UNIX/Linux/MacOSX系统运行:“transcriptomics

频率分布图.R”;或在windows的R或Rstudio直接运行;“transcriptomics

频率分布图.R”),得到元素含量直方分布图。(4)对碱基和元素的含量数据B进行极端值基因数据筛选,运行R脚本3(在UNIX/Linux/MacOSX系统运行:“transcriptomics

气泡图.R”;或在windows的R或Rstudio直接运行:“transcriptomics

气泡图.R”),得到不同元素中,具有该元素含量最高和最低的10种基因图示。(5)对碱基和元素的含量数据B进行极端值基因功能富集,运行R脚本4(在UNIX/Linux/MacOSX系统运行:“transcriptomics

go富集(Ar...

【专利技术属性】
技术研发人员:张玉娟仇鑫肖续
申请(专利权)人:重庆师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1