一种高通量分析多物种化学计量蛋白质组的方法技术

技术编号:37171958 阅读:13 留言:0更新日期:2023-04-20 22:42
本发明专利技术公开了一种高通量分析多物种化学计量蛋白质组的方法。本发明专利技术所提供的高通量分析多物种化学计量蛋白质组的方法综合运用了Perl脚本语言编程,R脚本语言编程和R语言可视化,基于多个物种蛋白质组数据,高通量计算多个物种蛋白质组特征值:元素(碳、氢、氧、氮、硫)与酸碱氨基酸的含量,通过计算每个蛋白质组中各元素平均含量以及可视化展示。实现了高通量分析化学计量蛋白质组的数据处理和图形可视化。实验证明,本发明专利技术所提供的高通量分析多物种化学计量蛋白质组的方法比较系统,效果好,速度快,易实现自动化和流程化。易实现自动化和流程化。易实现自动化和流程化。

【技术实现步骤摘要】
一种高通量分析多物种化学计量蛋白质组的方法


[0001]本专利技术属于生物
,尤其是涉及一种高通量分析多物种化学计量蛋白质组的方法。

技术介绍

[0002]随着蛋白质测序与基因组翻译的不断完善,各种物种的蛋白质组数据不断积累与分析方法的改进及应用促进了蛋白质组学领域的研究工作不断细化和发展。其中化学计量蛋白质组学是当前的研究前沿,该学科研究不同蛋白质的元素使用偏好,计算蛋白质组及其序列的化学计量特征包括元素(碳、氢、氧、氮、硫)和酸性氨基酸与碱性氨基酸的组成和含量。并将计算的化学计量信息进行统计分析和可视化呈现。
[0003]然而现有的研究水平无法对蛋白质序列的化学计量信息进行高通量计算,并且缺乏可视化应用,极大的限制了非生物信息专业以及计算机基础相对薄弱人群对其进行分析,最终制约了生物化学组成领域的研究。因此迫切需要开发一种对海量的蛋白质组序列化学计量大数据计算方法。

技术实现思路

[0004]本专利技术的目的是提供一种高通量分析多物种化学计量蛋白质组的方法。
[0005]本专利技术所提供的高通量分析多物种化学计量蛋白质组的方法,具体可包括如下步骤:
[0006](1)将待测的第一个物种蛋白质组序列文件记为蛋白质组数据A(fasta格式),第二个物种蛋白质组序列或多个物种蛋白质组文件记为蛋白质数据B(fasta格式)......将多个物种(≤8)的数据A、B、C等,放入文件夹in,并新建文件夹out。
[0007](2)对文件夹in中的蛋白质组数据进行蛋白质的元素含量分析,运行Perl脚本1命令“perl coun4protein.pl in out”,得到out文件夹中的蛋白质组元素、酸碱氨基酸含量数据D(output1.xls)和蛋白质组元素的平均含量数据E(output2.xls)文件。
[0008]进一步地,本专利技术中所述Perl脚本1具体为:count4protein.pl
[0009][0010][0011][0012][0013][0014][0015][0016][0017][0018][0019](3)将元素、酸碱氨基酸数据D进行可视化展示,运行R脚本1命令(在UNIX/Linux/MacOSX系统运行:“Rscript protein

小提琴图.R”;或在windows的R或Rstudio直接运行:protein

小提琴图.R),得到像小提琴的元素含量分布比较图。
[0020]进一步地,本专利技术中所述R脚本1具体为:protein

小提琴图.R
[0021][0022][0023](4)将元素含量的比较分析数据E进行可视化展示,运行R脚本2命令(在UNIX/Linux/MacOSX系统运行:Rscript protein

南丁格尔玫瑰图

柱状图.R;或在windows的R或Rstudio直接运行:protein

南丁格尔玫瑰图

柱状图.R),得到元素平均含量可视化

南丁格尔玫瑰图和柱状图。
[0024]进一步地,本专利技术中所述R脚本2具体为:protein

南丁格尔玫瑰图

柱状图.R
[0025][0026][0027]在本专利技术中,步骤(1)中的所述待测物种为任意的物种,蛋白质组序列可以通过从已公开的蛋白质组数据库中下载或通过全蛋白质组测序得到。
[0028]本专利技术具有以下优点:一是,能够快速地计算多个物种蛋白质组化学计量分析的结果,各参数较为全面和准确,效果好,速度快;二是比较系统,效率高,自动化,能够实验多个物种蛋白质组之间的比较分析,批量处理数据;三是本专利技术将Perl语言脚本编程与几个R语言脚本编程完美流畅的结合起来,实现了软件之间的良好衔接和数据的可视化。
附图说明
[0029]图1为本专利技术批量分析化学计量蛋白质组的流程图;
[0030]图2为步骤(3)中R脚本1对元素、酸碱氨基酸数据D的可视化图示,小提琴的元素含量分布比较图;
[0031]图3为步骤(4)中R脚本2对元素含量的比较分析数据E的可视化图示,元素平均含量可视化

南丁格尔玫瑰图和柱状图。
具体实施方式
[0032]下面将通过以下蛋白质组数据,包括:枯草杆菌(Bacillus subtilis_PS216),大肠杆菌(Escherichia coli),嗜盐杆菌(Halobacterium_sp._CBA1126),酿酒酵母(Saccharomyces cerevisiae)的蛋白质组作为本专利技术的例子,更详细地说明本专利技术。其数据下载于NCBI数据库(https://www.ncbi.nlm.nih.gov)。
[0033]本专利技术所提供的批量分析化学计量基因组的流程图见图1,具体包括如下步骤:
[0034](1)将待测的第一个物种蛋白质组序列文件记为蛋白质组数据A(fasta),第二个物种蛋白质组序列或多个物种蛋白质组文件记为蛋白质组数据B(fasta)......将多个物种(≤8)的数据A、B、C等,放入文件夹in,并新建文件夹out。
[0035](2)在Linux系统下操作,安装perl软件。首先,对文件夹in中的蛋白质组数据进蛋白质组的元素含量分析,运行Perl脚本1命令“perl coun4protein.pl in out”。此步骤将得到out文件夹中的2个文件,分别为元素、酸碱氨基酸数据D(output1.xls)和元素含量的比较分析数据E(output2.xls)文件。
[0036]进一步地,本专利技术中所述Perl脚本1具体为:count4protein.pl
[0037][0038][0039][0040][0041][0042][0043][0044][0045][0046][0047]进一步地,本专利技术中所述D(output1.xls)文件格式具体为:
[0048][0049]进一步地,本专利技术中所述E(output2.xls)文件格式具体为:
[0050][0051](3)将元素、酸碱氨基酸数据D进行可视化展示,运行R脚本1命令(在UNIX/Linux/MacOSX系统运行:“Rscript protein

小提琴图.R”;或在windows的R或Rstudio直接运行:protein

小提琴图.R),得到元素、酸碱氨基酸分布图如图2所示。图2展示了枯草杆菌(Bacillus subtilis_PS216),大肠杆菌(Escherichia coli),嗜盐杆菌(Halobacterium_sp._CBA1126),酿酒酵母(Saccharomyces cerevisiae)的蛋白质组的元素(C、H、O、N、S)含量分布。
[0052]进一步地,本专利技术中所述R脚本1具体为:protein本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种高通量分析多物种化学计量蛋白质组的方法,包括如下流程步骤:(1)将待测的第一个物种蛋白质组序列文件记为蛋白质数据A(fasta格式),第二个物种蛋白质组序列或多个物种基因组文件记为蛋白质数据B(fasta格式)......将多个物种(≤8)的数据A、B、C等,放入文件夹in,并新建文件夹out。(2)对文件夹in中的蛋白质组数据进行元素含量分析,运行Perl脚本1命令“perl coun4protein.pl in out”,得到out文件夹中的元素、酸性氨基酸数据D(outputl.xls)和元素含量的比较分析数据E(output2.xls)文件。(3)将蛋白质组元素、酸性氨基酸数据D(进行可视化展示,运行R脚本1命令(在UNIX/Linux/MacOSX系统运行:“Rscript protein

小提琴图.R”;或在windows的R或Rstudio直接运行:protein

小提琴图.R),得到像小提琴的元素、酸碱氨基酸分布图。(4)将蛋白质组元素含量的比较分析数据E进行可视化展示,...

【专利技术属性】
技术研发人员:张玉娟仇鑫
申请(专利权)人:重庆师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1