基于无参转录组测序来确定差异基因通路的方法及系统技术方案

技术编号:33066138 阅读:13 留言:0更新日期:2022-04-15 09:56
本发明专利技术公开了一种基于无参转录组测序来确定差异基因通路的方法及系统,其中方法包括:获取包括多个基因差异的差异基因列表,并且获取预先生成的去除重复基因序列的基因序列文件;对所述基因序列文件进行解析以确定多个基因序列,为所述多个基因序列中的每个基因进行通路注释,从而生成经过注释的基因序列文件;根据经过注释的基因序列文件中每个基因的通路注释,为所述差异基因列表中的每个基因数据项添加注释信息;以及对所述差异基因列表中每个基因数据项的注释信息进行富集处理,以获得经过富集的多个基因通路,从经过富集的多个基因通路选择多个目标基因通路,将每个目标基因通路作为差异基因通路从而获得多个差异基因通路。因通路。因通路。

【技术实现步骤摘要】
基于无参转录组测序来确定差异基因通路的方法及系统


[0001]本专利技术涉及生物信息分析
,并且更具体地,涉及基于无参转录组测序来确定差异基因通路的方法及系统。

技术介绍

[0002]转录组测序技术是指已知特定生物样品的状态下,针对细胞所转录出的信使核糖核酸mRNA进行测序,并比较样品间的基因差异表达。无参转录组分析指针对还没有获得可靠参考基因组的物种所进行的转录组分析。在分析过程中,最重要的就是差异基因的通路分析,包括:通路的注释、富集以及绘图。
[0003]京都基因与基因组百科全书(KEGG,Kyoto Encyclopedia of Genes and Genomes)数据库(https://www.kegg.jp/)是一个整合了基因组、化学和系统功能信息的数据库。KEGG数据库通常被用作基因的通路注释。在获得差异表达的基因后,往往需要通过比对KEGG数据库,使差异表达的基因富集于不同的通路中。结果的展示需要在KEGG通路图中使用不同的颜色来标注差异变化基因,从而方便对结果的解读。
[0004]在现有的方法中,KEGG注释和富集是转录组分析的标准处理过程。然而,对于无参转录组的KEGG富集往往还需要选择参考的物种信息,因此对于一些没有参考基因组的物种不具备普适性。并且,在KEGG富集通路图绘制的步骤中,主要通过KEGG变换器mapper等线上工具绘制。但是这些工具存在需要手动标注差异基因、通量低、以及在结果图片查看时需要再次查询基因信息等缺点。

技术实现思路

[0005]本专利技术为了克服现有技术中的无参转录组差异基因通路富集分析方法的缺陷,提供一种针对无参转录组的、高通量的、能够获得高质量的KEGG通路富集图的方法。本专利技术的目的是解决无参转录组差异基因通路富集依赖于参考基因组,以及KEGG富集图绘制中低通量,手动操作的低效率问题,实现了高通量,自动高效的无参转录组KEGG富集和通路图绘制。
[0006]为了解决现有技术中的问题,本专利技术提供一种基于无参转录组测序来确定差异基因通路的方法,所述方法包括:
[0007]对来自未确定参考基因组的物种样品的差异基因进行转录组分析,以获取包括多个基因差异的差异基因列表,并且获取预先生成的去除重复基因序列的基因序列文件;
[0008]对所述基因序列文件进行解析以确定多个基因序列,为所述多个基因序列中的每个基因进行通路注释,从而生成经过注释的基因序列文件;
[0009]根据经过注释的基因序列文件中每个基因的通路注释,为所述差异基因列表中的每个基因数据项添加注释信息;以及
[0010]对所述差异基因列表中每个基因数据项的注释信息进行富集处理,以获得经过富集的多个基因通路,从经过富集的多个基因通路选择多个目标基因通路,将每个目标基因
通路作为差异基因通路从而获得多个差异基因通路。
[0011]所述基因序列文件的格式为基于文本的并且用于表示核苷酸序列或氨基酸序列的格式。
[0012]其中为所述多个基因序列中的每个基因进行通路注释包括:
[0013]为所述多个基因序列中的每个基因确定基因标识编号和基因通路编号,以实现对每个基因进行通路注释。
[0014]还包括,在差异基因列表中的所有基因数据项中去除重复的基因数据项。
[0015]还包括,在经过注释的基因序列文件中的所有基因序列去除重复的基因序列。
[0016]所述从经过富集的多个基因通路选择多个目标基因通路包括:
[0017]根据可信度对经过富集的多个基因通路中每个基因通路进行降序排序,以生成降序序列,从降序序列中选择可信度最大的预定数量的基因通路作为目标基因通路。
[0018]还包括,根据所述差异基因列表和经过注释的基因序列文件生成基因通路的点状图;
[0019]在所述点状图中,横坐标代表基因数量和可靠度的富集程度,并且纵坐标代表所富集的基因通路的描述;以及
[0020]在所述点状图中,利用点的尺寸来指示基因数量的大小,并且利用点的颜色来代表富集的可信度。
[0021]还包括,对所述差异基因列表中每个基因数据项的注释信息进行富集处理,从而生成富集文件;
[0022]从富集文件的通路注释中提取基因标识编号和基因通路编号,以生成通路列表文件;
[0023]根据通路列表文件中的基因标识编号确定差异基因;
[0024]根据差异基因的标识符在差异基因列表中确定所述差异基因的变化倍数和可信度;以及
[0025]根据差异基因的变化倍数和可信度为差异基因确定标识符号,以生成经过标识的差异基因列表。
[0026]其中根据差异基因的变化倍数和可信度为差异基因确定标识符号包括:
[0027]为变化倍数大于1并且可信度小于0.05的差异基因分配第一类型的标识符号;以及
[0028]为变化倍数小于-1并且可信度小于0.05的差异基因分配第二类型的标识符号。
[0029]还包括,对所述差异基因列表中每个基因数据项的注释信息进行富集处理,从而生成富集文件;
[0030]对富集文件进行解析以确定基因通路图,并确定与基因通路图相对应的网页配置文件;
[0031]将基因通路图中每个基因通路的基因标识编号与差异基因列表中相应的差异基因的标识编号建立关联关系;
[0032]根据关联关系在基因通路图中为差异基因确定在网页配置文件中的坐标;
[0033]根据经过标识的差异基因列表中差异基因的标识符号,在每个差异基因的坐标位置处对差异基因进行标识,以生成通路富集图;
[0034]其中在通路富集图中,每个差异基因的坐标位置为像素图标;或者,在通路富集图中,每个差异基因的坐标位置为网页链接。
[0035]根据本专利技术的另一方面,提供一种基于无参转录组测序来确定差异基因通路的系统,所述系统包括:
[0036]分析装置,对来自未确定参考基因组的物种样品的差异基因进行转录组分析,以获取包括多个基因差异的差异基因列表,并且获取预先生成的去除重复基因序列的基因序列文件;
[0037]注释装置,对所述基因序列文件进行解析以确定多个基因序列,为所述多个基因序列中的每个基因进行通路注释,从而生成经过注释的基因序列文件;
[0038]添加装置,根据经过注释的基因序列文件中每个基因的通路注释,为所述差异基因列表中的每个基因数据项添加注释信息;以及
[0039]处理装置,对所述差异基因列表中每个基因数据项的注释信息进行富集处理,以获得经过富集的多个基因通路,从经过富集的多个基因通路选择多个目标基因通路,将每个目标基因通路作为差异基因通路从而获得多个差异基因通路。
[0040]所述基因序列文件的格式为基于文本的并且用于表示核苷酸序列或氨基酸序列的格式。
[0041]其中注释装置为所述多个基因序列中的每个基因进行通路注释包括:
[0042]注释装置为所述多个基因序列中的每个基因确定基因标识编号和基因通路编号,以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于无参转录组测序来确定差异基因通路的方法,所述方法包括:对来自未确定参考基因组的物种样品的差异基因进行转录组分析,以获取包括多个基因差异的差异基因列表,并且获取预先生成的去除重复基因序列的基因序列文件;对所述基因序列文件进行解析以确定多个基因序列,为所述多个基因序列中的每个基因进行通路注释,从而生成经过注释的基因序列文件;根据经过注释的基因序列文件中每个基因的通路注释,为所述差异基因列表中的每个基因数据项添加注释信息;以及对所述差异基因列表中每个基因数据项的注释信息进行富集处理,以获得经过富集的多个基因通路,从经过富集的多个基因通路选择多个目标基因通路,将每个目标基因通路作为差异基因通路从而获得多个差异基因通路。2.根据权利要求1所述的方法,所述基因序列文件的格式为基于文本的并且用于表示核苷酸序列或氨基酸序列的格式。3.根据权利要求1所述的方法,其中为所述多个基因序列中的每个基因进行通路注释包括:为所述多个基因序列中的每个基因确定基因标识编号和基因通路编号,以实现对每个基因进行通路注释。4.根据权利要求1所述的方法,还包括,在差异基因列表中的所有基因数据项中去除重复的基因数据项。5.根据权利要求1所述的方法,还包括,在经过注释的基因序列文件中的所有基因序列去除重复的基因序列。6.一种基于无参转录组测序来确定差异基因通路的系统...

【专利技术属性】
技术研发人员:田振阳王苹
申请(专利权)人:天津现代创新中药科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1