单细胞转录组R数据中genesymbol的校正方法及系统技术方案

技术编号:37250660 阅读:13 留言:0更新日期:2023-04-20 23:29
本发明专利技术公开了一种单细胞转录组R数据中gene symbol的校正方法及系统,其方法包括以下步骤:获取参考基因组原始基因表,根据预设gene symbol替换条件,将所述参考基因组原始基因表中的gene symbol进行转换,生成目标对照表;获取Seurat分析包中的单细胞转录组R对象数据,根据所述R对象数据的数据存储类型调用对应的函数;在每一种函数中,根据目标对照表中的gene symbol校正R对象数据中的gene symbol;通过调用不同类型的函数来针对性的对R对象数据进行校正,可有效提高单细胞转录组R对象数据中gene symbol的准确性,提高流程的连贯性以及避免代码冗余。连贯性以及避免代码冗余。连贯性以及避免代码冗余。

【技术实现步骤摘要】
单细胞转录组R数据中gene symbol的校正方法及系统


[0001]本专利技术涉及生物信息
,特别涉及一种单细胞转录组R数据中gene symbol的校正方法及系统。

技术介绍

[0002]自2009年单细胞高通量测序首次提出以来,单细胞转录组的研究热度与日俱增,单细胞转录组数据结构规模也成爆炸性增长,对于数据分析的速度和准确性的要求也越来越高;其中,单细胞转录组为把每个单细胞单独分出来去提取RNA,然后建库测序,获得是单个细胞的总体特征;单细胞转录组数据结构是指在单细胞转录组数据分析中,用于记录每个细胞或基因信息的数据结构。
[0003]现阶段有很多集成的工具可以用于单细胞转录组数据的分析,比如Seurat等;Seurat工具将不同数据处理分析后的数据存储到R数据对象中,但是由于Seurat包对数据中gene symbol(基因名/基因符号)处理的局限性,这些R数据对象中的gene symbol会被程序修改,比如下划线被替换为短横线,使得后续分析使用的gene symbol和原始参考基因组中的不一致,导致误读。且在不同分析结果中的R对象数据中的数据内容及格式并不是完全一致的,如果进行人为校正,很容易出错导致流程中断,并且也会增加流程代码冗余。

技术实现思路

[0004]本专利技术的提供一种单细胞转录组R数据中gene symbol的校正方法及系统,通过调用不同类型的函数来针对性的对R对象数据进行校正,可有效提高单细胞转录组R对象数据中gene symbol的准确性,提高流程的连贯性以及避免代码冗余。
[0005]第一方面,提供一种单细胞转录组R数据中gene symbol的校正方法,包括以下步骤:
[0006]获取参考基因组原始基因表,根据预设gene symbol替换条件,将所述参考基因组原始基因表中的gene symbol进行转换,生成目标对照表;
[0007]获取Seurat分析包中的单细胞转录组R对象数据,根据所述R对象数据的数据存储类型调用对应的函数;
[0008]在每一种函数中,根据目标对照表中的gene symbol校正R对象数据中的gene symbol。
[0009]根据第一方面,在第一方面的第一种可能的实现方式中,所述“获取单细胞转录组R对象数据,根据所述R对象数据的数据存储类型调用对应的函数;在每一种函数中,根据目标对照表中的gene symbol校正R对象数据中的gene symbol”步骤,具体包括以下步骤:
[0010]当R对象数据的数据存储类型为S4对象数据时,则调用Rename Genes Seurat函数、根据目标对照表中的gene symbol校正S4对象数据中的gene symbol;
[0011]当R对象数据的数据存储类型为矩阵格式数据时,则调用Rename Genes Matrix函数、根据目标对照表中的gene symbol校正矩阵格式数据中的gene symbol;
[0012]当R对象数据的数据存储类型为Cell Data Set对象数据时,则调用Rename Genes Cell Data Set函数、根据目标对照表中的gene symbol校正Cell Data Set对象数据中的gene symbol;
[0013]当R对象数据的数据存储类型为newick格式树文件数据时,则调用Rename Tree函数、根据目标对照表中的gene symbol校正newick格式树文件数据中的gene symbol。
[0014]根据第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述“当R对象数据的数据存储类型为S4对象数据时,则调用Rename Genes Seurat函数、根据目标对照表中的gene symbol校正S4对象数据中的gene symbol”步骤,具体包括以下步骤:
[0015]在S4对象数据中选取assay数据;
[0016]当所述assay数据中包括有基础分析数据时,则根据目标对照表中的gene symbol校正基础分析数据中的gene symbol。
[0017]根据第一方面的第一种可能的实现方式,在第一方面的第三种可能的实现方式中,所述“当R对象数据的数据存储类型为矩阵格式数据时,则调用Rename Genes Matrix函数、根据目标对照表中的gene symbol校正矩阵格式数据中的gene symbol”步骤,具体包括以下步骤:
[0018]根据ncol参数在矩阵格式数据中选取包含有gene symbol的gene symbol列;
[0019]根据目标对照表中的gene symbol校正所述gene symbol列;
[0020]根据if_rownames参数判断所述矩阵格式数据的矩阵行名是否为gene symbol;若是,则根据目标对照表中的gene symbol校正矩阵行名。
[0021]根据第一方面的第一种可能的实现方式,在第一方面的第四种可能的实现方式中,所述“当R对象数据的数据存储类型为Cell Data Set对象数据时,则调用Rename Genes Cell Data Set函数、根据目标对照表中的gene symbol校正Cell Data Set对象数据中的gene symbol”步骤,具体包括以下步骤:
[0022]判断Cell Data Set对象数据中是否有基因属性数据;若是,则根据目标对照表中的gene symbol校正基因属性数据中的gene symbol。
[0023]根据第一方面的第一种可能的实现方式,在第一方面的第五种可能的实现方式中,所述“当R对象数据的数据存储类型为newick格式树文件数据时,则调用Rename Tree函数、根据目标对照表中的gene symbol校正newick格式树文件数据中的gene symbol”步骤,具体包括以下步骤:
[0024]根据目标对照表中的gene symbol校正newick格式树文件数据的树末端标签中的gene symbol。
[0025]第二方面,提供一种单细胞转录组R数据中gene symbol的校正系统,包括:
[0026]对照表生成模块,用于获取参考基因组原始基因表,根据预设gene symbol替换条件,将所述参考基因组原始基因表中的gene symbol进行转换,生成目标对照表;
[0027]函数调用模块,用于获取Seurat分析包中的单细胞转录组R对象数据,根据所述R对象数据的数据存储类型调用对应的函数;
[0028]校正模块,与所述对照表生成模块及所述函数调用模块通信连接,用于在每一种函数中,根据目标对照表中的gene symbol校正R对象数据中的gene symbol。
[0029]与现有技术相比,本专利技术的优点如下:首先获取参考基因组原始基因表,根据预设gene symbol替换条件,将所述参考基因组原始基因表中的gene s本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种单细胞转录组R数据中gene symbol的校正方法,其特征在于,包括以下步骤:获取参考基因组原始基因表,根据预设gene symbol替换条件,将所述参考基因组原始基因表中的gene symbol进行转换,生成目标对照表;获取Seurat分析包中的单细胞转录组R对象数据,根据所述R对象数据的数据存储类型调用对应的函数;在每一种函数中,根据目标对照表中的gene symbol校正R对象数据中的gene symbol。2.如权利要求1所述的单细胞转录组R数据中gene symbol的校正方法,其特征在于,所述“获取单细胞转录组R对象数据,根据所述R对象数据的数据存储类型调用对应的函数;在每一种函数中,根据目标对照表中的gene symbol校正R对象数据中的gene symbol”步骤,具体包括以下步骤:当R对象数据的数据存储类型为S4对象数据时,则调用Rename Genes Seurat函数、根据目标对照表中的gene symbol校正S4对象数据中的gene symbol;当R对象数据的数据存储类型为矩阵格式数据时,则调用Rename Genes Matrix函数、根据目标对照表中的gene symbol校正矩阵格式数据中的gene symbol;当R对象数据的数据存储类型为Cell Data Set对象数据时,则调用Rename Genes Cell Data Set函数、根据目标对照表中的gene symbol校正Cell Data Set对象数据中的gene symbol;当R对象数据的数据存储类型为newick格式树文件数据时,则调用Rename Tree函数、根据目标对照表中的gene symbol校正newick格式树文件数据中的gene symbol。3.如权利要求2所述的单细胞转录组R数据中gene symbol的校正方法,其特征在于,所述“当R对象数据的数据存储类型为S4对象数据时,则调用Rename Genes Seurat函数、根据目标对照表中的gene symbol校正S4对象数据中的gene symbol”步骤,具体包括以下步骤:在S4对象数据中选取assay数据;当所述assay数据中包括有基础分析数据时,则根据目标对照表中的gene symbol校正基础分析数据中的gene symbol。4.如权利要求2所述的单细胞转录组R数据中gene symb...

【专利技术属性】
技术研发人员:舒明月白洁石明明
申请(专利权)人:深圳华大基因科技服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1