System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种构建多物种单细胞测序数据库的方法、设备和介质技术_技高网

一种构建多物种单细胞测序数据库的方法、设备和介质技术

技术编号:41066452 阅读:2 留言:0更新日期:2024-04-24 11:20
本发明专利技术公开了一种构建多物种单细胞数据库的方法、设备和介质,属于生物信息学技术领域。所述方法包括以下步骤:获得多个物种、多种疾病状态、多种器官类型样本的单细胞测序数据;获得单细胞测序数据的rData格式存储文件;采用提取关键信息以及更改存储格式的方式对每个样本的信息进行优化;构建统一用于检索信息的单细胞数据库。利用本发明专利技术的方法构建多物种单细胞数据库,检索速度快,并且支持在线数据库的再分析、数据可视化和绘图等功能,应用范围广。

【技术实现步骤摘要】

本专利技术属于生物信息学,具体地,涉及一种构建多物种单细胞测序数据库的方法、设备和介质


技术介绍

1、随着单细胞测序技术的推广,越来越多类型的单细胞数据不断被测序得到,例如不同物种、不同组织类型、不同疾病状态以及应用不同实验技术的样本等通过单细胞测序实现了细胞图谱的研究和细胞内基因表达差异的检测。大量基于单细胞技术的研究论文已经发表,甚至原始测序数据已经公开,但由于样本来源分布过于分散、数据资源整合程度低,大量信息无法共享,造成宝贵的科研数据无法得到充分的的利用。因此,搭建有效且稳健的单细胞数据库是非常有必要的,给研究者提供信息检索、数据分析等便捷工具,充分发挥单细胞数据的再研究价值。

2、目前已有的单细胞数据库物种类型覆盖少,往往只有人和小鼠等少数物种信息;另外,收录的细胞数量偏少,往往低于或接近一百万个细胞信息;并且收录的组织类型和组织对应的疾病类型也偏少。构建数据库所需的数据来源分散、工作量大,且源数据格式多样,需要统一的整合逻辑,整体工作难度大。此外,对于源数据rdata文件读取的速度限制了数据库检索功能的流畅度。不仅限于此,已整合的大部分数据库仅支持检索功能,不支持单细胞数据再挖掘的分析功能,诸如细胞注释、细胞比率分析、基因表达分布等可视化分析模等,极大地限制了数据的应用范围和深度。


技术实现思路

1、为了解决上述技术问题中的至少一个,本专利技术采用的技术方案如下:

2、本专利技术第一方面提供一种构建多物种单细胞数据库的方法,包括以下步骤:>

3、s1,获得多个物种、多种疾病状态、多种器官类型样本的单细胞测序数据;

4、s2,获得单细胞测序数据的rdata格式存储文件:

5、对于仅有fastq文件的单细胞测序数据,利用seurat包进行标准处理,得到rdata格式存储文件;

6、s3,采用提取关键信息以及更改存储格式的方式对每个样本的信息进行优化:

7、s31,提取元数据表格;在seurat对象中,metadata(元数据)是存储有关单细胞数据的附加信息的关键部分。元数据可以包括每个细胞的实验条件、样本来源、细胞类型等信息。

8、s32,提取降维坐标信息;在seurat对象中,降维坐标信息存储在cell embedding中,包含了已采用的不同降维方法的结果,如pca、umap、tsne等。

9、s33,提取基因名称,获取样本中所有基因的名称以及索引位置;

10、s34,利用hdf5包将基因表达量转换为hdf5格式。基因表达数据一般存储在seurat对象中,assay是一个存储表达数据的关键对象。一个seurat对象可以包含多个assay,每个assay对应于不同的表达数据集。

11、s4,构建统一用于检索信息的单细胞数据库。主要存储数据集中样本信息、组织信息、疾病状态、文献来源等关系。

12、进一步还包括在线平台可视化步骤:应用r语言包ggplot2、shiny搭建在线可视化的云平台,主要构建包括数据库检索,密度分布图、细胞降维信息分布图、基因表达分布图、基因共表达分布图、基因平均表达图、细胞比例统计图等功能的在线可视化平台。

13、在本专利技术的一些实施方案中,所述单细胞测序数据可以来源于公开资源,也可以是自行测序获得。

14、在本专利技术的一些具体实施方案中,示例性获得单细胞测序数据的方法为:

15、(1)从ncbipubmed等文献检索网站上获取已发表的单细胞测序相关的文献,下载公开的单细胞测序数据;

16、(2)从已收录单细胞数据库的网站中获取,包括但不限于小鼠单细胞数据集数据库mca(https://bis.zju.edu.cn/mca/)、人单细胞数据库hca(https://data.humancellatlas.org/)、猪单细胞数据库pca(https://dreamapp.biomed.au.dk/pigatlas/)。

17、在本专利技术中,包括多个物种包括但不限于:人、食蟹猴、大鼠、小鼠、家猪、鸡、拟南芥、玉米;所述多种疾病状态包括但不限于:炎症、癌、正常;所述多种器官类型包括但不限于:外周血、肺、脑、肝、肾、肌肉、脂肪、肠道。

18、在本专利技术步骤s2中,对于仅有fastq文件的单细胞测序数据的处理步骤具体如下:

19、s21,数据过滤:获得单细胞测序数据,过滤低质量数据;

20、s22,数据标准化:对表达矩阵进行标准化;

21、s23,降维聚类:利用主成分分析进行降维,利用findclusters进行细胞聚类;

22、s24,细胞注释:使用细胞特异性基因对细胞簇进行标注,生成并查看细胞类型的表达特征。

23、s26,将分析结果保存为rdata格式存储文件。

24、传统的rdata存储数据格式占用内存较大,在数据加载过程中读取效率低,上述方法提取rdata关键信息更改为hdf5存储格式,使信息读取效率得到优化,大幅提高数据检索速度。

25、在本专利技术的一些具体实施方案中,在步骤s21中,过滤参数为:

26、nfeature_rna>500并且nfeature_rna<2500。

27、由于不同组织类型在不同的实验条件下,甚至操作人员的手法差异等因素,可能会产生细胞特性的差异,因此本专利技术的一些实施方案中,涉及到的细胞过滤参数需要根据具体情况进行调整。在本专利技术的一些特定实施方案中,对于样本中细胞本身rna含量和复杂度低(表达的基因数目小于200个)的样本,如骨髓、血液样本含中性粒细胞这类情况的样本,过滤参数为:

28、nfeature_rna>200并且nfeature_rna<2500。

29、在本专利技术的一些实施方案中,在步骤s22中,利用lognormalize或normalizedata函数对表达矩阵进行标准化。默认情况下,seurat使用global-scaling的归一化方法,称为“lognormalize”,这种方法是利用总的表达量对每个细胞里的基因表达值进行归一化,乘以一个scale factor(默认值是10000),再用log转换一下。

30、在本专利技术的一些实施方案中,在步骤s23中,进一步包括利用t-sne或umap进行降维可视化。

31、本专利技术第二方面提供一种计算机设备,包括:

32、存储器,用于存储计算机程序;

33、处理器,用于执行所述计算机程序时实现如本专利技术第一方面任一所述的构建多物种单细胞数据库的方法的步骤。

34、本专利技术第三方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如本专利技术第一方面任一所述的构建多物种单细胞数据库的方法的步骤。

35、本专利技术的有益效果

36、相本文档来自技高网...

【技术保护点】

1.一种构建多物种单细胞数据库的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种构建多物种单细胞数据库的方法,其特征在于,步骤S2中,对于仅有fastq文件的单细胞测序数据的处理步骤具体如下:

3.根据权利要求2所述的一种构建多物种单细胞数据库的方法,其特征在于,在步骤S21中,过滤参数为:

4.根据权利要求3所述的一种构建单细胞数据库的方法,其特征在于,对于样本中细胞本身RNA含量和复杂度低的样本,过滤参数为:

5.根据权利要求2所述的一种构建单细胞数据库的方法,其特征在于,在步骤S23中,进一步包括利用t-SNE或UMAP进行降维可视化。

6.一种计算机设备,其特征在于,包括:

7.一种计算机可读存储介质,其特征在于,

【技术特征摘要】

1.一种构建多物种单细胞数据库的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种构建多物种单细胞数据库的方法,其特征在于,步骤s2中,对于仅有fastq文件的单细胞测序数据的处理步骤具体如下:

3.根据权利要求2所述的一种构建多物种单细胞数据库的方法,其特征在于,在步骤s21中,过滤参数为:

4.根据权利要...

【专利技术属性】
技术研发人员:蒋建国毛维康陈翰林
申请(专利权)人:杭州联川生物技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1