【技术实现步骤摘要】
细胞数据综合分析系统
[0001]本专利技术涉及细胞数据处理
,具体而言,涉及一种细胞数据综合分析系统。
技术介绍
[0002]对于多细胞生物而言,细胞与细胞之间通常存在着差异,且不同群体细胞间的差异不一。这种差异不仅体现在形态上,也体现在遗传信息上,例如基因组信息、基因表达水平等。随着单细胞RNA测序(scRNA
‑
seq)应用的深入和细化,常常需要对复杂器官开展单细胞测序,单纯对几个细胞做测序不再满足科研需求。即,大规模的单细胞RNA测序已经成为分解单个细胞异质性的强有力的方式。目前,虽然已存在大规模单细胞RNA测序的分析平台(如GranatumX、Cellxgene等分析工具),但是现有的分析平台功能较为单一,仍然缺乏对单细胞转录组数据的前期处理,数据分析缺乏灵活性,从而影响单细胞RNA测序的效率与准确性。
技术实现思路
[0003]有鉴于此,本申请实施例的目的在于提供一种细胞数据综合分析系统,能够改善数据分析缺乏灵活性的问题,有利于提高单细胞RNA测序的效率与准确性。
[0004]为实现上述技术目的,本申请采用的技术方案如下:
[0005]本申请实施例提供了一种细胞数据综合分析系统,所述系统包括:获取模块、过滤模块、批效应消除模块、双胞剔除模块、细胞间通讯分析模块、聚类模块、细胞注释模块及可视化模块;
[0006]所述获取模块获取用户上传的基于单细胞组学产生的第一数据集,所述第一数据集中的数据格式包括tsv格式、txt格式、csv格式、RDS格式 ...
【技术保护点】
【技术特征摘要】
1.一种细胞数据综合分析系统,其特征在于,所述系统包括:获取模块、过滤模块、批效应消除模块、双胞剔除模块、细胞间通讯分析模块、聚类模块、细胞注释模块及可视化模块;所述获取模块获取用户上传的基于单细胞组学产生的第一数据集,所述第一数据集中的数据格式包括tsv格式、txt格式、csv格式、RDS格式及HDF5格式;所述过滤模块在接收到预处理指令时,基于用户设置的用于过滤细胞的指标数据,对所述第一数据集进行过滤,得到第二数据集,所述指标数据包括UMI计数的第一阈值范围、特征基因计数的第二阈值范围、线粒体基因百分比的第三阈值范围和与β
‑
action表达对应的第四阈值范围;所述批效应消除模块调用批效应消除工具,以对所述第二数据集进行批效应消除,得到第三数据集;所述双胞剔除模块通过调用DoubletFinder工具,以对所述第三数据集进行双胞剔除,得到第四数据集;所述细胞间通讯分析模块在接收到用于细胞间通讯分析的第一指令时,从工具库中调用预先设置的CellPhoneDB工具、CellChat工具和Cellcall工具,并通过所述CellPhoneDB工具、所述CellChat工具和所述Cellcall工具确定所述第四数据集中细胞间相互作用的强度和配体受体的差异对,以得到表征细胞间通讯的通讯分析结果;所述聚类模块在接收到用于细胞类型注释的第二指令时,从所述工具库中调用预先设置的降维聚类工具,以对所述第四数据集进行降维聚类,得到聚类后的第五数据集,其中,所述降维聚类工具包括PCA工具、SC3工具、tSNE工具及UMAP工具;所述细胞注释模块通过调用所述工具库中的注释工具,对所述第五数据集进行细胞类型注释,得到注释结果,其中,所述注释工具包括SingleR工具、基于加权最近邻网络算法的图谱注释工具中的任一种;所述可视化模块基于预设可视化策略,对所述通讯分析结果、所述注释结果进行可视化展示。2.根据权利要求1所述的系统,其特征在于,所述系统还包括:选择模块,用于从所述第五数据集中选择期望关注的细胞类型的细胞数据作为待测细胞;评估模块,用于通过预设算法,确定所述待测细胞的指定通路矫正后的F得分;分群获取模块,用于基于所述矫正后的F得分,从所述待测细胞中获取细胞亚类的分群信息;输入模块,用于将从所述待测细胞得到的细胞亚类数据,输入预先创建的单细胞通路富集模块,所述细胞亚类数据包括基因原始表达矩阵、高变基因列表及所述细胞亚类的分群信息;富集分析模块,用于调用所述单细胞通路富集模块中的clusterProfiler工具,将所述细胞亚类数据中的高变基因列表作为输入数据,并进行GO富集分析,得到富集分析结果,所述富集分析结果包括GO富集结果、FDR p
‑
value,以及通路所包含的基因信息。3.根据权利要求2所述的系统,其特征在于,所述预设算法为如下公式:
其中,bg
ratio
指背景值,N
genes in a cell
指所述待测细胞中检测到的基因数量,N
total genes
指样品检测到的基因总数,fg
ratio
指前景值,N
genes from a term in a cell
指所述待测细胞中检测到的指定通路的基因数量,N
total genes of a term
指所述指定通路的全部基因数量,F
score
指所述待测细胞的指定通路的F得分,adjF
score
指所述待测细胞的指定通路矫正后的F得分,Q
term
指通过FDR矫正后的p值,Q
term
由cluster...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。