当前位置: 首页 > 专利查询>金凤实验室专利>正文

细胞数据综合分析系统技术方案

技术编号:39240114 阅读:9 留言:0更新日期:2023-10-30 11:52
本申请提供一种细胞数据综合分析系统,涉及细胞数据处理技术领域。该系统包括获取模块、过滤模块、批效应消除模块、双胞剔除模块、细胞间通讯分析模块、聚类模块、细胞注释模块及可视化模块。其中,获取模块、过滤模块、批效应消除模块、双胞剔除模块可以对基于单细胞组学产生的数据集进行各类预处理操作,如进行细胞滤除、批效应消除、双胞剔除等,而通过预处理操作可以提高数据的有效性与可靠性。另外,细胞间通讯分析模块、聚类模块、细胞注释模块及可视化模块,能够支持细胞通讯分析、降维聚类、细胞注释、可视化显示等处理操作,能丰富分析功能,提高数据分析的灵活性,进而有利于提高数据分析的效率。数据分析的效率。数据分析的效率。

【技术实现步骤摘要】
细胞数据综合分析系统


[0001]本专利技术涉及细胞数据处理
,具体而言,涉及一种细胞数据综合分析系统。

技术介绍

[0002]对于多细胞生物而言,细胞与细胞之间通常存在着差异,且不同群体细胞间的差异不一。这种差异不仅体现在形态上,也体现在遗传信息上,例如基因组信息、基因表达水平等。随着单细胞RNA测序(scRNA

seq)应用的深入和细化,常常需要对复杂器官开展单细胞测序,单纯对几个细胞做测序不再满足科研需求。即,大规模的单细胞RNA测序已经成为分解单个细胞异质性的强有力的方式。目前,虽然已存在大规模单细胞RNA测序的分析平台(如GranatumX、Cellxgene等分析工具),但是现有的分析平台功能较为单一,仍然缺乏对单细胞转录组数据的前期处理,数据分析缺乏灵活性,从而影响单细胞RNA测序的效率与准确性。

技术实现思路

[0003]有鉴于此,本申请实施例的目的在于提供一种细胞数据综合分析系统,能够改善数据分析缺乏灵活性的问题,有利于提高单细胞RNA测序的效率与准确性。
[0004]为实现上述技术目的,本申请采用的技术方案如下:
[0005]本申请实施例提供了一种细胞数据综合分析系统,所述系统包括:获取模块、过滤模块、批效应消除模块、双胞剔除模块、细胞间通讯分析模块、聚类模块、细胞注释模块及可视化模块;
[0006]所述获取模块获取用户上传的基于单细胞组学产生的第一数据集,所述第一数据集中的数据格式包括tsv格式、txt格式、csv格式、RDS格式及HDF5格式;
[0007]所述过滤模块在接收到预处理指令时,基于用户设置的用于过滤细胞的指标数据,对所述第一数据集进行过滤,得到第二数据集,所述指标数据包括UMI计数的第一阈值范围、特征基因计数的第二阈值范围、线粒体基因百分比的第三阈值范围和与β

action表达对应的第四阈值范围;
[0008]所述批效应消除模块调用批效应消除工具,以对所述第二数据集进行批效应消除,得到第三数据集;
[0009]所述双胞剔除模块通过调用DoubletFinder工具,以对所述第三数据集进行双胞剔除,得到第四数据集;
[0010]所述细胞间通讯分析模块在接收到用于细胞间通讯分析的第一指令时,从工具库中调用预先设置的CellPhoneDB工具、CellChat工具和Cellcall工具,并通过所述CellPhoneDB工具、所述CellChat工具和所述Cellcall工具确定所述第四数据集中细胞间相互作用的强度和配体受体的差异对,以得到表征细胞间通讯的通讯分析结果;
[0011]所述聚类模块在接收到用于细胞类型注释的第二指令时,从所述工具库中调用预先设置的降维聚类工具,以对所述第四数据集进行降维聚类,得到聚类后的第五数据集,其
中,所述降维聚类工具包括PCA工具、SC3工具、tSNE工具及UMAP工具;
[0012]所述细胞注释模块通过调用所述工具库中的注释工具,对所述第五数据集进行细胞类型注释,得到注释结果,其中,所述注释工具包括SingleR工具、基于加权最近邻网络算法的图谱注释工具中的任一种;
[0013]所述可视化模块基于预设可视化策略,对所述通讯分析结果、所述注释结果进行可视化展示。
[0014]在一些可选的实施方式中,所述系统还包括:
[0015]选择模块,用于从所述第五数据集中选择期望关注的细胞类型的细胞数据作为待测细胞;
[0016]评估模块,用于通过预设算法,确定所述待测细胞的指定通路矫正后的F得分;
[0017]分群获取模块,用于基于所述矫正后的F得分,从所述待测细胞中获取细胞亚类的分群信息;
[0018]输入模块,用于将从所述待测细胞得到的细胞亚类数据,输入预先创建的单细胞通路富集模块,所述细胞亚类数据包括基因原始表达矩阵、高变基因列表及所述细胞亚类的分群信息;
[0019]富集分析模块,用于调用所述单细胞通路富集模块中的clusterProfiler工具,将所述细胞亚类数据中的高变基因列表作为输入数据,并进行GO富集分析,得到富集分析结果,所述富集分析结果包括GO富集结果、FDR p

value,以及通路所包含的基因信息。
[0020]在一些可选的实施方式中,所述预设算法为如下公式:
[0021][0022][0023][0024][0025]其中,bg
ratio
指背景值,N
genes in a cell
指所述待测细胞中检测到的基因数量,N
total genes
指样品检测到的基因总数,fg
ratio
指前景值,N
genes from a term in a cell
指所述待测细胞中检测到的指定通路的基因数量,N
total genes of a term
指所述指定通路的全部基因数量,F
score
指所述待测细胞的指定通路的F得分,adjF
score
指所述待测细胞的指定通路矫正后的F得分,Q
term
指通过FDR矫正后的p值,Q
term
由clusterProfiler工具计算获得。
[0026]在一些可选的实施方式中,所述系统还包括:
[0027]发育轨迹预测模块,用于在接收到用于轨迹预测的第三指令时,通过从所述工具库中调用预先设置的轨迹预测工具,并通过所述轨迹预测工具确定所述第四数据集中的细胞的发育轨迹,其中,所述轨迹预测工具包括Monocle2工具或SPRING工具。
[0028]在一些可选的实施方式中,所述聚类模块还用于从所述工具库中调用所述PCA工具,并通过所述PCA工具对所述第四数据集进行降维,得到降维后的第四数据集,以及从所述工具库中调用所述SC3工具,并通过所述SC3工具对所述降维后的第四数据集进行聚类,得到所述第五数据集;
[0029]所述可视化模块还用于从所述工具库中调用所述tSNE工具或所述UMAP工具,对所述第五数据集进行可视化展示;
[0030]所述细胞注释模块还用于通过调用所述SingleR工具,根据参考细胞类型的转录组数据对所述第五数据集中的细胞进行细胞类型注释,得到所述注释结果,或者,通过调用所述图谱注释工具,基于加权最近邻网络算法,将所述第五数据集中与细胞对应的scRNA

seq数据映射到预先经过注释的单细胞转录组图谱上,得到所述注释结果。
[0031]在一些可选的实施方式中,所述过滤模块还用于:
[0032]基于用户通过第一条形滑动按钮设置的UMI计数的所述第一阈值范围,滤除所述第一数据集中UMI计数未在所述第一阈值范围内的数据;
[0033]基于用户通过第二条形滑动按钮设置的特征基因计数的所述第二阈值范围,滤除所述第一数据集中特征基因计数未在所述第二阈值范围内的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种细胞数据综合分析系统,其特征在于,所述系统包括:获取模块、过滤模块、批效应消除模块、双胞剔除模块、细胞间通讯分析模块、聚类模块、细胞注释模块及可视化模块;所述获取模块获取用户上传的基于单细胞组学产生的第一数据集,所述第一数据集中的数据格式包括tsv格式、txt格式、csv格式、RDS格式及HDF5格式;所述过滤模块在接收到预处理指令时,基于用户设置的用于过滤细胞的指标数据,对所述第一数据集进行过滤,得到第二数据集,所述指标数据包括UMI计数的第一阈值范围、特征基因计数的第二阈值范围、线粒体基因百分比的第三阈值范围和与β

action表达对应的第四阈值范围;所述批效应消除模块调用批效应消除工具,以对所述第二数据集进行批效应消除,得到第三数据集;所述双胞剔除模块通过调用DoubletFinder工具,以对所述第三数据集进行双胞剔除,得到第四数据集;所述细胞间通讯分析模块在接收到用于细胞间通讯分析的第一指令时,从工具库中调用预先设置的CellPhoneDB工具、CellChat工具和Cellcall工具,并通过所述CellPhoneDB工具、所述CellChat工具和所述Cellcall工具确定所述第四数据集中细胞间相互作用的强度和配体受体的差异对,以得到表征细胞间通讯的通讯分析结果;所述聚类模块在接收到用于细胞类型注释的第二指令时,从所述工具库中调用预先设置的降维聚类工具,以对所述第四数据集进行降维聚类,得到聚类后的第五数据集,其中,所述降维聚类工具包括PCA工具、SC3工具、tSNE工具及UMAP工具;所述细胞注释模块通过调用所述工具库中的注释工具,对所述第五数据集进行细胞类型注释,得到注释结果,其中,所述注释工具包括SingleR工具、基于加权最近邻网络算法的图谱注释工具中的任一种;所述可视化模块基于预设可视化策略,对所述通讯分析结果、所述注释结果进行可视化展示。2.根据权利要求1所述的系统,其特征在于,所述系统还包括:选择模块,用于从所述第五数据集中选择期望关注的细胞类型的细胞数据作为待测细胞;评估模块,用于通过预设算法,确定所述待测细胞的指定通路矫正后的F得分;分群获取模块,用于基于所述矫正后的F得分,从所述待测细胞中获取细胞亚类的分群信息;输入模块,用于将从所述待测细胞得到的细胞亚类数据,输入预先创建的单细胞通路富集模块,所述细胞亚类数据包括基因原始表达矩阵、高变基因列表及所述细胞亚类的分群信息;富集分析模块,用于调用所述单细胞通路富集模块中的clusterProfiler工具,将所述细胞亚类数据中的高变基因列表作为输入数据,并进行GO富集分析,得到富集分析结果,所述富集分析结果包括GO富集结果、FDR p

value,以及通路所包含的基因信息。3.根据权利要求2所述的系统,其特征在于,所述预设算法为如下公式:
其中,bg
ratio
指背景值,N
genes in a cell
指所述待测细胞中检测到的基因数量,N
total genes
指样品检测到的基因总数,fg
ratio
指前景值,N
genes from a term in a cell
指所述待测细胞中检测到的指定通路的基因数量,N
total genes of a term
指所述指定通路的全部基因数量,F
score
指所述待测细胞的指定通路的F得分,adjF
score
指所述待测细胞的指定通路矫正后的F得分,Q
term
指通过FDR矫正后的p值,Q
term
由cluster...

【专利技术属性】
技术研发人员:王峥
申请(专利权)人:金凤实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1