当前位置: 首页 > 专利查询>金凤实验室专利>正文

单细胞转录组数据预处理方法、电子设备及存储介质技术

技术编号:39134002 阅读:11 留言:0更新日期:2023-10-23 14:52
本申请提供一种单细胞转录组数据预处理方法、电子设备及存储介质。方法包括:获取用户上传的基于单细胞组学产生的第一数据集;基于过滤细胞的指标数据,对第一数据集进行过滤,得到第二数据集,指标数据包括与UMI计数、特征基因计数、线粒体基因百分比和β

【技术实现步骤摘要】
单细胞转录组数据预处理方法、电子设备及存储介质


[0001]本专利技术涉及细胞数据处理
,具体而言,涉及一种单细胞转录组数据预处理方法、电子设备及存储介质。

技术介绍

[0002]对于多细胞生物而言,细胞与细胞之间通常存在着差异,且不同群体细胞间的差异不一。这种差异不仅体现在形态上,也体现在遗传信息上,例如基因组信息、基因表达水平等。随着单细胞RNA测序(scRNA

seq)应用的深入和细化,常常需要对复杂器官开展单细胞测序,单纯对几个细胞做测序不再满足科研需求。即,大规模的单细胞RNA测序已经成为分解单个细胞异质性的强有力的方式。目前,虽然已存在大规模单细胞RNA测序的分析平台(如GranatumX、Cellxgene等分析工具),但是现有的分析平台功能较为单一,仍然缺乏对单细胞转录组数据的前期处理,从而影响单细胞RNA测序的灵活性与准确性。如,现有的分析平台缺乏批次效应消除和双胞剔除等功能,且细胞过滤不灵活。

技术实现思路

[0003]有鉴于此,本申请实施例的目的在于提供一种单细胞转录组数据预处理方法、电子设备及存储介质,能够改善现有的分析平台在单细胞转录组数据的前期处理过程中,缺乏批次效应消除、双胞剔除等功能,以及细胞过滤不灵活的问题。
[0004]为实现上述技术目的,本申请采用的技术方案如下:
[0005]第一方面,本申请实施例提供了一种单细胞转录组数据预处理方法,所述方法包括:
[0006]获取用户上传的基于单细胞组学产生的第一数据集,所述第一数据集中的数据格式包括tsv格式、txt格式、csv格式、RDS格式及HDF5格式;
[0007]在接收到预处理指令时,基于用户设置的用于过滤细胞的指标数据,对所述第一数据集进行过滤,得到第二数据集,所述指标数据包括UMI计数的第一阈值范围、特征基因计数的第二阈值范围、线粒体基因百分比的第三阈值范围和与β

action表达对应的第四阈值范围;
[0008]调用批效应消除工具,对所述第二数据集进行批效应消除,得到第三数据集;
[0009]通过DoubletFinder工具,对所述第三数据集进行双胞剔除,得到第四数据集,并将所述第四数据集作为经过预处理而得到的结果数据集。
[0010]结合第一方面,在一些可选的实施方式中,基于用户设置的用于过滤细胞的指标数据,对所述第一数据集进行过滤,得到第二数据集,包括:
[0011]基于用户通过第一条形滑动按钮设置的UMI计数的所述第一阈值范围,滤除所述第一数据集中UMI计数未在所述第一阈值范围内的数据;
[0012]基于用户通过第二条形滑动按钮设置的特征基因计数的所述第二阈值范围,滤除所述第一数据集中特征基因计数未在所述第二阈值范围内的数据;
[0013]基于用户通过第三条形滑动按钮设置的线粒体基因百分比的所述第三阈值范围,滤除所述第一数据集中线粒体基因百分比未在所述第三阈值范围内的数据;
[0014]基于用户通过第四条形滑动按钮设置的与β

action表达对应的所述第四阈值范围,滤除所述第一数据集中β

action表达未在所述第四阈值范围内的数据;
[0015]将经过UMI计数、特征基因计数、线粒体基因百分比和β

action表达过滤的第一数据集作为所述第二数据集。
[0016]结合第一方面,在一些可选的实施方式中,通过DoubletFinder工具,对所述第三数据集进行双胞剔除,得到第四数据集,包括:
[0017]通过所述DoubletFinder工具,从用户预先上传的单细胞数据中随机融合产生人工的模拟双胞;
[0018]将所述模拟双胞和所述第三数据集中的细胞进行混合,得到混合细胞数据;
[0019]通过所述DoubletFinder工具中的PCA降维或者PCA距离矩阵,查找每个单元的artificial k最近邻居pANN的比例,其中,所述每个单元为从所述混合细胞数据中划分的一个bin,每个bin包括多个特征基因;
[0020]基于预设的doublets数量进行所述混合细胞数据的排序,并确定pANN值的阈值;
[0021]基于所述pANN值的阈值,从所述混合细胞数据中确定双胞数据,并滤除所述双胞数据。
[0022]结合第一方面,在一些可选的实施方式中,所述方法还包括:
[0023]将所述结果数据集按预设类别进行分类统计,并对统计得到的分类结果进行页面展示,其中,所述预设类别包括细胞数、特征基因数。
[0024]结合第一方面,在一些可选的实施方式中,所述方法还包括:
[0025]基于预先创建的临时项目存储库,存储所述第一数据集、所述第二数据集、所述第三数据集、所述结果数据集及所述分类结果。
[0026]结合第一方面,在一些可选的实施方式中,所述方法还包括:
[0027]当接收到用于查询所述第二数据集的查询指令时,从所述临时项目存储库获取所述第二数据集,并以小提琴图方式展示所述第二数据集。
[0028]结合第一方面,在一些可选的实施方式中,所述方法还包括:
[0029]基于预先创建的上传接口,上传个性化基因组至临时项目存储库;
[0030]或基于预先创建的删除接口,从所述临时项目存储库中删除指定基因组。
[0031]结合第一方面,在一些可选的实施方式中,所述批效应消除工具包括Seurat v4中的RPCA、FastMNN、Harmony、scVI和svANVI中的任一种。
[0032]第二方面,本申请实施例还提供一种电子设备,所述电子设备包括相互耦合的处理器及存储器,所述存储器内存储计算机程序,当所述计算机程序被所述处理器执行时,使得所述电子设备执行上述的方法。
[0033]第三方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行上述的方法。
[0034]采用上述技术方案的专利技术,具有如下优点:
[0035]在本申请提供的技术方案中,针对单细胞组学产生的数据集,支持tsv格式、txt格
式、csv格式、RDS格式及HDF5格式等多种格式数据的上传与处理。本方案通过整合多中预处理方式,能够兼容细胞滤除、批效应消除、双胞剔除等功能,有利于提高预处理的效率。用户可以灵活设置用于过滤细胞的指标数据,以实现细胞的灵活过滤。另外,通过批效应消除工具,可以对多批次的数据集进行批效应消除,提高的数据集的有效性。利用DoubletFinder工具,可以进行双胞剔除,以进一步提高数据集的有效性与可靠性。
附图说明
[0036]本申请可以通过附图给出的非限定性实施例进一步说明。应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种单细胞转录组数据预处理方法,其特征在于,所述方法包括:获取用户上传的基于单细胞组学产生的第一数据集,所述第一数据集中的数据格式包括tsv格式、txt格式、csv格式、RDS格式及HDF5格式;在接收到预处理指令时,基于用户设置的用于过滤细胞的指标数据,对所述第一数据集进行过滤,得到第二数据集,所述指标数据包括UMI计数的第一阈值范围、特征基因计数的第二阈值范围、线粒体基因百分比的第三阈值范围和与β

action表达对应的第四阈值范围;调用批效应消除工具,对所述第二数据集进行批效应消除,得到第三数据集;通过DoubletFinder工具,对所述第三数据集进行双胞剔除,得到第四数据集,并将所述第四数据集作为经过预处理而得到的结果数据集。2.根据权利要求1所述的方法,其特征在于,基于用户设置的用于过滤细胞的指标数据,对所述第一数据集进行过滤,得到第二数据集,包括:基于用户通过第一条形滑动按钮设置的UMI计数的所述第一阈值范围,滤除所述第一数据集中UMI计数未在所述第一阈值范围内的数据;基于用户通过第二条形滑动按钮设置的特征基因计数的所述第二阈值范围,滤除所述第一数据集中特征基因计数未在所述第二阈值范围内的数据;基于用户通过第三条形滑动按钮设置的线粒体基因百分比的所述第三阈值范围,滤除所述第一数据集中线粒体基因百分比未在所述第三阈值范围内的数据;基于用户通过第四条形滑动按钮设置的与β

action表达对应的所述第四阈值范围,滤除所述第一数据集中β

action表达未在所述第四阈值范围内的数据;将经过UMI计数、特征基因计数、线粒体基因百分比和β

action表达过滤的第一数据集作为所述第二数据集。3.根据权利要求1所述的方法,其特征在于,通过DoubletFinder工具,对所述第三数据集进行双胞剔除,得到第四数据集,包括:通过所述DoubletFinder工具,从用户预先上传的单细胞数据中随机融合产生人工的模拟双胞;将所述模拟双胞和所述第三数据集中的细胞进行...

【专利技术属性】
技术研发人员:王峥
申请(专利权)人:金凤实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1