细胞对象分类方法、装置、电子设备和存储介质制造方法及图纸

技术编号:36270459 阅读:51 留言:0更新日期:2023-01-07 10:11
本发明专利技术提供一种细胞对象分类方法、装置、电子设备和存储介质,该方法包括:获取细胞对象集的细胞对象数据集,细胞对象集中的每个细胞对象具有至少一个第一属性的属性值;确定与细胞对象数据集对应的邻接矩阵,邻接矩阵的顶点为各细胞对象;基于邻接矩阵,对各细胞对象进行分区,得到至少一个细胞对象社区;基于邻接矩阵和各细胞对象社区,利用预设聚集算法对各细胞对象进行聚集,得到细胞对象簇集合;对于每个细胞对象簇,执行分类操作。该方法能够更好地对细胞对象进行分类。更好地对细胞对象进行分类。更好地对细胞对象进行分类。

【技术实现步骤摘要】
细胞对象分类方法、装置、电子设备和存储介质


[0001]本专利技术涉及计算机
,尤其涉及细胞对象分类方法、装置、电子设备和存储介质。

技术介绍

[0002]随着互联网技术的发展,越来越多的数据通过计算机进行处理,有效地对上述数据进行分类,可以有助于数据的使用,以更好的对大量数据进行下一步分析利用。
[0003]现有的数据分类技术主要为针对全部数据直接聚集,算法的复杂度较高,导致对较大量的数据集的分类效率和准确度较低。同时,随着计算机技术在多领域中应用的展开,待处理数据的类型也更加多样化,例如文本信息数据、音频数据、图像数据等。在生物医药领域,由于测序技术的蓬勃发展,也会产生海量数据,因此,开发用于大量数据集的高效分类方法迫在眉睫。
[0004]对细胞和细胞数据进行分类是本专利技术的方法的一个重要应用领域。单细胞测序技术可从细胞水平研究疾病、正常状态下研究对象的转录组表达水平,为肿瘤异质性、免疫学等复杂体系研究提供了有力的工具。
[0005]当将单细胞测序技术应用于肿瘤免疫相关的研究时,一个重要的挑战就是如何区分肿瘤细胞和正常细胞。对于特定的癌种,可以通过公认的标记基因的表达来区分,如在多发性骨髓瘤中可使用CD38,CD138以及CD56基因的高表达来标记肿瘤细胞。
[0006]肿瘤细胞源起于正常细胞,通常是因为正常细胞的基因组发生变化,导致其基因表达和功能异常,脱离机体对细胞的监控。作为遗传变异的重要组成部分,拷贝数变异(CNV,Copy Number Variation)指的是1000个碱基以上的DNA(Deoxyribonucleic Acid,脱氧核糖核酸)片段的扩增或减少。CNV广泛存在于多种肿瘤中,并且通过影响基因的表达参与肿瘤的发生发展等过程。基于此,研究人员提出了基于单细胞测序数据进行细胞CNV推断的方法,基于肿瘤细胞和正常细胞CNV不同的前提假设,可实现对肿瘤细胞的鉴定。
[0007]结合二代测序技术,单细胞细胞测序方法为研究复杂疾病提供了更加精细的视野,但由于单个细胞中RNA总量低以及细胞裂解过程中特定RNA降解等问题,研究人员获得的细胞表达矩阵不仅数据量大而且表现出高稀疏性的特征,为下游进行快速分析带来了挑战。
[0008]对于基于特定标记基因鉴别肿瘤细胞的方法,一方面标记的基因的选取严格受限于先验知识,仅适用于某些具有明确标记基因的肿瘤,然而肿瘤细胞往往存在很强的异质性,很难找到特定一个或几个基因表征所有的肿瘤细胞亚型;另一方面,由于单细胞表达矩阵的数据量庞大,既往研究中得到的标记基因在单细胞数据中并不总是与预期的表达一致,限制了该方法的应用。
[0009]现有分析方法的运行时间、资源消耗与参与运算的细胞数量紧密相关,已经无法满足当前单细胞研究中急速增长的细胞数量。此外,现有分析方法本身并不提供各种细胞分类后的预测结果,在实际研究中往往需要研究人员进行主观判断。另一些分析方法只能
适用于单个样本的CNV预测。

技术实现思路

[0010]本专利技术提供了一种细胞对象分类方法、装置、电子设备和存储介质,可用于解决相关技术中分类效率低、运算时间长以及对内存需求高的问题。
[0011]第一方面,本公开的实施例提供了一种细胞对象分类方法,该方法包括:获取细胞对象集的细胞对象数据集,每个上述细胞对象具有至少一个第一属性的属性值;确定与上述细胞对象数据集对应的邻接矩阵,上述邻接矩阵的顶点为各上述细胞对象;基于上述邻接矩阵,对各上述细胞对象进行分区,得到至少一个细胞对象社区,上述细胞对象社区包括至少一个细胞对象;基于上述邻接矩阵和各上述细胞对象社区,利用预设聚集算法对各上述细胞对象进行聚集,得到细胞对象簇集合;对于每个上述细胞对象簇,执行以下分类操作:基于该细胞对象簇中每个细胞对象在至少一个第一属性的属性值,确定该细胞对象簇在各上述第一属性的属性值,以及基于该细胞对象簇在各上述第一属性的属性值,确定该细胞对象簇中各细胞对象的类型。
[0012]在一些可选的实施方式中,上述获取细胞对象集的细胞对象数据集之后,上述确定与上述细胞对象数据集对应的邻接矩阵之前,包括:对于每个上述细胞对象数据,执行以下预处理操作:确定该细胞对象数据是否来自于多个数据来源;响应于是,对该细胞对象数据进行多数据来源合并处理;上述来源合并处理包括:上述细胞对象数据具有至少一个来源标记,对该细胞对象数据进行来源标记汇总,基于上述来源标记汇总结果,对具有预设来源标记的细胞对象数据进行合并;确定该细胞对象数据是否为预设质量数据;响应于是,将该预设质量细胞对象数据从该细胞对象数据集中删除。
[0013]在一些可选的实施方式中,上述预处理操作,还包括:对于每个上述第一属性,执行以下无效属性删除操作:将上述细胞对象数据集中在该第一属性下的第一属性值为预设无效属性值的细胞对象数据的数量确定为该第一属性的无效第一属性值数量;响应于该第一属性的无效第一属性值数量大于预设无效第一属性值数量阈值,将各上述细胞对象数据的该第一属性及相应第一属性值删除。
[0014]在一些可选的实施方式中,上述确定与上述细胞对象数据集对应的邻接矩阵,包括:生成上述细胞对象数据集对应的邻接矩阵,上述邻接矩阵的顶点分别对应各上述细胞对象数据;对于每个上述细胞对象数据,将上述邻接矩阵中该细胞对象数据对应的顶点与上述邻接矩阵中与该细胞对象数据对应的最近顶点集合进行连接,其中,细胞对象数据对应的最近顶点集合为上述邻接矩阵中上述细胞对象数据集中与该细胞对象数据之间的距离最近的第二预设数目个细胞对象数据对应的各个顶点。
[0015]在一些可选的实施方式中,上述基于上述邻接矩阵,对各上述细胞对象进行分区,得到至少一个细胞对象社区,上述细胞对象社区包括至少一个细胞对象,包括:对于每个上述细胞对象,生成一个包括该细胞对象的细胞对象社区;基于上述邻接矩阵,确定每个上述细胞对象社区的社区区分度;对于每个上述细胞对象,执行以下更新操作:对于各上述细胞对象社区中除该细胞对象社区外的每个其他细胞对象社区,确定该其他细胞对象社区的更新后社区区分度,其中,该其他细胞对象社区的更新后社区区分度为将该细胞对象添加至该其他细胞对象社区后的新细胞对象社区的社区区分度,确定各上述其他细胞对象社区的
更新后社区区分度中的最大值是否大于该细胞对象当前所属细胞对象社区的社区区分度;响应于确定是,将该细胞对象移动至各上述其他细胞对象社区中更新后社区区分度最大者。
[0016]在一些可选的实施方式中,上述更新操作还包括:确定该细胞对象更新前所属细胞对象社区是否存在断链;响应于确定是,将该细胞对象更新前所属细胞对象社区进行重新分区,得到至少两个新的细胞对象社区。
[0017]在一些可选的实施方式中,上述对于每个上述细胞对象簇,执行以下分类操作,包括:响应于确定上述细胞对象簇集合满足预设条件,对于每个上述细胞对象簇,执行上述分类操作。
[0018]在一些可选的实施方式中,上述基于该细胞对象簇中每个细胞对象在至少一个第一属性的属性本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种细胞对象分类方法,所述方法包括:获取细胞对象集的细胞对象数据集,所述细胞对象集中的每个细胞对象具有至少一个第一属性的属性值;确定与所述细胞对象数据集对应的邻接矩阵,所述邻接矩阵的顶点为各所述细胞对象;基于所述邻接矩阵,对各所述细胞对象进行分区,得到至少一个细胞对象社区,所述细胞对象社区包括至少一个细胞对象;基于所述邻接矩阵和各所述细胞对象社区,利用预设聚集算法对各所述细胞对象进行聚集,得到细胞对象簇集合;对于每个细胞对象簇,执行以下分类操作:基于该细胞对象簇中每个细胞对象在至少一个第一属性的属性值,确定该细胞对象簇在各所述第一属性的属性值,以及基于该细胞对象簇在各所述第一属性的属性值,确定该细胞对象簇中各细胞对象的类型。2.根据权利要求1所述的方法,其中,在所述获取细胞对象集的细胞对象数据集之后,所述确定与所述细胞对象数据集对应的邻接矩阵之前,所述方法还包括:对于每个细胞对象数据,执行以下预处理操作:确定该细胞对象数据是否来自于多个数据来源;响应于是,对该细胞对象数据进行多数据来源合并处理;所述来源合并处理包括:该细胞对象数据具有至少一个来源标记,对该细胞对象数据进行来源标记汇总,基于来源标记汇总结果,对具有预设来源标记的细胞对象数据进行合并;确定该细胞对象数据是否为预设质量细胞对象数据;响应于是,将该预设质量细胞对象数据从该细胞对象数据集中删除。3.根据权利要求2所述的方法,其中,所述预处理操作,还包括:对于每个所述第一属性,执行以下无效属性删除操作:将所述细胞对象数据集中在该第一属性下的第一属性值为预设无效属性值的细胞对象数据的数量确定为该第一属性的无效第一属性值数量;响应于该第一属性的无效第一属性值数量大于预设无效第一属性值数量阈值,将各所述细胞对象数据的该第一属性及相应第一属性值删除。4.根据权利要求2或3所述的方法,其中,所述预处理操作,还包括:基于所述细胞对象数据集进行特征选择,得到第一预设数目个细胞对象数据特征作为特征选择结果;通过所述特征选择结果,对每个所述细胞对象数据进行降维处理。5.根据权利要求4所述的方法,其中,所述确定与所述细胞对象数据集对应的邻接矩阵,包括:生成所述细胞对象数据集对应的邻接矩阵,所述邻接矩阵的顶点分别对应各所述细胞对象数据;对于每个所述细胞对象数据,将所述邻接矩阵中该细胞对象数据对应的顶点与所述邻接矩阵中与该细胞对象数据对应的最近顶点集合进行连接,其中,该细胞对象数据对应的最近顶点集合为所述邻接矩阵中所述细胞对象数据集中与该细胞对象数据之间的距离最近的第二预设数目个细胞对象数据对应的各个顶点。6.根据权利要求5所述的方法,其中,所述基于所述邻接矩阵,对各所述细胞对象进行
分区,得到至少一个细胞对象社区,所述细胞对象社区包括至少一个细胞对象,包括:对于每个所述细胞对象,生成一个包括该细胞对象的细胞对象社区;基于所述邻接矩阵,确定每个所述细胞对象社区的社区区分度;对于每个所述细胞对象,执行以下更新操作:对于各...

【专利技术属性】
技术研发人员:刘松明贺照人
申请(专利权)人:百图生科苏州智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1