【技术实现步骤摘要】
细胞对象分类方法、装置、电子设备和存储介质
[0001]本专利技术涉及计算机
,尤其涉及细胞对象分类方法、装置、电子设备和存储介质。
技术介绍
[0002]随着互联网技术的发展,越来越多的数据通过计算机进行处理,有效地对上述数据进行分类,可以有助于数据的使用,以更好的对大量数据进行下一步分析利用。
[0003]现有的数据分类技术主要为针对全部数据直接聚集,算法的复杂度较高,导致对较大量的数据集的分类效率和准确度较低。同时,随着计算机技术在多领域中应用的展开,待处理数据的类型也更加多样化,例如文本信息数据、音频数据、图像数据等。在生物医药领域,由于测序技术的蓬勃发展,也会产生海量数据,因此,开发用于大量数据集的高效分类方法迫在眉睫。
[0004]对细胞和细胞数据进行分类是本专利技术的方法的一个重要应用领域。单细胞测序技术可从细胞水平研究疾病、正常状态下研究对象的转录组表达水平,为肿瘤异质性、免疫学等复杂体系研究提供了有力的工具。
[0005]当将单细胞测序技术应用于肿瘤免疫相关的研究时,一个重要的挑战就是如何区分肿瘤细胞和正常细胞。对于特定的癌种,可以通过公认的标记基因的表达来区分,如在多发性骨髓瘤中可使用CD38,CD138以及CD56基因的高表达来标记肿瘤细胞。
[0006]肿瘤细胞源起于正常细胞,通常是因为正常细胞的基因组发生变化,导致其基因表达和功能异常,脱离机体对细胞的监控。作为遗传变异的重要组成部分,拷贝数变异(CNV,Copy Number Variation)指的是 ...
【技术保护点】
【技术特征摘要】
1.一种细胞对象分类方法,所述方法包括:获取细胞对象集的细胞对象数据集,所述细胞对象集中的每个细胞对象具有至少一个第一属性的属性值;确定与所述细胞对象数据集对应的邻接矩阵,所述邻接矩阵的顶点为各所述细胞对象;基于所述邻接矩阵,对各所述细胞对象进行分区,得到至少一个细胞对象社区,所述细胞对象社区包括至少一个细胞对象;基于所述邻接矩阵和各所述细胞对象社区,利用预设聚集算法对各所述细胞对象进行聚集,得到细胞对象簇集合;对于每个细胞对象簇,执行以下分类操作:基于该细胞对象簇中每个细胞对象在至少一个第一属性的属性值,确定该细胞对象簇在各所述第一属性的属性值,以及基于该细胞对象簇在各所述第一属性的属性值,确定该细胞对象簇中各细胞对象的类型。2.根据权利要求1所述的方法,其中,在所述获取细胞对象集的细胞对象数据集之后,所述确定与所述细胞对象数据集对应的邻接矩阵之前,所述方法还包括:对于每个细胞对象数据,执行以下预处理操作:确定该细胞对象数据是否来自于多个数据来源;响应于是,对该细胞对象数据进行多数据来源合并处理;所述来源合并处理包括:该细胞对象数据具有至少一个来源标记,对该细胞对象数据进行来源标记汇总,基于来源标记汇总结果,对具有预设来源标记的细胞对象数据进行合并;确定该细胞对象数据是否为预设质量细胞对象数据;响应于是,将该预设质量细胞对象数据从该细胞对象数据集中删除。3.根据权利要求2所述的方法,其中,所述预处理操作,还包括:对于每个所述第一属性,执行以下无效属性删除操作:将所述细胞对象数据集中在该第一属性下的第一属性值为预设无效属性值的细胞对象数据的数量确定为该第一属性的无效第一属性值数量;响应于该第一属性的无效第一属性值数量大于预设无效第一属性值数量阈值,将各所述细胞对象数据的该第一属性及相应第一属性值删除。4.根据权利要求2或3所述的方法,其中,所述预处理操作,还包括:基于所述细胞对象数据集进行特征选择,得到第一预设数目个细胞对象数据特征作为特征选择结果;通过所述特征选择结果,对每个所述细胞对象数据进行降维处理。5.根据权利要求4所述的方法,其中,所述确定与所述细胞对象数据集对应的邻接矩阵,包括:生成所述细胞对象数据集对应的邻接矩阵,所述邻接矩阵的顶点分别对应各所述细胞对象数据;对于每个所述细胞对象数据,将所述邻接矩阵中该细胞对象数据对应的顶点与所述邻接矩阵中与该细胞对象数据对应的最近顶点集合进行连接,其中,该细胞对象数据对应的最近顶点集合为所述邻接矩阵中所述细胞对象数据集中与该细胞对象数据之间的距离最近的第二预设数目个细胞对象数据对应的各个顶点。6.根据权利要求5所述的方法,其中,所述基于所述邻接矩阵,对各所述细胞对象进行
分区,得到至少一个细胞对象社区,所述细胞对象社区包括至少一个细胞对象,包括:对于每个所述细胞对象,生成一个包括该细胞对象的细胞对象社区;基于所述邻接矩阵,确定每个所述细胞对象社区的社区区分度;对于每个所述细胞对象,执行以下更新操作:对于各...
【专利技术属性】
技术研发人员:刘松明,贺照人,
申请(专利权)人:百图生科苏州智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。