一种数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:27589470 阅读:18 留言:0更新日期:2021-03-10 10:06
本发明专利技术公开了一种数据处理方法、装置、电子设备及存储介质。该方法包括:基于细胞的分类标签,确定各所述分类标签对应的细胞数量;根据各所述分类标签对应的细胞数量,确定各所述分类标签对应的细胞抽样数量;基于各所述分类标签对应的细胞抽样数量从各分类标签对应的细胞数据集中抽取,得到目标抽样细胞集合;将所述目标抽样细胞集合中的各目标抽样细胞进行可视化展示。以实现细胞抽样,从而在保留细胞集合的数据结构的基础上,减少细胞的降维可视化运算的时间。可视化运算的时间。可视化运算的时间。

【技术实现步骤摘要】
一种数据处理方法、装置、电子设备及存储介质


[0001]本专利技术实施例涉及数据处理领域,尤其涉及一种数据处理方法、装置、电子设备及存储介质。

技术介绍

[0002]随着单细胞转录组数据集中细胞数量不断增加,但是有些类别的细胞数量却占有的比例很少,即数据集的类别比呈现出非平衡的特性,而这些数据往往是人们的研究重点。
[0003]目前,大多通过从原始数据集中随机无放回抽取细胞,将抽取的细胞进行降维计算并进行可视化展示。然而通过此方式抽取细胞,无法保证细胞种类的完整性。

技术实现思路

[0004]本专利技术提供一种数据处理方法、装置、电子设备及存储介质,以实现细胞抽样,从而提高细胞的完整性,减少细胞的降维运算的时间。
[0005]第一方面,本专利技术实施例提供了一种数据处理方法,该方法包括:
[0006]基于细胞的分类标签,确定各所述分类标签对应的细胞数量;
[0007]根据各所述分类标签对应的细胞数量,确定各所述分类标签对应的细胞抽样数量;
[0008]基于各所述分类标签对应的细胞抽样数量从各分类标签对应的细胞数据集中抽取,得到目标抽样细胞集合;
[0009]将所述目标抽样细胞集合中的各目标抽样细胞进行可视化展示。
[0010]第二方面,本专利技术实施例还提供了一种数据处理装置,该装置包括:
[0011]细胞数量确定模块,用于基于细胞的分类标签,确定各所述分类标签对应的细胞数量;
[0012]细胞抽样数量确定模块,用于根据各所述分类标签对应的细胞数量,确定各所述分类标签对应的细胞抽样数量;
[0013]目标抽样细胞集合得到模块,用于基于各所述分类标签对应的细胞抽样数量从各分类标签对应的细胞数据集中抽取,得到目标抽样细胞集合;
[0014]可视化展示模块,用于将所述目标抽样细胞集合中的各目标抽样细胞进行可视化展示。
[0015]第三方面,本专利技术实施例还提供了一种电子设备,该电子设备包括:
[0016]一个或多个处理器;
[0017]存储装置,用于存储一个或多个程序,当所述程序被所述处理器执行,使得所述处理器实现如本专利技术任意实施例所提供的数据处理方法。
[0018]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术任意实施例所提供的数据处理方法。
[0019]本专利技术实施例的技术方案,通过根据细胞的分类标签,确定各分类标签对应的细
胞数量,根据各分类标签对应的细胞数量,确定各分类标签对应的细胞抽样数量,基于各分类标签对应的细胞抽样数量从各分类标签对应的细胞数据集中抽取,得到目标抽样细胞集合,将目标抽样细胞集合中的各目标抽样细胞进行可视化展示。解决了细胞数据集抽取细胞种类完整性的问题,实现细胞抽样,从而在保留细胞集合的数据结构的基础上,减少细胞的降维可视化运算的时间。
附图说明
[0020]为了更加清楚地说明本专利技术示例性实施例的技术方案,下面对描述实施例中所需要用到的附图做一简单介绍。显然,所介绍的附图只是本专利技术所要描述的一部分实施例的附图,而不是全部的附图,对于本领域普通技术人员,在不付出创造性劳动的前提下,还可以根据这些附图得到其他的附图。
[0021]图1是本专利技术实施例一提供的一种数据处理方法流程示意图;
[0022]图2是本专利技术实施例二提供的一种数据处理方法流程示意图;
[0023]图3是本专利技术实施例三提供的一种数据处理装置模块示意图;
[0024]图4是本专利技术实施例四提供的一种电子设备结构示意图。
具体实施方式
[0025]下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。
[0026]实施例一
[0027]图1是本专利技术实施例一提供的一种数据处理方法的流程示意图,本实施例可适用于通过抽取各个类型的细胞,从而得到完整细胞数据集的情况,该方法可以由数据处理装置来执行,数据处理装置可通过软件和/或硬件方式实现,该数据处理装置可集成于诸如计算机或者服务器等的电子设备中。
[0028]如图1所示,本实施例的方法包括:
[0029]S110、基于细胞的分类标签,确定各分类标签对应的细胞数量。
[0030]其中,细胞可以理解为数据形式的细胞,如,可以是单细胞转录组数据集中的细胞,细胞的分类标签可以包括细胞的群类信息,用于区分细胞的类型。
[0031]具体的,根据细胞的分类标签,将数据集中细胞的分类标签相同的细胞作为一种类型的细胞集合,例如,细胞数据集中的细胞分类标签包括分类标签1、分类标签2以及分类标签3,将细胞的分类标签为分类标签1的细胞作为类1,同理将细胞的分类标签分别为分类标签2、分类标签3的细胞分别分为类2和类3。基于细胞的分类标签,得到各类型的细胞的数据集,例如类1、类2和类3分别对应的细胞数据集,根据细胞的分类,得到细胞分类标签对应的细胞数量,也就是说,根据分别确定类1、类2和类3对应的细胞数量。
[0032]S120、根据各分类标签对应的细胞数量,确定各分类标签对应的细胞抽样数量。
[0033]其中,抽样是从总体中抽取样本,其中,总体是所考察对象的某一指标的全体构成的集合,样本是构成总体中的每一个元素作为个体,从总体中抽取一部分的个体所组成的集合叫做样本,样本中的个体数据叫做样本数量,也就是抽样本数量。各分类标签对应的细
胞抽样数量的确定可以通过预先设定抽样规则。
[0034]本实施例中,总体可以理解为单细胞转录组数据集,该单细胞转录组数据包括各类型的细胞数据集,即包括全部待抽样的细胞。细胞抽样数量理解为待抽取作为样本的细胞数量,通过将总体数据集根据细胞的分类标签进行细胞类型的划分,确定每一个分类标签的细胞数据集中的细胞抽取数量,以保证每一分类标签的细胞数据集均存在细胞被抽取。
[0035]在一些实施例中,各分类标签对应的细胞抽样数量可以是随机确定,还可以是基于预设算法对分类标签对应的细胞数量计算得到。在一些实施例中,不同分类标签对应的细胞抽样数量等比例分布。
[0036]示例性的,当分类标签为类1的细胞数量为500个,以及分类标签分别为类2和类3的细胞数量分别为700个和900个时,根据提前预设的细胞抽样规则,得到类1的细胞抽样数量为50个,类2的细胞抽样数量为70个以及类3的细胞抽样数量为90个。
[0037]S130、基于各分类标签对应的细胞抽样数量从各分类标签对应的细胞数据集中抽取,得到目标抽样细胞集合。
[0038]其中,细胞的抽取方式可以包括简单随机抽样、系统抽样、分层抽样等方式。目标抽样细胞集合可以理解为从各个分类标签对应的细胞数据集中抽取细胞,得到抽取的细胞集合。目标抽样细胞集合用于存储各种类型的细胞。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:基于细胞的分类标签,确定各所述分类标签对应的细胞数量;根据各所述分类标签对应的细胞数量,确定各所述分类标签对应的细胞抽样数量;基于各所述分类标签对应的细胞抽样数量从各分类标签对应的细胞数据集中抽取,得到目标抽样细胞集合;将所述目标抽样细胞集合中的各目标抽样细胞进行可视化展示。2.根据权利要求1所述的方法,其特征在于,在根据各所述分类标签对应的细胞数量,确定各所述分类标签对应的细胞抽样数量之前,还包括:获取原始细胞数据集,基于细胞的分类标签对所述原始细胞数据集中的细胞进行处理,得到各分类标签对应的细胞数据集;当存在无标签细胞时,基于已有分类标签和所述已有分类标签对应的细胞数据集对所述无标签细胞进行无监督分类处理,得到分类标签。3.根据权利要求2所述的方法,其特征在于,所述基于已有分类标签和所述已有分类标签对应的细胞数据集对所述无标签细胞进行无监督分类处理,得到分类标签,包括:分别确定所述无标签细胞与各所述已有分类标签对应的细胞数据集的距离,将最小距离对应的分类标签确定为所述无标签细胞的标签;当所述最小距离大于预设距离时,创建所述无标签细胞对应的新增分类标签。4.根据权利要求1所述的方法,其特征在于,所述根据各所述分类标签对应的细胞数量,确定各所述分类标签对应的细胞抽样数量,包括:根据分类标签对应的细胞数量,通过公式y=k-k*e-(x/k)
,得到与所述分类标签对应的细胞抽样数量;其中,x表示所述分类标签对应的细胞数量,参数k,y表示与所述分类标签对应的细胞抽样数量。5.根据权利要求4所述的方法,其特征在于,所述参数k的确定方法包括:获取样本细胞数量、标准细胞抽样数量和所述k的初始参数,迭代执行如下步骤:基于所述样本细胞数量和所述k的初始参数确定测试细胞抽样数量,...

【专利技术属性】
技术研发人员:李辰威
申请(专利权)人:北京百奥智汇科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1