一种细胞状态特征分值的获取方法、装置和电子设备制造方法及图纸

技术编号:38223284 阅读:11 留言:0更新日期:2023-07-25 17:55
本发明专利技术公开了一种细胞状态特征分值的获取方法、装置和电子设备,属于生物信息技术领域。获取方法包括:确定第一细胞状态表征基因,并根据所述第一细胞状态表征基因计算优化前细胞状态特征分值;基于优化前细胞状态特征分值将细胞划分为正向细胞状态类群和负向细胞状态类群;基于正向细胞状态类群和负向细胞状态类群之间的差异表达基因,筛选得到正向细胞状态特征基因;将所述第一细胞状态表征基因和正向细胞状态特征基因融合得到第二细胞状态表征基因,并根据所述第二细胞状态表征基因计算优化后细胞状态特征分值。本发明专利技术提高了细胞状态特征分值的可推广性,同时提高了细胞状态特征分值计算的准确性。特征分值计算的准确性。特征分值计算的准确性。

【技术实现步骤摘要】
一种细胞状态特征分值的获取方法、装置和电子设备


[0001]本专利技术涉及生物信息
,尤其涉及一种细胞状态特征分值的获取方法、装置和电子设备。

技术介绍

[0002]基于单细胞转录组测序数据,除了可以鉴定每个细胞的细胞类型以外,对于同种类型的细胞也可以鉴定其所处的不同状态,如效应性T细胞和耗竭性T细胞等。为了鉴定细胞状态,需要为每个细胞计算代表相应状态的特征分值,然后根据分值的高低来衡量某个细胞所处的状态。
[0003]目前,对于细胞状态特征分值的计算,主要包括两种技术路线,分别是平均值法和参照基因校正法。
[0004]平均值法分为三个步骤:第一步,确定与某个细胞状态相关的基因集合,作为细胞状态表征基因集合;第二步,对每个细胞的基因表达值进行归一化处理,使得每个细胞的总基因表达值相等,以此来保证相同基因的表达值在不同细胞中具有可比性;第三步,在每个细胞中,为细胞状态表征基因计算平均表达值,以该平均表达值作为细胞状态的特征分值。该方法原理比较简单,但是存在两个问题:其一,细胞状态表征基因集合一经确定就固定不变,而不同取样来源的细胞是具有基因表达偏好性的,因此该方法降低了细胞状态特征分值计算的可推广性,进而会影响细胞状态判断的准确性;其二,该方法没有对计算获得的细胞状态特征分值进行校正,该分值会受到每个细胞转录组测序数据系统性误差或随机性误差的影响,从而不能准确反映细胞的真实状态。
[0005]参照基因校正法分为六个步骤:第一步,确定与某个细胞状态相关的基因集合,作为细胞状态表征基因集合;第二步,对每个细胞的基因表达值进行归一化处理,使得每个细胞的总基因表达值相等,保证相同基因的表达值在不同细胞中具有可比性;第三步,按照表达值的高低,把每个细胞中表达的基因进行排序和分组,一般分为25组,认为每组中的基因表达值处于相似水平;第四步,将每一个细胞状态表征基因定位到特定的表达值分组中,然后在该表达值分组内随机选取多个非细胞状态表征基因作为参照基因,一般为100个;第五步,在每个细胞中,为细胞状态表征基因计算平均表达值作为校正前细胞状态特征分值,同时为所有参照基因计算平均表达值作为参照分值;第六步,用校正前细胞状态特征分值减去参照分值,获得校正后的细胞状态特征分值。该方法存在三个问题:其一,细胞状态表征基因集合一经确定就固定不变,而不同取样来源的细胞是具有基因表达偏好性的,因此该方法降低了细胞状态特征分值计算的可推广性;其二,该方法在每个细胞状态表征基因所处的表达值分组中选取参照基因,这种策略降低了参照基因选取的随机性,进而影响在细胞状态特征分值计算过程中对系统性误差或随机性误差的校正,可能同时引起假阳性或假阴性的错误;其三,在每次计算时,由于细胞状态表征基因都与一种细胞状态相关,这些基因的表达值应该处于相似水平,因此这些基因往往会处于相同的表达值分组,这就会导致可能重复选取相同的非细胞状态表征基因作为参照基因,进一步降低参照基因选取的随机
性,进而加剧上述的问题(见其二中的描述)。

技术实现思路

[0006]为了解决现有技术中存在的问题,本专利技术提供了如下技术方案。
[0007]本专利技术第一方面提供了一种细胞状态特征分值的获取方法,包括:S101,确定第一细胞状态表征基因,并根据所述第一细胞状态表征基因计算优化前细胞状态特征分值;S102,基于优化前细胞状态特征分值将细胞划分为正向细胞状态类群和负向细胞状态类群;S103,基于正向细胞状态类群和负向细胞状态类群之间的差异表达基因,筛选得到正向细胞状态特征基因;S104,将所述第一细胞状态表征基因和正向细胞状态特征基因融合得到第二细胞状态表征基因,并根据所述第二细胞状态表征基因计算优化后细胞状态特征分值。
[0008]优选地,所述方法还包括步骤S105,利用优化后细胞状态特征分值替代优化前细胞状态特征分值,重复步骤S102
‑ꢀ
S104,直至所述第二细胞状态表征基因稳定不变,得到的优化后细胞状态特征分值为最终的细胞状态特征分值。
[0009]优选地,所述根据所述第一细胞状态表征基因计算优化前细胞状态特征分值包括:采用重排算法构建参照数据;基于所述参照数据为所述第一细胞状态表征基因计算第一平均表达值;基于实际检测的单细胞转录组数据为所述第一细胞状态表征基因计算第二平均表达值;利用所述第二平均表达值减去所述第一平均表达值得到优化前细胞状态特征分值。
[0010]优选地,所述采用重排算法构建参照数据包括:对基因和表达值之间的对应关系进行重排处理得到重排数据,多个重排数据构成参照数据。
[0011]优选地,所述表达值为进行归一化处理后得到的,所述归一化处理包括:为每个细胞计算总基因表达值;利用该细胞每个基因表达值除以总基因表达值,并乘以一个常数,该常数为虚拟设定的细胞基因表达总量。
[0012]优选地,所述根据所述第二细胞状态表征基因计算优化后细胞状态特征分值包括:基于实际检测的单细胞转录组数据,为所述第二细胞状态表征基因计算第三平均表达值,利用所述第三平均表达值减去所述第一平均表达值,得到优化后细胞状态特征分值。
[0013]优选地,所述基于优化前细胞状态特征分值将细胞划分为正向细胞状态类群和负向细胞状态类群包括:计算所述优化前细胞状态特征分值的中位数;若所述优化前细胞状态特征分值大于或等于中位数,则将细胞划分为正向细胞状
态类群;若所述优化前细胞状态特征分值小于中位数,则细胞划分为负向细胞状态类群。
[0014]优选地,所述基于正向细胞状态类群和负向细胞状态类群之间的差异表达基因,筛选得到正向细胞状态特征基因包括:在正向细胞状态类群和负向细胞状态类群之间,采用Wilcoxon秩和检验进行差异表达基因的鉴定;根据鉴定结果,选取log2FoldChange(FoldChange,差异倍数)>1和FDR<0.05,或log2FoldChange>2和FDR(False discovery rate,伪发现率)<0.01,且按照log2FoldChange从高到低排序前5%或前10%的基因作为正向细胞状态特征基因。
[0015]本专利技术第二方面提供了一种细胞状态特征分值的获取装置,包括:优化前细胞状态特征分值计算模块,用于确定第一细胞状态表征基因,并根据所述第一细胞状态表征基因计算优化前细胞状态特征分值;细胞类群划分模块,用于基于优化前细胞状态特征分值将细胞划分为正向细胞状态类群和负向细胞状态类群;细胞状态特征基因的方向筛选模块,用于基于正向细胞状态类群和负向细胞状态类群之间的差异表达基因,筛选得到正向细胞状态特征基因;优化后细胞状态特征分值计算模块,用于将所述第一细胞状态表征基因和正向细胞状态特征基因融合得到第二细胞状态表征基因,并根据所述第二细胞状态表征基因计算优化后细胞状态特征分值。
[0016]本专利技术第三方面提供了一种电子设备,包括处理器和与所述处理器连接的存储器,所述存储器存储有多条指令,所述指令可被所述处理器本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种细胞状态特征分值的获取方法,其特征在于,包括:S101,确定第一细胞状态表征基因,并根据所述第一细胞状态表征基因计算优化前细胞状态特征分值;S102,基于优化前细胞状态特征分值将细胞划分为正向细胞状态类群和负向细胞状态类群;S103,基于正向细胞状态类群和负向细胞状态类群之间的差异表达基因,筛选得到正向细胞状态特征基因;S104,将所述第一细胞状态表征基因和正向细胞状态特征基因融合得到第二细胞状态表征基因,并根据所述第二细胞状态表征基因计算优化后细胞状态特征分值。2.如权利要求1所述的细胞状态特征分值的获取方法,其特征在于,所述方法还包括步骤S105,利用优化后细胞状态特征分值替代优化前细胞状态特征分值,重复步骤S102
‑ꢀ
S104,直至所述第二细胞状态表征基因稳定不变,得到的优化后细胞状态特征分值为最终的细胞状态特征分值。3.如权利要求1所述的细胞状态特征分值的获取方法,其特征在于,所述根据所述第一细胞状态表征基因计算优化前细胞状态特征分值包括:采用重排算法构建参照数据;基于所述参照数据为所述第一细胞状态表征基因计算第一平均表达值;基于实际检测的单细胞转录组数据为所述第一细胞状态表征基因计算第二平均表达值;利用所述第二平均表达值减去所述第一平均表达值得到优化前细胞状态特征分值。4.如权利要求3所述的细胞状态特征分值的获取方法,其特征在于,所述采用重排算法构建参照数据包括:对基因和表达值之间的对应关系进行重排处理得到重排数据,多次重排处理得到的多个重排数据构成参照数据。5.如权利要求4所述的细胞状态特征分值的获取方法,其特征在于,所述表达值为进行归一化处理后得到的,所述归一化处理包括:为每个细胞计算总基因表达值;利用该细胞每个基因表达值除以总基因表达值,并乘以一个常数,该常数为虚拟设定的细胞基因表达总量。6.如权利要求3所述的细胞状态特征分值的获取方法,其特征在于,所述根据所述第二细胞状态表征基因计算优化后细胞状态特征分值包括:基于实际检测的单细胞转录组数据,为所述第二细胞状态表征基因计算第三平均表达值;...

【专利技术属性】
技术研发人员:季序我赵义彭鑫鑫李哲
申请(专利权)人:普瑞基准科技北京有限公司北京普康瑞仁医学检验所有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1