当前位置: 首页 > 专利查询>北京大学专利>正文

单细胞拷贝数变异探测方法、装置、设备及介质制造方法及图纸

技术编号:36269671 阅读:39 留言:0更新日期:2023-01-07 10:10
本申请公开了一种单细胞拷贝数变异探测方法、装置、设备及介质,所述方法包括根据基底细胞癌的单细胞ATAC测序数据,将染色体划分为互不相交的预设长度的窗口,统计每个细胞在每个窗口内的测序数量,得到读数矩阵;根据没有拷贝数变异的非肿瘤细胞计算每个窗口的读数基准,得到非肿瘤细胞在每个窗口内的读数基准值;根据所述读数矩阵以及非肿瘤细胞在每个窗口内的读数基准值,采用BIC准则将染色体进行分割,合并连续的拷贝数变异窗口,得到存在拷贝数变异的染色体片段和不同片段之间的断点。根据该方法,可以提高肿瘤单细胞拷贝数变异检测的精确度,尤其在数据集中存在多个细胞类型或数据稀疏、噪音大的情况下具有较高的应用前景。景。景。

【技术实现步骤摘要】
单细胞拷贝数变异探测方法、装置、设备及介质


[0001]本专利技术涉及生物信息学
,特别涉及一种单细胞拷贝数变异探测方法、装置、设备及介质。

技术介绍

[0002]拷贝数变异是指由基因组发生重排导致的基因组大片段的拷贝数增加或者减少,是染色体结构变异的重要组成部分。拷贝数变异是很多疾病的驱动变异,并且在肿瘤中尤为常见。在某些癌症种类中,特定染色体片段的拷贝数变异对肿瘤的进化、发展有着关键作用,而准确探测出这些拷贝数变异则对肿瘤的诊断、预后、治疗等都有重要的意义。同时,拷贝数变异还是肿瘤内部异质性的重要成因,因此拷贝数变异的探测也能够帮助了解肿瘤内部复杂的细胞构成。
[0003]因此,如何有效进行单细胞拷贝数变异探测,是本领域技术人员亟待解决的技术问题。

技术实现思路

[0004]本申请实施例提供了一种单细胞拷贝数变异探测方法、装置、设备及介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
[0005]第一方面,本申请实施例提供了一种单细胞拷贝数变异探测方法,包括:根据基底细胞癌的单细胞ATAC测序数据,将染色体划分为互不相交的预设长度的窗口,统计每个细胞在每个窗口内的测序数量,得到读数矩阵;根据没有拷贝数变异的非肿瘤细胞计算每个窗口的读数基准,得到非肿瘤细胞在每个窗口内的读数基准值;根据读数矩阵以及非肿瘤细胞在每个窗口内的读数基准值,采用BIC准则将染色体进行分割,合并连续的拷贝数变异窗口,得到存在拷贝数变异的染色体片段和不同片段之间的断点。
[0006]在一个可选地实施例中,根据基底细胞癌的单细胞ATAC测序数据,将染色体划分为互不相交的预设长度的窗口,统计每个细胞在每个窗口内的测序数量,得到读数矩阵,包括:根据ATAC测序数据进行预处理,去除噪声数据;对去除噪声后的数据进行无监督聚类;将染色体划分为互不相交的预设长度的窗口,统计每个细胞在每个窗口内的测序数量,得到初始读数矩阵;将唯一可映射位置少于预设第一阈值的窗口以及读数矩阵中0的占比超过预设第二阈值的行和列去除,得到读数矩阵。
[0007]在一个可选地实施例中,根据ATAC测序数据进行预处理,去除噪声数据,包括:根据ATAC测序数据得到每个基因片段所在的染色体、起始的位置、结束的位置以及对应的条形码;计算每个条形码对应的基因片段的数量、片段与转录起始位点的重合度以及条形码是二聚体的可能度;保留基因片段数量大于预设数量阈值、重合度大于预设重合度阈值且可能度小于预设可能度阈值的条形码;其中,每个条形码对应一个细胞。
[0008]在一个可选地实施例中,统计每个细胞在每个窗口内的测序数量,得到读数矩阵之后,还包括:对读数矩阵进行平滑化处理,得到平滑后的读数矩阵。
[0009]在一个可选地实施例中,对读数矩阵进行平滑化处理,得到平滑后的读数矩阵,包括:对读数矩阵的每一列拟合一阶动态线性模型,根据拟合的模型参数修正读数矩阵的参数,得到平滑后的读数矩阵,该模型可以写为如下表达:其中X为读数矩阵,V和U分别被设为0.3和0.05,通过R中的dlm包估计模型的参数,根据估计出的参数代替,得到平滑后的读数矩阵。
[0010]在一个可选地实施例中,根据读数矩阵以及非肿瘤细胞在每个窗口内的读数基准值,采用BIC准则将染色体进行分割,合并连续的拷贝数变异窗口,得到存在拷贝数变异的染色体片段和不同片段之间的断点,包括:根据读数矩阵以及非肿瘤细胞在每个窗口内的读数基准值,采用BIC准则将染色体进行分割,得到分割后的染色体片段以及每个片段由哪些连续的染色体窗口组成;统计每个细胞在每个片段上的读数之和,以及非肿瘤细胞在相应片段内的读数基准值之和;根据每个细胞在每个片段上的读数之和与非肿瘤细胞在相应片段内的读数基准值之和的比值,得到该片段的拷贝数比率;若该片段的拷贝数比率大于预设比率阈值,则该片段为存在拷贝数变异的染色体片段。
[0011]在一个可选地实施例中,根据读数矩阵以及非肿瘤细胞在每个窗口内的读数基准值,采用BIC准则将染色体进行分割,得到分割后的染色体片段以及每个片段由哪些连续的染色体窗口组成,包括:利用BIC准则迭代合并相邻小区域得到分割结果,可通过最小化以下式子得到:其中,n为细胞总数,s为合并后的片段总数;表示第j个细胞在第i个片段内观
测到的总读数,由读数矩阵对应元素求和计算得到;表示第j个细胞在第i个片段里不存在拷贝数变异时的期望读数,由非肿瘤细胞在相应窗口内的读数基准值求和得到;;参数决定了所得片段的整体大小,默认设为5,通过此优化问题,得到每个片段由哪些连续的染色体窗口组成。
[0012]第二方面,本申请实施例提供了一种单细胞拷贝数变异探测装置,包括:第一计算模块,用于根据基底细胞癌的单细胞ATAC测序数据,将染色体划分为互不相交的预设长度的窗口,统计每个细胞在每个窗口内的测序数量,得到读数矩阵;第二计算模块,用于根据没有拷贝数变异的非肿瘤细胞计算每个窗口的读数基准,得到非肿瘤细胞在每个窗口内的读数基准值;变异探测模块,用于根据读数矩阵以及非肿瘤细胞在每个窗口内的读数基准值,采用BIC准则将染色体进行分割,合并连续的拷贝数变异窗口,得到存在拷贝数变异的染色体片段和不同片段之间的断点。
[0013]第三方面,本申请实施例提供了一种电子设备,包括处理器和存储有程序指令的存储器,处理器被配置为在执行程序指令时,执行上述实施例提供的单细胞拷贝数变异探测方法。
[0014]第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机可读指令,计算机可读指令被处理器执行以实现上述实施例提供的一种单细胞拷贝数变异探测方法。
[0015]本申请实施例提供的技术方案可以包括以下有益效果:根据本申请实施例提供的单细胞拷贝数变异探测方法,通过采用ATAC测序数据以及BIC准则方法,得到存在拷贝数变异的染色体片段和不同片段之间的断点。该方法可以提高肿瘤单细胞拷贝数变异检测的精确度,尤其在数据集中存在多个细胞类型或数据稀疏、噪音大的情况下具有较高的应用前景。
[0016]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。
附图说明
[0017]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。
[0018]图1是根据一示例性实施例提供的一种单细胞拷贝数变异探测方法的示意图;图2是根据一示例性实施例示出的一种单细胞拷贝数变异探测结果的示意图;图3是根据一示例性实施例示出的一种单细胞拷贝数变异探测装置的结构示意图;图4是根据一示例性实施例示出的一种电子设备的结构示意图;图5是根据一示例性实施例示出的一种计算机存储介质的示意图。
具体实施方式
[0019]以下描述和附图充分地示出本专利技术的具体实施方案,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种单细胞拷贝数变异探测方法,其特征在于,包括:根据基底细胞癌的单细胞ATAC测序数据,将染色体划分为互不相交的预设长度的窗口,统计每个细胞在每个窗口内的测序数量,得到读数矩阵;根据没有拷贝数变异的非肿瘤细胞计算每个窗口的读数基准,得到非肿瘤细胞在每个窗口内的读数基准值;根据所述读数矩阵以及非肿瘤细胞在每个窗口内的读数基准值,采用BIC准则将染色体进行分割,合并连续的拷贝数变异窗口,得到存在拷贝数变异的染色体片段和不同片段之间的断点。2.根据权利要求1所述的方法,其特征在于,所述根据基底细胞癌的单细胞ATAC测序数据,将染色体划分为互不相交的预设长度的窗口,统计每个细胞在每个窗口内的测序数量,得到读数矩阵,包括:根据所述ATAC测序数据进行预处理,去除噪声数据;对去除噪声后的数据进行无监督聚类;将染色体划分为互不相交的预设长度的窗口,统计每个细胞在每个窗口内的测序数量,得到初始读数矩阵;将唯一可映射位置少于预设第一阈值的窗口以及读数矩阵中0的占比超过预设第二阈值的行和列去除,得到读数矩阵。3.根据权利要求2所述的方法,其特征在于,根据所述ATAC测序数据进行预处理,去除噪声数据,包括:根据所述ATAC测序数据得到每个基因片段所在的染色体、起始的位置、结束的位置以及对应的条形码;计算每个条形码对应的基因片段的数量、片段与转录起始位点的重合度以及条形码是二聚体的可能度;保留基因片段数量大于预设数量阈值、所述重合度大于预设重合度阈值且所述可能度小于预设可能度阈值的条形码;其中,每个条形码对应一个细胞。4.根据权利要求1所述的方法,其特征在于,统计每个细胞在每个窗口内的测序数量,得到读数矩阵之后,还包括:对所述读数矩阵进行平滑化处理,得到平滑后的读数矩阵。5.根据权利要求4所述的方法,其特征在于,对所述读数矩阵进行平滑化处理,得到平滑后的读数矩阵,包括:对所述读数矩阵的每一列拟合一阶动态线性模型,根据拟合的模型参数修正读数矩阵的参数,得到平滑后的读数矩阵,该模型可以写为如下表达:其中X为读数矩阵,V和U分别被设为0.3和0.05,根据估计出的参数代替,得到平滑后的读数矩阵。6.根据权利要求1所述的方法,其特征在于,根据所述读数矩阵以及非肿瘤细胞在每个窗口内的读数基准值,采用BIC准则将染色体进行分割,合...

【专利技术属性】
技术研发人员:席瑞斌王啸辰金子捷
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1