核基因组拷贝数变异检测方法及装置、设备、存储介质制造方法及图纸

技术编号:35565067 阅读:13 留言:0更新日期:2022-11-12 15:48
本发明专利技术属于生物信息检测技术领域,公开了一种核基因组拷贝数变异检测方法,能够识别待测样本是否为女性样本,若是,利用其X染色体位点的测序深度值的一半数值以及常染色体位点的测序深度值与各自的置信区间进行比对,确定出拷贝异常位点,计算拷贝异常位点的拷贝数值进行空间聚类分类,获得正常拷贝类和拷贝变异类;将归属于拷贝变异类的拷贝异常位点确定为拷贝变异位点;接着将位置相邻且同变异类型的拷贝变异位点合并得到CNV片段,因此本发明专利技术能够自动并准确进行所有核基因组染色体的CNV检测,提高对性染色体CNV检测的准确性;同时在提高RD位点分辨率的同时保证CNV片段的稳定性、准确性和灵敏度。准确性和灵敏度。准确性和灵敏度。

【技术实现步骤摘要】
核基因组拷贝数变异检测方法及装置、设备、存储介质


[0001]本专利技术属于生物信息检测
,具体涉及一种核基因组拷贝数变异检测方法及装置、设备、存储介质。

技术介绍

[0002]宏基因临床检测技术是利用二代高通量测序从遗传物质角度对微生物感染进行鉴定和诊断的新型临床技术。其中高通量测序数据包含的微生物序列 (即非人源性序列)相对有限,超过90%的序列内容为人源性序列。但至今的临床应用中却仅使用了量较少的微生物序列进行感染学鉴定,量较多的人源性序列依然缺少应用和分析。宏基因技术利用游离核酸进行微生物鉴定,而肿瘤细胞因其高代谢率容易在游离核酸中检测到,游离核酸已经成为肿瘤筛查和检查的重要实验样本。如果通过宏基因在感染学检测的同时进行肿瘤或遗传病早筛检测,不但能够解决当前疾病问题,还能对肿瘤或遗传病早筛阳性结果提前介入和治疗,对人类健康有着巨大意义。但至今却极少联合宏基因和肿瘤基因拷贝数变异(Copy Number Variations,CNV)检测的算法和软件。因此通过宏基因感染的检测手段能够同时进行肿瘤或遗传病筛查的工作受技术限制无法进行。
[0003]目前针对CNV检测的主流理论包括Read

Pair(RP)法、Split

read(SR)法、 Read

Depth(RD)法和Assembly(AS)法等4种方法。其中RP是最早出现的算法,利用双端测序插入片段长度分布来检测CNV,也称之为pair end mapping(PEM) 方法。当插入片段长度过长或者过短时,都代表着基因组发生了结构变异。SR 方法利用一端能够比对,另外一端比对不上的reads来识别CNV。另外一端比对不上,可能是存在CNV,通过将单独的reads进行拆分,使其能够正确比对到参考基因组上,拆分的点就是CNV的断裂点。RD方法利用拷贝数和对应区域测序深度的相关性来进行分析,基本模型是缺失区域的测序深度相对低,而插入区域的测序深度相对高。AS方法利用测序得到的短序列进行组装,将组装的contig与参考基因组进行比较,从而确定发生了结构变异的区域。
[0004]由于宏基因检测为50

75bp的二代单端测序技术,与当前主流软件均不相符,同时地区人群位点、不同实验条件引入的位点差异均无法得到很好的矫正,使得其分辨率和结果在目前的软件中均表现不佳,至今仍无可用于宏基因CNV 检测的算法。针对CNV检测主流理论,RP和SR两种方法依赖于双端测序技术,不适用于宏基因数据,且相对算法不够精确。AS法依赖通量和测序覆盖度技术,宏基因的覆盖度与基因组组装技术相差甚远,该方法无法运行于宏基因数据。这三种理论方法均与宏基因测序数据不符合,仅RD法下的少量软件可以应用。
[0005]但是RD法依赖通量和测序深度技术,需要较高较稳定的深度变化才能用于识别CNV,因此在宏基因这种低测序深度的数据中应用该方法会引入极多的假阳性位点。且传统RD法分析模型使用相同的RD分辨率和CNV分辨率,过小的分辨率会导致数据离散型太强,假阳性过高,过大的分辨率会导致CNV 平均化,产生假阴性结果,同时CNV的边缘位置也可能因为RD计算时的区间覆盖形成过渡型,影响CNV的识别和判断,因此导致CNV检测的准确性、
灵敏度均不够。
[0006]此外目前的CNV检测工具进行遗传病早筛都需要输入大量的辅助信息,包括但不限于变异组和正常组信息、患者性别、步长、染色体区段、参考索引等。其中对于性染色体CNV变异识别策略,第一种是基于自身与常染色体的直接深度对照,第二种是依赖手动输入参数进行性别分群分析。第一种策略只能进行单样本检测,假阳性较多,不够准确。第二种策略需要手动输入参数,相对复杂。然而临床测序数据相对复杂,辅助信息不明确,检测效率较低。

技术实现思路

[0007]本专利技术的目的在于提供一种核基因组拷贝数变异检测方法及装置、设备、存储介质,能够自动并准确进行所有核基因组染色体的CNV检测,同时提高 CNV检测的准确性和灵敏度。
[0008]本专利技术第一方面公开一种核基因组拷贝数变异检测方法,包括:
[0009]从待测样本的测序数据中确定出多个指定位点的测序深度值;其中,每一所述指定位点对应有置信区间及RD设定均值;
[0010]根据多个指定位点的测序深度值,判断所述待测样本是否为女性样本;
[0011]若所述待测样本为女性样本,识别多个指定位点中的X染色体位点和常染色体位点;
[0012]若任一X染色体位点的测序深度值的一半数值小于该X染色体位点对应的置信区间,确定该X染色体位点为低拷贝异常位点;若任一X染色体位点的测序深度值的一半数值大于该X染色体位点对应的置信区间,确定该X染色体位点为高拷贝异常位点;
[0013]若任一常染色体位点的测序深度值小于该常染色体位点对应的置信区间,确定该常染色体位点为低拷贝异常位点;若任一常染色体位点的测序深度值大于该常染色体位点对应的置信区间,确定该常染色体位点为高拷贝异常位点;
[0014]将所述低拷贝异常位点和所述高拷贝异常位点均作为拷贝异常位点;
[0015]根据各个所述拷贝异常位点对应的RD设定均值以及测序深度值,计算各个所述拷贝异常位点的拷贝数值;其中,所述拷贝数值与所述测序深度值呈正相关关系;
[0016]将所有所述拷贝异常位点的拷贝数值进行空间聚类分类,获得正常拷贝类和拷贝变异类,所述拷贝变异类包括两个拷贝变异子类,分别是高拷贝变异子类和低拷贝变异子类;
[0017]将归属于所述高拷贝变异子类的高拷贝异常位点以及归属于所述低拷贝变异子类的低拷贝异常位点,分别确定为拷贝变异位点;
[0018]将位置相邻且属于同一拷贝变异子类的拷贝变异位点进行合并,获得拷贝变异片段。
[0019]本专利技术第二方面公开一种核基因组拷贝数变异检测装置,包括:
[0020]深度确定单元,用于从待测样本的测序数据中确定出多个指定位点的测序深度值;其中,每一所述指定位点对应有置信区间及RD设定均值;
[0021]性别判断单元,用于根据多个指定位点的测序深度值,判断所述待测样本是否为女性样本;
[0022]位点识别单元,用于在所述性别判断单元判断所述待测样本为女性样本时,识别多个指定位点中的X染色体位点和常染色体位点;
[0023]异常检测单元,用于在任一X染色体位点的测序深度值的一半数值小于该 X染色体位点对应的置信区间时,确定该X染色体位点为低拷贝异常位点;以及,在任一X染色体位点的测序深度值的一半数值大于该X染色体位点对应的置信区间时,确定该X染色体位点为高拷贝异常位点;
[0024]所述异常检测单元,还用于在任一常染色体位点的测序深度值小于该常染色体位点对应的置信区间时,确定该常染色体位点为低拷贝异常位点;以及,在任一常染色体位点的测序深度值大于该常染色体位点对应的置信区间时,确定该常染色体位点为高拷贝异常位点;以及,将所述低拷贝异常位点和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.核基因组拷贝数变异检测方法,其特征在于,包括:从待测样本的测序数据中确定出多个指定位点的测序深度值;其中,每一所述指定位点对应有置信区间及RD设定均值;根据多个指定位点的测序深度值,判断所述待测样本是否为女性样本;若所述待测样本为女性样本,识别多个指定位点中的X染色体位点和常染色体位点;若任一X染色体位点的测序深度值的一半数值小于该X染色体位点对应的置信区间,确定该X染色体位点为低拷贝异常位点;若任一X染色体位点的测序深度值的一半数值大于该X染色体位点对应的置信区间,确定该X染色体位点为高拷贝异常位点;若任一常染色体位点的测序深度值小于该常染色体位点对应的置信区间,确定该常染色体位点为低拷贝异常位点;若任一常染色体位点的测序深度值大于该常染色体位点对应的置信区间,确定该常染色体位点为高拷贝异常位点;将所述低拷贝异常位点和所述高拷贝异常位点均作为拷贝异常位点;根据各个所述拷贝异常位点对应的RD设定均值以及测序深度值,计算各个所述拷贝异常位点的拷贝数值;其中,所述拷贝数值与所述测序深度值呈正相关关系;将所有所述拷贝异常位点的拷贝数值进行空间聚类分类,获得正常拷贝类和拷贝变异类,所述拷贝变异类包括两个拷贝变异子类,分别是高拷贝变异子类和低拷贝变异子类;将归属于所述高拷贝变异子类的高拷贝异常位点以及归属于所述低拷贝变异子类的低拷贝异常位点,分别确定为拷贝变异位点;将位置相邻且属于同一拷贝变异子类的拷贝变异位点进行合并,获得拷贝变异片段。2.如权利要求1所述的核基因组拷贝数变异检测方法,其特征在于,所述方法还包括:若所述待测样本不是女性样本,确定所述待测样本为男性样本,当任一指定位点的测序深度值小于该指定位点对应的置信区间,确定该指定位点为低拷贝异常位点;当任一指定位点的测序深度值大于该指定位点对应的置信区间,确定该指定位点为高拷贝异常位点。3.如权利要求1或2所述的核基因组拷贝数变异检测方法,其特征在于,所述指定位点对应的置信区间及RD设定均值通过以下步骤计算:获取多个训练样本的测序数据;所述测序数据包括M1个候选位点的测序深度值;多个训练样本包括多个女性训练样本和多个男性训练样本;对所有候选位点的测序深度值进行无监督聚类分类,获得多个分类类别;计算每一所述分类类别的第一测序深度均值;根据所述第一测序深度均值从多个分类类别中识别出噪音类别;将所述噪音类别所包括的候选位点剔除,获得M2个设定位点;识别M2个设定位点中的X染色体设定位点、Y染色体设定位点和常染色体设定位点;根据多个女性训练样本的测序数据的一半数值和多个男性训练样本的测序数据,计算每一所述X染色体设定位点的RD设定均值及方差;根据多个训练样本的测序数据,计算每一所述Y染色体设定位点的RD设定均值及方差;根据多个训练样本的测序数据,计算每一所述常染色体设定位点的RD设定均值及方差;从M2个设定位点中确定出全部或部分设定位点作为指定位点;
根据所述RD设定均值及方差,计算每一所述指定位点的置信区间。4.如权利要求3所述的核基因组拷贝数变异检测方法,其特征在于,所述根据多个女性训练样本的测序数据的一半数值和多个男性训练样本的测序数据,计算每一所述X染色体设定位点的RD设定均值及方差,包括:通过以下公式计算每一所述X染色体设定位点的RD设定均值及方差:通过以下公式计算每一所述X染色体设定位点的RD设定均值及方差:其中,为第w个X染色体设定位点的RD设定均值,Y1为女性训练样本的数量,Y2为男性训练样本的数量,RD
wy
为第y个训练样本在第w个X染色体设定位点上的测序深度值,S
sw2
为第w个X染色体设定位点的方差。5.如权利要求4所述的核基因组拷贝数变异检测方法,其特征在于,所述根据多个训练样本的测序数据,计算每一所述Y染色体设定位点的RD设定均值及方差,包括:通过以下公式计算每一所述Y染色体设定位点的RD设定均值及方差:通过以下公式计算每一所述Y染色体设定位点...

【专利技术属性】
技术研发人员:赵哲韩雪莹韦晨曦申剑峰刘学
申请(专利权)人:郑州金域临床检验中心有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1