System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及基因测序,尤其涉及一种基于平滑模型的基因组拷贝数变异断点识别方法及系统。
技术介绍
1、基因组拷贝数变异(copy number variation,简称cnv)是染色体重排的结果,可能会导致一些遗传性疾病,基因组拷贝数变异断点的确切位置能够反映出基因组拷贝数变异断点的长度以及基因组拷贝数变异断点处的基因,这对于研究由基因组拷贝数变异断点导致的疾病的病因很重要。
2、在dna测序过程中,将dna打断成多个dna片段(即reads)进行测序是常见的做法,这主要是为了适应测序仪器的读长限制以及提高测序效率。然而,如何确定适合每个dna片段(reads)的测序深度,从而提高测序效率、节约测序资源显得尤为重要。测序深度(sequencing depth)通常指的是测序得到的碱基总量与基因组大小的比值,它反映的是整个基因组或特定区域被测序的平均次数。由于不同dna片段的碱基类型及碱基顺序不同,因此适合不同dna片段的测序深度也不尽相同,过大的测序深度会导致测序资源的浪费,过小的测序深度会导致测序准确度下降,当前对不同dna片段进行测序时,并未根据dna片段的具体特征对测序深度进行精准调控,因此当前对dna进行测序进而识别基因组拷贝数变异断点的过程存在测序效率低的问题。
技术实现思路
1、本专利技术提供一种基于平滑模型的基因组拷贝数变异断点识别方法及系统,其主要目的在于解决当前对dna进行测序进而识别基因组拷贝数变异断点的过程存在测序效率低的问题。
2、为
3、获取待测dna及测序深度指标序列,其中,所述测序深度指标序列包括:at碱基、gc碱基、外显子区段、内含子区段、第1病区碱基、第2病区碱基、…及第n病区碱基;
4、根据测序深度指标序列,利用预构建的碱基测序深度公式计算所述待测dna中每一个待测碱基的碱基测序深度,得到测序深度序列;
5、根据测序深度序列构建测序深度曲线,识别预设的限制酶集对应的切分位点集;
6、在所述切分位点集中选取多组切分位点序列,在所述多组切分位点序列中依次提取切分位点序列,根据切分位点序列对所述测序深度曲线进行切分,得到测序深度曲线序列;
7、利用预构建的平滑模型计算所述测序深度曲线序列的切分平滑值,得到切分平滑值集;
8、在所述切分平滑值集中选取最佳切分平滑值,识别所述最佳切分平滑值对应的最佳切分位点序列,根据最佳切分位点序列对所述待测dna进行切分,得到目标待测dna集;
9、在所述目标待测dna集中依次提取目标待测dna,识别目标待测dna的目标测序深度;
10、根据目标测序深度对所述目标待测dna进行基因组拷贝数变异断点识别,完成基于平滑模型的基因组拷贝数变异断点识别。
11、可选地,所述根据测序深度序列构建测序深度曲线,包括:
12、根据所述待测dna构建待测dna横轴,在所述待测dna横轴上识别起始测序碱基;
13、根据所述起始测序碱基建立测序深度纵轴,得到dna-测序坐标系;
14、在所述测序深度序列中依次提取测序深度,在所述dna-测序坐标系中识别所述测序深度对应的碱基位点;
15、根据所述碱基位点及所述测序深度在所述dna-测序坐标系中确定碱基测序点,得到碱基测序点集;
16、拟合所述碱基测序点集,得到测序深度曲线。
17、可选地,所述根据测序深度指标序列,利用预构建的碱基测序深度公式计算所述待测dna中每一个待测碱基的碱基测序深度之前,所述方法还包括:
18、对所述at碱基、gc碱基、外显子区段、内含子区段、第1病区碱基、第2病区碱基、…及第n病区碱基进行测序深度赋值,得到第1测序深度指标值、第2测序深度指标值、…、第j测序深度指标值;
19、对所述at碱基、gc碱基、外显子区段、内含子区段、第1病区碱基、第2病区碱基、…及第n病区碱基进行指标权重赋值,得到第1个测序深度指标权重、第2个测序深度指标权重、…及第j个测序深度指标权重。
20、可选地,所述在所述切分位点集中选取多组切分位点序列,包括:
21、对所述切分位点集进行排序,得到原始切分位点序列;
22、获取序列位点数集,在所述序列位点数集中依次提取序列位点数;
23、根据序列位点数在所述原始切分位点序列中选取目标切分位点序列集;
24、汇总各个序列位点数对应的目标切分位点序列集,得到多组切分位点序列。
25、可选地,所述根据序列位点数在所述原始切分位点序列中选取目标切分位点序列集,包括:
26、根据所述序列位点数设定第1序列位点、第2序列位点、…、第p序列位点,其中,p表示序列位点数;
27、获取初始位点序列集,其中,所述初始位点序列集中初始位点序列的初始位点数为p,p≥1;
28、在所述初始位点序列集中依次提取初始位点序列;
29、在所述原始切分位点序列中剔除所述初始位点序列,得到第p+1可选位点集;
30、在所述第p+1可选位点集中依次提取目标第p+1位点;
31、根据所述目标第p+1位点及所述初始位点序列构建第p+1位点序列,得到第p+1位点序列集,利用第p+1位点序列集更新所述初始位点序列集;
32、判断p+1是否等于p;
33、若p+1不等于p,则利用p+1更新p,并返回上述在所述初始位点序列集中依次提取初始位点序列的步骤;
34、若p+1等于p,则将第p+1位点序列集作为目标切分位点序列集。
35、可选地,所述获取初始位点序列集,包括:
36、在所述切分位点集中依次提取切分位点;
37、将所述切分位点作为初始位点序列,得到初始位点序列集,其中,所述初始位点序列中的初始位点数为1。
38、可选地,所述根据切分位点序列对所述测序深度曲线进行切分,得到测序深度曲线序列,包括:
39、在所述切分位点序列中依次提取序列切分位点,识别所述序列切分位点在所述待测dna横轴中的序列切分坐标点,得到序列切分坐标点集;
40、根据所述序列切分坐标点集对所述测序深度曲线进行切分,得到测序深度曲线序列。
41、可选地,所述根据最佳切分位点序列对所述待测dna进行切分,得到目标待测dna集,包括:
42、在所述最佳切分位点序列中依次提取最佳切分位点,识别所述最佳切分位点对应的最佳限制酶,得到最佳限值酶集;
43、根据所述最佳限值酶集对所述待测dna进行切分,得到目标待测dna集。
44、可选地,所述识别目标待测dna的目标测序深度,包括:
45、识别所述目标待测dna的起始切分位点及终止切分位点;
46、本文档来自技高网...
【技术保护点】
1.一种基于平滑模型的基因组拷贝数变异断点识别方法,其特征在于,所述方法包括:
2.如权利要求1所述的基于平滑模型的基因组拷贝数变异断点识别方法,其特征在于,所述根据测序深度序列构建测序深度曲线,包括:
3.如权利要求1所述的基于平滑模型的基因组拷贝数变异断点识别方法,其特征在于,所述根据测序深度指标序列,利用预构建的碱基测序深度公式计算所述待测DNA中每一个待测碱基的碱基测序深度之前,所述方法还包括:
4.如权利要求1所述的基于平滑模型的基因组拷贝数变异断点识别方法,其特征在于,所述在所述切分位点集中选取多组切分位点序列,包括:
5.如权利要求4所述的基于平滑模型的基因组拷贝数变异断点识别方法,其特征在于,所述根据序列位点数在所述原始切分位点序列中选取目标切分位点序列集,包括:
6.如权利要求5所述的基于平滑模型的基因组拷贝数变异断点识别方法,其特征在于,所述获取初始位点序列集,包括:
7.如权利要求2所述的基于平滑模型的基因组拷贝数变异断点识别方法,其特征在于,所述根据切分位点序列对所述测序深度曲线进行切
8.如权利要求1所述的基于平滑模型的基因组拷贝数变异断点识别方法,其特征在于,所述根据最佳切分位点序列对所述待测DNA进行切分,得到目标待测DNA集,包括:
9.如权利要求1所述的基于平滑模型的基因组拷贝数变异断点识别方法,其特征在于,所述识别目标待测DNA的目标测序深度,包括:
10.一种基于平滑模型的基因组拷贝数变异断点识别系统,其特征在于,所述系统包括:
...【技术特征摘要】
1.一种基于平滑模型的基因组拷贝数变异断点识别方法,其特征在于,所述方法包括:
2.如权利要求1所述的基于平滑模型的基因组拷贝数变异断点识别方法,其特征在于,所述根据测序深度序列构建测序深度曲线,包括:
3.如权利要求1所述的基于平滑模型的基因组拷贝数变异断点识别方法,其特征在于,所述根据测序深度指标序列,利用预构建的碱基测序深度公式计算所述待测dna中每一个待测碱基的碱基测序深度之前,所述方法还包括:
4.如权利要求1所述的基于平滑模型的基因组拷贝数变异断点识别方法,其特征在于,所述在所述切分位点集中选取多组切分位点序列,包括:
5.如权利要求4所述的基于平滑模型的基因组拷贝数变异断点识别方法,其特征在于,所述根据序列位点数在所述原始切分位点序列中选取目标...
【专利技术属性】
技术研发人员:蒋宇林,郝娜,李萌萌,张晗喆,阴凯丽,
申请(专利权)人:中国医学科学院北京协和医院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。