确定待测样本预定染色体不稳定指数的方法、系统和计算机可读介质技术方案

技术编号:24760384 阅读:25 留言:0更新日期:2020-07-04 10:08
本发明专利技术提出了确定待测样本预定染色体不稳定指数的方法。该方法包括:(1)划分窗口序列(bins);(2)与所述参考序列;(3)统计bins中每一个的匹配测序读段数目;(4)对每个bins的匹配测序读段数目进行过滤,标准化,校正处理;(5)对步骤(4)所获得的结果进行取对数处理,以便获得每个bins的测序读段数目的对数值log R ratio;(6)确定第一预选异常窗口序列;(7)确定第二预选异常窗口序列;(8)确定异常窗口序列;(9)确定所述异常窗口序列的每一个拷贝数变异发生频率;(10)确定所述待测样本针对所述预定染色体的不稳定指数。

Method, system and computer-readable medium for determining predetermined chromosome instability index of samples to be tested

【技术实现步骤摘要】
确定待测样本预定染色体不稳定指数的方法、系统和计算机可读介质
本专利技术涉及生物信息领域,具体地,本专利技术涉及确定待测样本预定染色体不稳定指数的方法、系统和计算机可读介质。
技术介绍
癌症会引起基因组的某些区域的扩增或缺失,30%的癌症患者会引起人的染色体加倍。那么染色体扩增或缺失的比率是否与癌症具有相关性,又或者说,通过染色体扩增或缺失的比率,是否可推知样本来源于癌症机体的概率?这是科研工作者亟待解决的问题。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术创新性的开发了“染色体不稳定指数chromosomeinstability(CIN)score”的计算法,以用来衡量样本预定染色体的不稳定性。基于此,在本专利技术的第一方面,本专利技术提出了确定待测样本预定染色体不稳定指数的方法。根据本专利技术的实施例,所述方法包括:(1)将所述预定染色体的参考序列划分为多个相同长度的窗口序列(bins);(2)将来自所述待测样本的测序数据与所述参考序列进行比对,所述测本文档来自技高网...

【技术保护点】
1.一种确定待测样本预定染色体不稳定指数的方法,其特征在于,包括:/n(1)将所述预定染色体的参考序列划分为多个相同长度的窗口序列bins;/n(2)将来自所述待测样本的测序数据与所述参考序列进行比对,所述测序数据由多个测序读段reads构成;/n(3)基于步骤(2)的比对结果,分别统计所述多个窗口序列每一个的匹配测序读段数目;/n(4)基于步骤(3)的统计结果,对每个窗口的匹配测序读段数目进行过滤,标准化,校正处理;/n(5)对步骤(4)所获得的标准化和校正后的每个窗口的匹配测序读段数目进行取对数处理,以便获得每个窗口的测序读段数目的对数值logRratio;/n(6)对步骤(5)所获得的l...

【技术特征摘要】
1.一种确定待测样本预定染色体不稳定指数的方法,其特征在于,包括:
(1)将所述预定染色体的参考序列划分为多个相同长度的窗口序列bins;
(2)将来自所述待测样本的测序数据与所述参考序列进行比对,所述测序数据由多个测序读段reads构成;
(3)基于步骤(2)的比对结果,分别统计所述多个窗口序列每一个的匹配测序读段数目;
(4)基于步骤(3)的统计结果,对每个窗口的匹配测序读段数目进行过滤,标准化,校正处理;
(5)对步骤(4)所获得的标准化和校正后的每个窗口的匹配测序读段数目进行取对数处理,以便获得每个窗口的测序读段数目的对数值logRratio;
(6)对步骤(5)所获得的logRratio进行平滑处理,并将窗口进行合并和CNV片段化处理,确定第一预选异常窗口序列;
(7)基于标准化和校正后的每个窗口的匹配测序读段数目,获得每个窗口的匹配测序读段数目的标准分数,确定第二预选异常窗口序列;
(8)基于(6)或(7)确定第一预选异常窗口序列或第二预选异常窗口序列,确定异常窗口序列;
(9)基于已知的肿瘤数据库,确定所述异常窗口序列的每一个拷贝数变异发生频率;
(10)基于多个所述异常窗口序列的每一个的所述匹配测序读段数目、所述拷贝数变异发生频率、所述窗口序列的长度以及预定的常规参数,确定所述待测样本针对所述预定染色体的不稳定指数。


2.根据权利要求1所述的方法,其特征在于,所述待测样本来源于疑似癌症患者。


3.根据权利要求2所述的方法,其特征在于,所述待测样本为血液、体液、尿液、唾液或皮肤。


4.根据权利要求1所述的方法,其特征在于,测序数据是通过对血浆游离的DNA进行全基因组建库后,使用二代测序仪测序获得的,平均测序深度为小于1X,2X,3X,4X或5X,
任选地,所述二代测序仪为XTen、NovaSeq或NextSeq500。


5.根据权利要求2所述的方法,其特征在于,确定述窗口序列的长度为:1M,50K,20K,10K或5K。


6.根据权利要求1所述的方法,其特征在于,在步骤(4)中,匹配测序读段数据是经过GC和比对率矫正后获得的。


7.根据权利要求1所述的方法,其特征在于,在步骤(6)中,进行平滑处理并将窗口进行合并和CNV片段化处理后的logRratio大于0.1或小于-0.1,是该logRratio所对应的窗口为第一预选异常窗口序列的指示。


8.根据权利要求1所述的方法,其特征在于,在步骤(7)中,基于下列公式确定第二预选异常窗口序列:
zi=(xi-μi)/σi
其中,xi表示校正后的来自所述待测样本的第i个窗口序列的测序数据与第i个窗口参考序列匹配的匹配测序读段数目;
μi表示校正后的预先确定的来自多个参考集样本的第i个窗口序列的测序数据与第i个窗口参考序列匹配的匹配测序读段数目的平均值;
σi表示预先确定的来自多个参考集样本的第i个窗口序列的测序数据与第i个窗口参考序列匹配的匹配测序读段数目的标准方差;
zi表示每个窗口的匹配测序读段数目的标准分数;
所述参考集为已知正常人群样本。


9.根据权利要求8所述的方法,其特征在于,zi大于3或小于-3是所述待测样本的第i个窗口序列为第二预选异常窗口序列的指示。


10.根据权利要求7~9任一项所述的方法,其特征在于,在步骤(8)中,logRratio大于0.1或小于-0.1和/或zi大于3或小于-3,是窗口为异常窗口序列的指示。


11.根据权利要求1所述的方法,其特征在于,步骤(10)中,通过下列公式确定所述待测样本针对所述预定染色体的不稳定指数CINscore,






其中,n表示所述总的窗口序列的数目;
a表示预定的恒定常数,与窗口大小有关;
lk表示第k个异常窗口的长度;
fk表示第k个异常窗口序列发生CNV的概率;
abs(Z-score)表示第k个窗口的标准分数的绝对值;
abs(logR)表示平滑处理后的第k个窗口的logRratio的绝对值。


12.根据权利要求11所述的方法,其特征在于,所述第k个异常窗口序列发生CNV的频率是基于WGS肿瘤样本的CNV变异结果确定的,其中,在所述WGS肿瘤样本中,第k个异常窗口序列区间与所述肿瘤样本的CNV变异区域的重叠区域占第k个异常窗口序列区间的90%以上,是所述第k个异常窗口序列区间在所述肿瘤样本中存在CNV的指示,所述fk是包含第k个异常窗口序列区间的癌症样本的数目与所述癌症样本总数目的比值。


13.根据权利要求1所述的方法,其特征在于,进一步包括基于多个已知状态的样本以及所述待测样本的CINscore和/或标准分数,确定所述待测样本的癌症概率。


14.一种计算机可读介质,其特征在于,所述计算机可读介质中存储有指令,所述指令被适于处理执行以便通过下列步骤确定待测样本预定染色体不稳定指数,
(1)将所述预定染色体的参考序列划分为多个相同长度的窗口序列bins;
(2)将来自所述待测样本的测序数据与所述参考序列进行比对,所述测序数据由多个测序读段reads构成;
(3)基于步骤(2)的比对结果,分别统计所述多个窗口序列每一个的匹配测序读段数目;
(4)基于步骤(3)的统计结果,对每个窗口的匹配测序读段数目进行过滤,标准化,校正处理;
(5)对步骤(4)所获得的标准化和校正后的每个窗口的匹配测序读段数目进行取对数处理,以便获得每个窗口的测序读段数目的对数值logRratio;
(6)对步骤(5)所获得的logRratio进行平滑处理,并将窗口进行合并和CNV片段化处理,确定第一预选异常窗口序列;
(7)基于标准化和校正后的每个窗口的匹配测序读段数目,获得每个窗口的匹配测序读段数目的标准分数,确定第二预选异常窗口序列;
(8)基于(6)或(7)确定第一预选异常窗口序列或第二预选异常窗口序列,确定异常窗口序列;
(9)基于已知的肿瘤数据库,确定所述异常窗口序列的每一个拷贝数变异发生频率;
(10)基于多个所述异常窗口序列的每一个的所述匹配测序读段数目、所述拷贝数变异发生频率、所述窗口序列的长度以及预定的常规参数,确定所述待测样本针对所述预定染色体的不稳定指数。


15.根据权利要求14所述的计算机可读介质,其特征在于,所述待测样本来源于疑似癌症患者;
任选地,所述待测样本为血液、体液、尿液、唾液或皮肤;
任选地,测序数据是通过对血浆游离的DNA进行全基因组建库后,使用二代测序仪测序获得的,平均测序深度为小于1X,2X,3X,4X或5X,
任选地,所述二代测序仪为XTen、NovaSeq或NextSeq500;
任选地,确定述窗口序列的长度为:1M,50K,20K,10K或5K。


16.根据权利要求14所述的计算机可读介质,其特征在于,在步骤(4)中,所述匹配测序读段数据是经过GC和比对率矫正后获得的;
任选地,在步骤(6)中,进行平滑处理并将窗口进行合并和CNV片段化处理后的logRratio大于0.1或小于-0.1,是该logRratio所对应的窗口为第一预选异常窗口序列的指示;
任选地,在步骤(7)中,基于下列公式确定第二预选异常窗口序列:
zi=(...

【专利技术属性】
技术研发人员:李世勇茅矛张锋陈彦钟果林张岩陈灏封裕敏
申请(专利权)人:深圳思勤医疗科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1