一种微卫星不稳定性的分析方法和分析装置制造方法及图纸

技术编号:26602331 阅读:28 留言:0更新日期:2020-12-04 21:25
本发明专利技术提供了一种微卫星不稳定性的分析方法和分析装置,所述方法包括:对筛选的每一个微卫星不稳定标志物构建序列列表;获得肿瘤样本比对文件和健康样本比对文件;分别将肿瘤样本比对文件和健康样本比对文件的每对读长与微卫星位点标志物的2~3kb范围内的序列进行比对,获取覆盖微卫星位点标志物的总读取数;分别将肿瘤样本比对文件和健康样本比对文件的每对读长与微卫星位点标志物的序列列表进行比对,获取覆盖序列列表Lmi的总读取数;根据读取占比分布计算肿瘤样本和健康样本的KL散度和JS散度。本发明专利技术的方法基于健壮的JS散度方法比较肿瘤样本和健康样本之间的读取长度分布,准确地进行MSI检测。

【技术实现步骤摘要】
一种微卫星不稳定性的分析方法和分析装置
本专利技术属于生物信息学
,涉及一种微卫星不稳定性的分析方法和分析装置。
技术介绍
“微卫星”(Microstallite)是遍布于人体基因组上的短串联重复序列,一般以1~6个碱基为重复单位,重复次数为10~50次。与正常细胞相比,肿瘤细胞由于发生错配修复(MMR)基因缺陷,微卫星的重复单位插入或缺失导致微卫星的长度发生改变,称为微卫星不稳定(MicrostalliteInstability,MSI)。MSI与肿瘤的发生紧密相关,MSI状态不同的实体瘤对Keytruda等多种免疫检查点药物的响应率显著不同。近年来随着多种免疫检查技术获批,MSI/dMMR的检测变得越来越重要。微卫星广泛分布于基因组上,平均每6kb区域存在一个20bp长度的微卫星位点,重复次数和重复程度呈高度多态性。传统的MSI检测方法多为基于5个微卫星位点的多重PCR+毛细血管电泳法,但是检测的微卫星位点数目有限;第二代测序技术(NGS)可以同时检测大量的微卫星位点,已被用于检测癌症中的MSI。国家癌症研究所(NCI)为了标准化癌症MSI检测,提出了两个单核苷酸重复(BAT-25和BAT-26)和三个双核苷酸重复(D2S123,D5S346,D17S250)作为检测微卫星位点的标志物,其中,当至少两个微卫星位点不稳定时,定义为高频MSI(MSI-H),当所有微卫星位点均稳定或有一个位点不稳定时,定义为微卫星稳定(MSS)或低频MSI(MSI-L)。在临床上MSS和MSI-L为同一组。近期,研究人员提出了五个单核苷酸重复微卫星位点(BAT-52,BAT-55,BAT-56,BAT-57,BAT-59)组成的标志物组合,在早期结直肠癌的MSI检测中呈现出高灵敏度。目前,主要采用NGS分析癌症中的MSI,NGS可以检测成千上万个微卫星位点,但是并非所有微卫星位点都适合作为癌症MSI的标志物,因此需要相应的方法学进一步筛选出适合的标志物。常用的分析方法主要进行微卫星重复序列的长度分布的比较,比如MSIsensor基于卡方检验比较肿瘤样本和健康样本之间的读取长度分布,从而估计每个肿瘤/健康组织上微卫星位点的突变状态;mSINGs则假定读取长度分布为正态分布,利用Z-score进行比较。这两种方法均对微卫星位点的读取长度分布模型进行了预设,与真实的情况存在偏差,在测序深度比较高时容易造成假阳性。MANTIS基于肿瘤样本和健康样本之间支持每个微卫星位点的标准化读取数的差值(距离值)的平均值来评估其突变状态,敏感性受样本数量的影响较大,在样本量少或低测序深度时会造成假阴性。
技术实现思路
针对现有技术的不足和实际需求,本专利技术提供了一种微卫星不稳定性的分析方法和分析装置,所述方法基于JS散度比较肿瘤样本和健康样本的读取长度分布,准确地进行MSI检测。为达此目的,本专利技术采用以下技术方案:第一方面,本专利技术提供了一种微卫星不稳定性的分析方法,所述方法包括以下步骤:(1)筛选微卫星不稳定标志物,并对每一个微卫星不稳定标志物Mi构建序列列表Lmi;(2)将肿瘤样本和健康样本的测序数据经过过滤处理后,比对到参考基因组上,分别获得肿瘤样本比对文件和健康样本比对文件;(3)分别将肿瘤样本比对文件和健康样本比对文件的每对读长与微卫星位点标志物Mi的2~3kb范围内的序列进行比对,统计比对成功的读长数量,作为覆盖微卫星位点标志物Mi的总读取数Rmi、Rmi’;(4)分别将肿瘤样本比对文件和健康样本比对文件的每对读长与微卫星位点标志物Mi的序列列表Lmi进行比对,统计比对成功的读长数量,作为覆盖序列列表Lmi的总读取数Rni、Rni’;(5)计算肿瘤样本Pni=Rni/Rmi、健康样本Qni=Rni’/Rmi’;(6)根据Pni和Qni计算肿瘤样本和健康样本的KL散度和JS散度;其中,i为≤微卫星不稳定标志物个数的正整数。本专利技术基于迈杰转化医学研究(苏州)有限公司开发的泛癌NGSpanelMED1CDx进行微卫星标志物的筛选,选择单碱基重复长度≥15个核苷酸、双碱基或多碱基重复单元重复次数≥8的位点,筛选得到138个微卫星位点作为MSI检测标志物。优选地,步骤(1)所述序列列表Lmi包括微卫星位点标志物Mi的序列Sn;所述序列Sn包括微卫星位点标志物Mi上游3~5个碱基的序列+微卫星重复单元×n+微卫星位点标志物Mi下游3~5个碱基的序列;其中,n为0~((读长长度-上游碱基序列长度-下游碱基序列长度)÷重复单元长度)的整数,当读长长度为150、上游碱基序列长度为5、下游碱基序列长度为5时,n为0~(140÷重复单元长度)的整数。优选地,步骤(6)所述肿瘤样本和健康样本的KL散度的计算公式为:KL(Pi||Qi)=Pni×log(Pni÷Qni);KL(Qi||Pi)=∑Qni×log(Qni÷Pni)。优选地,步骤(6)所述肿瘤样本和健康样本的JS散度的计算公式为:JSD(Pi||Qi)=(KL(Pi||Mi)+KL(Qi||Mi))÷2=(∑Pni×log(Pni÷(Pni+Qni))+∑Qni×log(Qni÷(Pni+Qni)))÷2+log2其中,Mi=(Pi+Qi)÷2。优选地,所述方法在步骤(6)之后还包括计算平均JS散度的步骤;所述平均JS散度的计算公式为:AJSD=(∑JSD(Pi||Qi))÷微卫星不稳定标志物个数。第二方面,本专利技术提供了一种微卫星不稳定性的分析装置,所述装置包括:序列列表Lmi构建单元,用于对筛选的每一个微卫星不稳定标志物Mi构建序列列表Lmi;测序数据比对单元,用于将经过过滤处理的肿瘤样本和健康样本的测序数据比对到参考基因组上,获得肿瘤样本比对文件和健康样本比对文件;总读取数获取单元,用于分别将肿瘤样本比对文件和健康样本比对文件的每对读长与微卫星位点标志物Mi的2~3kb范围内的序列进行比对,或与微卫星位点标志物Mi的序列列表Lmi进行比对,统计比对成功的读长数量,获取覆盖微卫星位点标志物Mi的总读取数Rmi、Rmi’,或覆盖序列列表Lmi的总读取数Rni、Rni’;读取占比分布计算单元,用于计算肿瘤样本Pni=Rni/Rmi、健康样本Qni=Rni’/Rmi’;散度分析单元,用于根据Pni和Qni计算肿瘤样本和健康样本的KL散度、JS散度和平均JS散度。优选地,所述序列列表Lmi包括微卫星位点标志物Mi的序列Sn;所述序列Sn包括微卫星位点标志物Mi上游3~5个碱基的序列+微卫星重复单元×n+微卫星位点标志物Mi下游3~5个碱基的序列,其中n为0~((读长长度-上游碱基序列长度-下游碱基序列长度)÷重复单元长度)的整数。优选地,所述肿瘤样本和健康样本的KL散度的计算公式为:KL(Pi||Qi)=Pni×log(Pni÷Qni);本文档来自技高网
...

【技术保护点】
1.一种微卫星不稳定性的分析方法,其特征在于,所述方法包括以下步骤:/n(1)筛选微卫星不稳定标志物,并对每一个微卫星不稳定标志物Mi构建序列列表Lmi;/n(2)将肿瘤样本和健康样本的测序数据经过过滤处理后,比对到参考基因组上,分别获得肿瘤样本比对文件和健康样本比对文件;/n(3)分别将肿瘤样本比对文件和健康样本比对文件的每对读长与微卫星位点标志物Mi的2~3kb范围内的序列进行比对,统计比对成功的读长数量,作为覆盖微卫星位点标志物Mi的总读取数Rmi、Rmi’;/n(4)分别将肿瘤样本比对文件和健康样本比对文件的每对读长与微卫星位点标志物Mi的序列列表Lmi进行比对,统计比对成功的读长数量,作为覆盖序列列表Lmi的总读取数Rni、Rni’;/n(5)计算肿瘤样本Pni=Rni/Rmi、健康样本Qni=Rni’/Rmi’;/n(6)根据Pni和Qni计算肿瘤样本和健康样本的KL散度和JS散度;/n其中,i为≤微卫星不稳定标志物个数的正整数。/n

【技术特征摘要】
1.一种微卫星不稳定性的分析方法,其特征在于,所述方法包括以下步骤:
(1)筛选微卫星不稳定标志物,并对每一个微卫星不稳定标志物Mi构建序列列表Lmi;
(2)将肿瘤样本和健康样本的测序数据经过过滤处理后,比对到参考基因组上,分别获得肿瘤样本比对文件和健康样本比对文件;
(3)分别将肿瘤样本比对文件和健康样本比对文件的每对读长与微卫星位点标志物Mi的2~3kb范围内的序列进行比对,统计比对成功的读长数量,作为覆盖微卫星位点标志物Mi的总读取数Rmi、Rmi’;
(4)分别将肿瘤样本比对文件和健康样本比对文件的每对读长与微卫星位点标志物Mi的序列列表Lmi进行比对,统计比对成功的读长数量,作为覆盖序列列表Lmi的总读取数Rni、Rni’;
(5)计算肿瘤样本Pni=Rni/Rmi、健康样本Qni=Rni’/Rmi’;
(6)根据Pni和Qni计算肿瘤样本和健康样本的KL散度和JS散度;
其中,i为≤微卫星不稳定标志物个数的正整数。


2.根据权利要求1所述的方法,其特征在于,步骤(1)所述微卫星不稳定标志物为单碱基重复长度≥15个核苷酸、双碱基或多碱基重复单位重复次数≥8的位点。


3.根据权利要求1所述的方法,其特征在于,步骤(1)所述序列列表Lmi包括微卫星位点标志物Mi的序列Sn;
所述序列Sn包括微卫星位点标志物Mi上游3~5个碱基的序列+微卫星重复单元×n+微卫星位点标志物Mi下游3~5个碱基的序列;
其中,n为0~((读长长度-上游碱基序列长度-下游碱基序列长度)÷重复单元长度)的整数。


4.根据权利要求1所述的方法,其特征在于,步骤(6)所述肿瘤样本和健康样本的KL散度的计算公式为:
KL(Pi||Qi)=Pni×log(Pni÷Qni);
KL(Qi||Pi)=∑Qni×log(Qni÷Pni)。


5.根据权利要求1所述的方法,其特征在于,步骤(6)所述肿瘤样本和健康样本的JS散度的计算公式为:
JSD(Pi||Qi)=(KL(Pi||Mi)+KL(Qi||Mi))÷2
=(∑Pni×log(Pni÷(Pni+Qni))+∑Qni×log(Qni÷(Pni+Qni)))÷2+log2
其中,Mi=(Pi+Qi)÷2。


6.根据权利要求...

【专利技术属性】
技术研发人员:全雪萍肖燕伟浦宇张亚飞
申请(专利权)人:迈杰转化医学研究苏州有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1