检测MSI的微卫星位点、其筛选方法及应用技术

技术编号:25525613 阅读:35 留言:0更新日期:2020-09-04 17:14
本发明专利技术提供了一种检测MSI的微卫星位点、其筛选方法及应用。选择长度为7‑15bp且其两端侧翼序列相似性低的微卫星候选位点,检测MSS测序数据中这些位点中的重复单元的类型及其频率,并去除人群多态性高于5%的位点,进一步选择其中重复单元的类型的频率的离散程度低于离散阈值的位点,即得到MSS模型样本的微卫星位点,最后选择其中重复单元类型频率分布与MSS模型样本的差异水平在MSI‑H样本和MSS样本中存在显著差异的位点作为检测MSI的微卫星位点。通过建立MSS模型样本作为正常样本对照,便于建立阴性样本基线或检测待测样本的微卫星状态。故在检测待测样本时,无需对照样本仅对单样本测序即可检测不稳定状态。

【技术实现步骤摘要】
检测MSI的微卫星位点、其筛选方法及应用
本专利技术涉及高通量测序数据分析领域,具体而言,涉及一种检测MSI的微卫星位点、其筛选方法及应用。
技术介绍
微卫星是人类基因组的一段串联重复序列,微卫星不稳定(MicrosatelliteInstability,MSI)指的是微卫星重复次数发生变化,出现新的等位基因,其内在机制是错配修复(MMR)系统失调,从而限制了纠正微卫星自发的长度改变的体细胞突变的能力,体细胞突变积累,最终形成MSI。错配修复(MMR)系统失调主要包含两种:1)错配修复基因MLH1,MSH2,MSH6和PMS2一个或者多个发生胚系突变,导致错配修复缺陷,MSI-H现象发生在遗传性非息肉性大肠癌(Lynchsyndrome)。2)MLH1启动子区域的超甲基化,MSI-H现象会散发在结直肠癌、子宫内膜癌、卵巢癌、胃癌等多种癌症中。MSI检测可用于林奇综合征的诊断,可用于转移性结直肠癌、非结直肠癌的MSI-H实体瘤和II期结直肠癌患者用药指导和预后预测。在临床应用中主要使用MSI-PCR方法判断MSI状态。该方法使用荧光标记引物和毛细管电泳确定Promegapanel中5个位点NR-21、NR-24、BAT-25、BAT-26和MONO-27的片段长度多态性。肿瘤样本和对照样本对比,5个微卫星检测位点均未出现PCR扩增片段大小改变,微卫星稳定型(MSS);5个MSI检测位点中1个MSI位点出现PCR扩增片段大小的改变,微卫星不稳定型-L(MSI-L);5个MSI检测位点中2个或者2个以上的MSI位点均出现PCR扩增片段大小的改变,微卫星不稳定型-H(MSI-H)。免疫组化错配修复是检测微卫星不稳定的一个方法,错配修复基因缺失或者完整与微卫星稳定性的一致性达到0.92,使用该方法会导致一定比例的漏检和误检。近年来,随着二代测序(NGS)数据MSI算法的发展,使用NGS数据进行MSI的分析方法在实践中得到越来越广泛的应用,比如MSIsensor,MSI-ColonCore,mSINGS以及臻和科技内部开发的MSI分析方法等,都具有高敏感性和高特异性。与PCR-MSI相比,NGS方法可以同时对MSI、SNV、CNV、Genefusion等生物标记物进行分析,在节约样本,时间和经济成本方面有巨大优势。在PCR或者NGSPCR扩增过程中,由于序列特性,单碱基重复序列(微卫星位点)会发生滑链现象,产生插入(insertion)或者缺失(deletion),这些新产生的等位基因类型(alleletype)称之为stutter,构成了MSI分析的背景噪音。由于这些背景噪音,在进行MSI分析时,要求样本的肿瘤纯度至少达到20%。而大部分的血浆样本肿瘤含量偏低,使用MSI-PCR或者现有的NGS方法对于此类样本无法准确判断MSI状态,因此分析低肿瘤含量的血浆样本的MSI状态,仍需要对现有方法进行改进。
技术实现思路
本专利技术的主要目的在于提供一种检测MSI的微卫星位点、其筛选方法及应用,以解决现有技术中难以准确分析低肿瘤含量的血浆样本的MSI状态的问题。为了实现上述目的,根据本专利技术的一个方面,提供了一种MSS血浆模型样本的微卫星位点的筛选方法,该筛选方法包括:从人类参考基因组序列或靶向基因捕获序列中提取符合第一条件的微卫星位点,记作第一位点集,第一条件包括:a.7~15bp的单碱基重复序列;b.与7~15bp的单碱基重复序列的两翼序列相似值低于相似阈值;获取多个MSS样本的测序数据,并从每个MSS样本的测序数据中筛选出第一位点集,并统计第一位点集中每个微卫星位点的重复单元的类型和每个重复单元的类型出现的频率;从第一位点集中选择满足第二条件的微卫星位点,作为第二位点集,第二条件包括:在人群中的多态性低于5%及在建库测序过程中的捕获效率高于捕获阈值;计算出所有MSS血浆样本在第二位点集中每个微卫星位点的每种重复单元的类型出现的频率的平均水平及离散程度,选择离散程度的平均水平低于离散阈值的微卫星位点,作为第三位点集;将第三位点集中的微卫星位点作为MSS血浆模型样本的微卫星位点,第三位点集中,每个微卫星位点的每个重复单元的类型出现的频率的平均水平作为MSS血浆模型样本中每个微卫星位点的重复单元的类型的频率分布。进一步地,从人类参考基因组序列或靶向基因捕获序列中提取符合第一条件的微卫星位点,记作第一位点集包括:从人类参考基因组序列中提取7~15bp的单碱基重复序列的微卫星位点;针对每个微卫星位点,计算7~15bp的单碱基重复序列的左右两端设定长度的序列与7~15bp的单碱基重复序列的相似值;选取相似值低于相似阈值的微卫星位点,作为第一位点集;优选地,相似值按如下公式计算:∑(d2+1-d1)/d2,其中d1是左右两端设定长度的序列中与7~15bp的单碱基重复序列相同的碱基距离微卫星位点的距离,d2为设定长度;优选地,d2为8~12bp,更优选为10bp;优选地,相似阈值为1.5~2.5,更优选为2。进一步地,获取多个MSS样本的测序数据,并从每个MSS样本的测序数据中筛选出第一位点集,并统计第一位点集中每个微卫星位点的重复单元的类型和每个重复单元的类型出现的频率包括:将每个MSS样本的测序数据分别与参考基因组序列进行比对,得到比对结果;从比对结果中查找第一位点集,并从比对结果中提取覆盖第一位点集中各微卫星位点的端到端reads,端到端reads是指覆盖微卫星位点及第一条件的微卫星位点左右两端至少各2bp的reads;统计覆盖每个微卫星位点的端到端reads中每种重复单元的类型和每种重复单元的类型出现的频率。进一步地,从比对结果中提取覆盖第一位点集中各微卫星位点的端到端reads包括:从比对结果中统计属于同一重复序列家族的端到端reads,并统计同一重复序列家族中不同重复单元的类型的数量,选择数量最多的重复单元的类型作为同一重复序列家族的重复单元的类型,并计入支持微卫星位点的端到端reads的支持数;优选地,支持各微卫星位点的各重复单元类型的端到端reads的支持数至少为两条;优选地,捕获效率以各所述微卫星位点的端到端reads数目对应样本的测序深度的比值来衡量,优选捕获阈值≥0.4。根据本申请的第二个方面,提供了一种用于检测MSI的微卫星位点的筛选方法,该筛选方法包括:选择多个已知MSI-H样本和多个已知MSS样本的测序数据,按照上述任一种筛选方法,分别筛选MSS血浆模型样本中的微卫星位点,并分别计算得到已知MSI-H样本和已知MSS样本的各微卫星位点的重复单元的类型的频率分布;分别计算已知MSI-H样本和已知MSS样本在各微卫星位点的重复单元的类型的频率分布与MSS血浆模型样本中重复单元的类型的频率分布之间的差异水平,并保留在已知MSI-H样本和已知MSS样本之间存在显著差异的微卫星位点作为用于检测MSI的微卫星位点。进一步地,按照公式(I)分别计算已知MSI-H样本和已知MSS样本在各微卫星位点的重复单元的类型的频率分布与MSS血浆模型样本中重复单元的类型的频率分本文档来自技高网
...

【技术保护点】
1.一种MSS血浆模型样本的微卫星位点的筛选方法,其特征在于,所述筛选方法包括:/n从人类参考基因组序列或靶向基因捕获序列中提取符合第一条件的微卫星位点,记作第一位点集,所述第一条件包括:a.7~15bp的单碱基重复序列;b.与所述7~15bp的单碱基重复序列的两翼序列相似值低于相似阈值;/n获取多个MSS样本的测序数据,并从每个所述MSS样本的所述测序数据中筛选出所述第一位点集,并统计所述第一位点集中每个所述微卫星位点的重复单元的类型和每个所述重复单元的类型出现的频率;/n从所述第一位点集中选择满足第二条件的微卫星位点,作为第二位点集,所述第二条件指包括:在人群中的多态性低于5%及在建库测序过程中的捕获效率高于捕获阈值;/n计算出所有所述MSS样本在所述第二位点集中每个所述微卫星位点的每种所述重复单元的类型出现的频率的平均水平及离散程度,选择所述离散程度的平均水平低于离散阈值的微卫星位点,作为第三位点集;/n将所述第三位点集中的微卫星位点作为所述MSS血浆模型样本的微卫星位点,所述第三位点集中,每个所述微卫星位点的每个所述重复单元的类型出现的频率的所述平均水平作为所述MSS血浆模型样本中每个所述微卫星位点的重复单元的类型的频率分布。/n...

【技术特征摘要】
1.一种MSS血浆模型样本的微卫星位点的筛选方法,其特征在于,所述筛选方法包括:
从人类参考基因组序列或靶向基因捕获序列中提取符合第一条件的微卫星位点,记作第一位点集,所述第一条件包括:a.7~15bp的单碱基重复序列;b.与所述7~15bp的单碱基重复序列的两翼序列相似值低于相似阈值;
获取多个MSS样本的测序数据,并从每个所述MSS样本的所述测序数据中筛选出所述第一位点集,并统计所述第一位点集中每个所述微卫星位点的重复单元的类型和每个所述重复单元的类型出现的频率;
从所述第一位点集中选择满足第二条件的微卫星位点,作为第二位点集,所述第二条件指包括:在人群中的多态性低于5%及在建库测序过程中的捕获效率高于捕获阈值;
计算出所有所述MSS样本在所述第二位点集中每个所述微卫星位点的每种所述重复单元的类型出现的频率的平均水平及离散程度,选择所述离散程度的平均水平低于离散阈值的微卫星位点,作为第三位点集;
将所述第三位点集中的微卫星位点作为所述MSS血浆模型样本的微卫星位点,所述第三位点集中,每个所述微卫星位点的每个所述重复单元的类型出现的频率的所述平均水平作为所述MSS血浆模型样本中每个所述微卫星位点的重复单元的类型的频率分布。


2.根据权利要求1所述的筛选方法,其特征在于,从人类参考基因组序列或靶向基因捕获序列中提取符合第一条件的微卫星位点,记作第一位点集包括:
从人类参考基因组序列中提取7~15bp的单碱基重复序列的微卫星位点;
针对每个所述微卫星位点,计算所述7~15bp的单碱基重复序列的左右两端设定长度的序列与所述7~15bp的单碱基重复序列的相似值;
选取所述相似值低于相似阈值的微卫星位点,作为所述第一位点集;
优选地,所述相似值按如下公式计算:∑(d2+1-d1)/d2,其中d1是所述左右两端设定长度的序列中与所述7~15bp的单碱基重复序列相同的碱基距离所述微卫星位点的距离,d2为所述设定长度;优选地,d2为8~12bp,更优选为10bp;
优选地,所述相似阈值为1.5~2.5,更优选为2。


3.根据权利要求2所述的筛选方法,其特征在于,获取多个MSS样本的测序数据,并从每个所述MSS样本的所述测序数据中筛选出所述第一位点集,并统计所述第一位点集中每个所述微卫星位点的重复单元的类型和每个所述重复单元的类型出现的频率包括:
将每个所述MSS样本的测序数据分别与参考基因组序列进行比对,得到比对结果;
从所述比对结果中查找所述第一位点集,并从所述比对结果中提取覆盖所述第一位点集中各所述微卫星位点的端到端reads,所述端到端reads是指覆盖微卫星位点及所述第一条件的微卫星位点左右两端至少各2bp的reads;
统计覆盖每个所述微卫星位点的所述端到端reads中每种重复单元的类型和每种所述重复单元的类型出现的频率。


4.根据权利要求3所述的筛选方法,其特征在于,从所述比对结果中提取覆盖所述第一位点集中各所述微卫星位点的端到端reads包括:
从所述比对结果中统计属于同一重复序列家族的端到端reads,并统计所述同一重复序列家族中不同重复单元的类型的数量,选择数量最多的所述重复单元的类型作为所述同一重复序列家族的重复单元的类型,并计入支持所述微卫星位点的端到端reads的支持数;
优选地,支持各所述微卫星位点的各重复单元类型的所述端到端reads的支持数至少为两条;
优选地,所述捕获效率以各所述微卫星位点的所述端到端reads数目对应样本的测序深度的比值来衡量,优选所述捕获阈值≥0.4。


5.一种用于检测MSI的微卫星位点的筛选方法,其特征在于,所述筛选方法包括:
选择多个已知MSI-H样本和多个已知MSS样本的测序数据,按照权利要求1至4中任一项所述的筛选方法,分别筛选所述MSS血浆模型样本中的微卫星位点,并分别计算得到所述已知MSI-H样本和所述已知MSS样本的各所述微卫星位点的重复单元的类型的频率分布;
分别计算所述已知MSI-H样本和所述已知MSS样本在各所述微卫星位点的重复单元的类型的频率分布与所述MSS血浆模型样本中重复单元的类型的频率分布之间的差异水平,并保留所述差异水平在MSI-H样本和MSS样本之间存在显著差异的微卫星位点作为所述用于检测MSI的微卫星位点。


6.根据权利要求5的筛选方法,其特征在于,所述按照公式(I)分别计算所述已知MSI-H样本和所述已知MSS样本在各所述微卫星位点的重复单元的类型的频率分布与所述MSS血浆模型样本中重复单元的类型的频率分布之间的KLD值,并保留所述KLD值在所述已知MSI-H样本和所述已知MSS样本之间存在显著差异的微卫星位点作为所述用于检测MSI的微卫星位点;



其中,p(x)代表所述MSI-H样本的各所述微卫星位点或所述已知MSS样本的各所述微卫星位点的所述频率分布,q(x)代表所述MSS血浆模型样本的各所述微卫星位点的所述频率分布;
优选地,采用非参数检验的方法检验各所述KLD值在所述已知MSI-H样本和所述已知MSS样本之间是否存在显著差异,优选采用Wilcox检验的方法。


7.一种用于检测MSI的微卫星位点,其特征在于,所述用于检测MSI的微卫星位点采用权利要求5或6所述的筛选方法筛选得到。


8.一种用于检测MSI的微卫星位点,其特征在于,所述用于检测MSI的微卫星位点包括表1所示的38个微卫星位点中的至少15个。


9.一种用于检测MSI的试剂盒,其特征在于,所述试剂盒包括用于检测MSI的微卫星位点的检测试剂,所述微卫星位点包括表1所示的38个微卫星位点中的至少15个。


10.一种用于检测MSI的基线构建方法,其特征在于,所述构建方法包括:
按照权利要求1至4中任一项所述的筛选方法,从多个已知MSS样本中筛选表1所示的用于检测MSI的38个微卫星位点中的至少15个;
统计出各所述微卫星位点的重复单元的类型的频率分布,并计算各所述重复单元的类型的频率分布与所述MSS血浆模型样本的重复单元的类型的频率分布的差异水平;
去除各所述样本中具有多态性的微卫星位点;
统计所有MSS样本的每个所述微卫星位点的差异水平的平均水平及离散程度,从而构建得到所述用于检测MSI的基线。


11.根据权利要求10所述的构建方法,其特征在于,按照公式(I)计算各所述重复单元的类型的频率分布与所述MSS血浆模型样本的重复单元的类型的频率分布的KLD值,



其中,p(x)代表所述已知MSS样本的所述微卫星位点的所述频率分布,q(x)代表所述MSS血浆模型样本的所述微卫星位点的所述频率分布;
统计所有已知MSS样本的每个所述微卫星位点的所述KLD值的平均水平及离散程度,从而构建得到所述用于检测MSI的基线。


12.根据权利要求11所述的构建方法,其特征在于,所述已知MSS样本中重复单元的类型与所述MSS血浆模型样本中的重复单元的类型不一致时,计算各所述已知MSS样本中重复单元的类型的频率分布与所述MSS血浆模型样本的重复单元的类型的频率分布的KLD值包括:
取所述已知MSS样本中重复单元的类型与所述MSS血浆模型样本中的重复单元的类型的并集,记作M,所述重复单元的类型的数目记作m,同时设置一个极小值ε;
分别对所述已知MSS样本中重复单元的类型的频率分布和所述MSS血浆模型样本中的重复单元的类型的频率分布进行平滑处理;
计算平滑处理后的所述已知MSS样本中重复单元的类型的频率分布与所述MSS血浆模型样本的重复单元的类型的频率分布的KLD值;
优选地,所述平滑处理包括:
与所述M相比,在所述已知MSS样本或者所述MSS血浆模型样本中,若缺少n个重复单元的类型,则缺少的重复单元的类型的频率为ε/n,则剩余的重复单元的类型的频率为p(x)-ε/(m-n)。


13.一种微卫星状态的检测方法,其特征在于,所述检测方法包括:
针对表1所示的38个用于检测MSI的微卫星位点中的至少15个位点,按照权利要求1至4中任一项所述的筛选方法,从待测样本中筛选各所述微卫星位点的重复单元的类型及所述重复单元的类型的频率分布;
计算出所述待测样本的各所述微卫星位点的重复单元的类型的频率分布与所述MSS血浆模型样本的重复单元的类型的频率分布的差异水平g1;
并根据基线样本的各所述微卫星位点的重复单元的类型的频率分布与所述MSS血浆模型样本的重复单元的类型的频率分布的差异水平g0的平均水平和离散程度,计算出所述待测样本的Z值;
选取所述待测样本的每个微卫星位点中最高频率的重复单元的类型Mp及所述MSS血浆模型样本的同样的所述微卫星位点中最高频率的重复单元的类型Mq,并根据如下任一方法判断所述微卫星位点为不稳定位点:
(1)若Mp≠Mq且所述待测样本的所述微卫星位点的差异水平g1>平均(g0)+zSD(g0);
(2)若Mp=Mq,且p(Mp)<=平均(q(Mq))+zSD(q(Mq)),同时,所述待测样本的所述微卫星位点的差异水平g1>平均(g0)+zSD(g0);
其中,所述平均(g0)表示所述基线样本的所述微卫星位点的差异水平g0的平均水平,所述SD(g0)表示所述基线样本的所述微卫星位点的差异水平g0的离散程度,z表示所述基线样本的所述微卫星位点的差异水平g0的偏离程度的系数;
统计所述待测样本中满足深度阈值的所述微卫星位点的Z值,获得Z值的平均水平,并根据如下条件判断所述待测样本的微卫星状态:
(1)满足所述深度阈值的所述微卫星位点的数目n1≥15,且其中不稳定位点的数目为n2,若n2/n1≥a,或Z值的平均水平≥b,则判断所述待测样本的微卫星状态为MSI-H;
(2)满足所述深度阈值的所述微卫星位点的数目n1≥15,且其中不稳定位点的数目为n2,n2/n1<a且Z值的平均水平<b,则判断所述待测样本的微卫星状态为MSS;
(3)满足所述深度阈值的所述微卫星位点的数目n1<15,则所述待测样本的微卫星状态为待定;
其中,a为0.15~0.3,b为0.8~2。


14.根据权利要求13所述的检测方法,其特征在于,所述检测方法包括:
分别按照公式(I)计算所述差异水平g0和所述差异水平g1得到所述基线样本的KLD值和所述待测样本的KLD值;
根据所述待测样本的KLD值与所述基线样本的KLD值的平均水平和离散程度,计算出所述待测样本的Z值;



其中,p(x)代表所述待测样本的所述微卫星位点或所述基线样本的所述微卫星位点的所述频率分布,q(x)代表所述MSS血浆模型样本的所述微卫星位点的所述频率分布。


15.根据权利要求13所述的检测方法,其特征在于,根据如下任一方法判断所述微卫星位点为不稳定位点:
(1)若Mp≠Mq且所述待测样本的KLD值>平均(Ki)+3SD(Ki);
(2)若Mp=Mq,且p(Mp)<=平均(q(Mq))+zSD(q(Mq)),同时,所述待测样本的所述待测样本的KLD值>平均(Ki)+3SD(Ki);
其中,所述平均(Ki)表示所述基线样本的KLD值的所述平均水平,所述SD(Ki)表示所述基线样本的KLD值的所述离散程度。


16.一种MSS血浆模型样本的微卫星位点的筛选装置,其特征在于,所述筛选装置包括:
第一位点集模块,用于从人类参考基因组序列或靶向基因的捕获序列中提取符合第一条件的微卫星位点,记作第一位点集,所...

【专利技术属性】
技术研发人员:赵利利于佳宁闫慧婷洪媛媛陈维之何骥杜波
申请(专利权)人:无锡臻和生物科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1