【技术实现步骤摘要】
检测MSI的微卫星位点、其筛选方法及应用
本专利技术涉及高通量测序数据分析领域,具体而言,涉及一种检测MSI的微卫星位点、其筛选方法及应用。
技术介绍
微卫星是人类基因组的一段串联重复序列,微卫星不稳定(MicrosatelliteInstability,MSI)指的是微卫星重复次数发生变化,出现新的等位基因,其内在机制是错配修复(MMR)系统失调,从而限制了纠正微卫星自发的长度改变的体细胞突变的能力,体细胞突变积累,最终形成MSI。错配修复(MMR)系统失调主要包含两种:1)错配修复基因MLH1,MSH2,MSH6和PMS2一个或者多个发生胚系突变,导致错配修复缺陷,MSI-H现象发生在遗传性非息肉性大肠癌(Lynchsyndrome)。2)MLH1启动子区域的超甲基化,MSI-H现象会散发在结直肠癌、子宫内膜癌、卵巢癌、胃癌等多种癌症中。MSI检测可用于林奇综合征的诊断,可用于转移性结直肠癌、非结直肠癌的MSI-H实体瘤和II期结直肠癌患者用药指导和预后预测。在临床应用中主要使用MSI-PCR方法判断MSI状态。该方法使用荧光标记引物和毛细管电泳确定Promegapanel中5个位点NR-21、NR-24、BAT-25、BAT-26和MONO-27的片段长度多态性。肿瘤样本和对照样本对比,5个微卫星检测位点均未出现PCR扩增片段大小改变,微卫星稳定型(MSS);5个MSI检测位点中1个MSI位点出现PCR扩增片段大小的改变,微卫星不稳定型-L(MSI-L);5个MSI检测位点中2个或者2个以上的M ...
【技术保护点】
1.一种MSS血浆模型样本的微卫星位点的筛选方法,其特征在于,所述筛选方法包括:/n从人类参考基因组序列或靶向基因捕获序列中提取符合第一条件的微卫星位点,记作第一位点集,所述第一条件包括:a.7~15bp的单碱基重复序列;b.与所述7~15bp的单碱基重复序列的两翼序列相似值低于相似阈值;/n获取多个MSS样本的测序数据,并从每个所述MSS样本的所述测序数据中筛选出所述第一位点集,并统计所述第一位点集中每个所述微卫星位点的重复单元的类型和每个所述重复单元的类型出现的频率;/n从所述第一位点集中选择满足第二条件的微卫星位点,作为第二位点集,所述第二条件指包括:在人群中的多态性低于5%及在建库测序过程中的捕获效率高于捕获阈值;/n计算出所有所述MSS样本在所述第二位点集中每个所述微卫星位点的每种所述重复单元的类型出现的频率的平均水平及离散程度,选择所述离散程度的平均水平低于离散阈值的微卫星位点,作为第三位点集;/n将所述第三位点集中的微卫星位点作为所述MSS血浆模型样本的微卫星位点,所述第三位点集中,每个所述微卫星位点的每个所述重复单元的类型出现的频率的所述平均水平作为所述MSS血浆模型样 ...
【技术特征摘要】
1.一种MSS血浆模型样本的微卫星位点的筛选方法,其特征在于,所述筛选方法包括:
从人类参考基因组序列或靶向基因捕获序列中提取符合第一条件的微卫星位点,记作第一位点集,所述第一条件包括:a.7~15bp的单碱基重复序列;b.与所述7~15bp的单碱基重复序列的两翼序列相似值低于相似阈值;
获取多个MSS样本的测序数据,并从每个所述MSS样本的所述测序数据中筛选出所述第一位点集,并统计所述第一位点集中每个所述微卫星位点的重复单元的类型和每个所述重复单元的类型出现的频率;
从所述第一位点集中选择满足第二条件的微卫星位点,作为第二位点集,所述第二条件指包括:在人群中的多态性低于5%及在建库测序过程中的捕获效率高于捕获阈值;
计算出所有所述MSS样本在所述第二位点集中每个所述微卫星位点的每种所述重复单元的类型出现的频率的平均水平及离散程度,选择所述离散程度的平均水平低于离散阈值的微卫星位点,作为第三位点集;
将所述第三位点集中的微卫星位点作为所述MSS血浆模型样本的微卫星位点,所述第三位点集中,每个所述微卫星位点的每个所述重复单元的类型出现的频率的所述平均水平作为所述MSS血浆模型样本中每个所述微卫星位点的重复单元的类型的频率分布。
2.根据权利要求1所述的筛选方法,其特征在于,从人类参考基因组序列或靶向基因捕获序列中提取符合第一条件的微卫星位点,记作第一位点集包括:
从人类参考基因组序列中提取7~15bp的单碱基重复序列的微卫星位点;
针对每个所述微卫星位点,计算所述7~15bp的单碱基重复序列的左右两端设定长度的序列与所述7~15bp的单碱基重复序列的相似值;
选取所述相似值低于相似阈值的微卫星位点,作为所述第一位点集;
优选地,所述相似值按如下公式计算:∑(d2+1-d1)/d2,其中d1是所述左右两端设定长度的序列中与所述7~15bp的单碱基重复序列相同的碱基距离所述微卫星位点的距离,d2为所述设定长度;优选地,d2为8~12bp,更优选为10bp;
优选地,所述相似阈值为1.5~2.5,更优选为2。
3.根据权利要求2所述的筛选方法,其特征在于,获取多个MSS样本的测序数据,并从每个所述MSS样本的所述测序数据中筛选出所述第一位点集,并统计所述第一位点集中每个所述微卫星位点的重复单元的类型和每个所述重复单元的类型出现的频率包括:
将每个所述MSS样本的测序数据分别与参考基因组序列进行比对,得到比对结果;
从所述比对结果中查找所述第一位点集,并从所述比对结果中提取覆盖所述第一位点集中各所述微卫星位点的端到端reads,所述端到端reads是指覆盖微卫星位点及所述第一条件的微卫星位点左右两端至少各2bp的reads;
统计覆盖每个所述微卫星位点的所述端到端reads中每种重复单元的类型和每种所述重复单元的类型出现的频率。
4.根据权利要求3所述的筛选方法,其特征在于,从所述比对结果中提取覆盖所述第一位点集中各所述微卫星位点的端到端reads包括:
从所述比对结果中统计属于同一重复序列家族的端到端reads,并统计所述同一重复序列家族中不同重复单元的类型的数量,选择数量最多的所述重复单元的类型作为所述同一重复序列家族的重复单元的类型,并计入支持所述微卫星位点的端到端reads的支持数;
优选地,支持各所述微卫星位点的各重复单元类型的所述端到端reads的支持数至少为两条;
优选地,所述捕获效率以各所述微卫星位点的所述端到端reads数目对应样本的测序深度的比值来衡量,优选所述捕获阈值≥0.4。
5.一种用于检测MSI的微卫星位点的筛选方法,其特征在于,所述筛选方法包括:
选择多个已知MSI-H样本和多个已知MSS样本的测序数据,按照权利要求1至4中任一项所述的筛选方法,分别筛选所述MSS血浆模型样本中的微卫星位点,并分别计算得到所述已知MSI-H样本和所述已知MSS样本的各所述微卫星位点的重复单元的类型的频率分布;
分别计算所述已知MSI-H样本和所述已知MSS样本在各所述微卫星位点的重复单元的类型的频率分布与所述MSS血浆模型样本中重复单元的类型的频率分布之间的差异水平,并保留所述差异水平在MSI-H样本和MSS样本之间存在显著差异的微卫星位点作为所述用于检测MSI的微卫星位点。
6.根据权利要求5的筛选方法,其特征在于,所述按照公式(I)分别计算所述已知MSI-H样本和所述已知MSS样本在各所述微卫星位点的重复单元的类型的频率分布与所述MSS血浆模型样本中重复单元的类型的频率分布之间的KLD值,并保留所述KLD值在所述已知MSI-H样本和所述已知MSS样本之间存在显著差异的微卫星位点作为所述用于检测MSI的微卫星位点;
其中,p(x)代表所述MSI-H样本的各所述微卫星位点或所述已知MSS样本的各所述微卫星位点的所述频率分布,q(x)代表所述MSS血浆模型样本的各所述微卫星位点的所述频率分布;
优选地,采用非参数检验的方法检验各所述KLD值在所述已知MSI-H样本和所述已知MSS样本之间是否存在显著差异,优选采用Wilcox检验的方法。
7.一种用于检测MSI的微卫星位点,其特征在于,所述用于检测MSI的微卫星位点采用权利要求5或6所述的筛选方法筛选得到。
8.一种用于检测MSI的微卫星位点,其特征在于,所述用于检测MSI的微卫星位点包括表1所示的38个微卫星位点中的至少15个。
9.一种用于检测MSI的试剂盒,其特征在于,所述试剂盒包括用于检测MSI的微卫星位点的检测试剂,所述微卫星位点包括表1所示的38个微卫星位点中的至少15个。
10.一种用于检测MSI的基线构建方法,其特征在于,所述构建方法包括:
按照权利要求1至4中任一项所述的筛选方法,从多个已知MSS样本中筛选表1所示的用于检测MSI的38个微卫星位点中的至少15个;
统计出各所述微卫星位点的重复单元的类型的频率分布,并计算各所述重复单元的类型的频率分布与所述MSS血浆模型样本的重复单元的类型的频率分布的差异水平;
去除各所述样本中具有多态性的微卫星位点;
统计所有MSS样本的每个所述微卫星位点的差异水平的平均水平及离散程度,从而构建得到所述用于检测MSI的基线。
11.根据权利要求10所述的构建方法,其特征在于,按照公式(I)计算各所述重复单元的类型的频率分布与所述MSS血浆模型样本的重复单元的类型的频率分布的KLD值,
其中,p(x)代表所述已知MSS样本的所述微卫星位点的所述频率分布,q(x)代表所述MSS血浆模型样本的所述微卫星位点的所述频率分布;
统计所有已知MSS样本的每个所述微卫星位点的所述KLD值的平均水平及离散程度,从而构建得到所述用于检测MSI的基线。
12.根据权利要求11所述的构建方法,其特征在于,所述已知MSS样本中重复单元的类型与所述MSS血浆模型样本中的重复单元的类型不一致时,计算各所述已知MSS样本中重复单元的类型的频率分布与所述MSS血浆模型样本的重复单元的类型的频率分布的KLD值包括:
取所述已知MSS样本中重复单元的类型与所述MSS血浆模型样本中的重复单元的类型的并集,记作M,所述重复单元的类型的数目记作m,同时设置一个极小值ε;
分别对所述已知MSS样本中重复单元的类型的频率分布和所述MSS血浆模型样本中的重复单元的类型的频率分布进行平滑处理;
计算平滑处理后的所述已知MSS样本中重复单元的类型的频率分布与所述MSS血浆模型样本的重复单元的类型的频率分布的KLD值;
优选地,所述平滑处理包括:
与所述M相比,在所述已知MSS样本或者所述MSS血浆模型样本中,若缺少n个重复单元的类型,则缺少的重复单元的类型的频率为ε/n,则剩余的重复单元的类型的频率为p(x)-ε/(m-n)。
13.一种微卫星状态的检测方法,其特征在于,所述检测方法包括:
针对表1所示的38个用于检测MSI的微卫星位点中的至少15个位点,按照权利要求1至4中任一项所述的筛选方法,从待测样本中筛选各所述微卫星位点的重复单元的类型及所述重复单元的类型的频率分布;
计算出所述待测样本的各所述微卫星位点的重复单元的类型的频率分布与所述MSS血浆模型样本的重复单元的类型的频率分布的差异水平g1;
并根据基线样本的各所述微卫星位点的重复单元的类型的频率分布与所述MSS血浆模型样本的重复单元的类型的频率分布的差异水平g0的平均水平和离散程度,计算出所述待测样本的Z值;
选取所述待测样本的每个微卫星位点中最高频率的重复单元的类型Mp及所述MSS血浆模型样本的同样的所述微卫星位点中最高频率的重复单元的类型Mq,并根据如下任一方法判断所述微卫星位点为不稳定位点:
(1)若Mp≠Mq且所述待测样本的所述微卫星位点的差异水平g1>平均(g0)+zSD(g0);
(2)若Mp=Mq,且p(Mp)<=平均(q(Mq))+zSD(q(Mq)),同时,所述待测样本的所述微卫星位点的差异水平g1>平均(g0)+zSD(g0);
其中,所述平均(g0)表示所述基线样本的所述微卫星位点的差异水平g0的平均水平,所述SD(g0)表示所述基线样本的所述微卫星位点的差异水平g0的离散程度,z表示所述基线样本的所述微卫星位点的差异水平g0的偏离程度的系数;
统计所述待测样本中满足深度阈值的所述微卫星位点的Z值,获得Z值的平均水平,并根据如下条件判断所述待测样本的微卫星状态:
(1)满足所述深度阈值的所述微卫星位点的数目n1≥15,且其中不稳定位点的数目为n2,若n2/n1≥a,或Z值的平均水平≥b,则判断所述待测样本的微卫星状态为MSI-H;
(2)满足所述深度阈值的所述微卫星位点的数目n1≥15,且其中不稳定位点的数目为n2,n2/n1<a且Z值的平均水平<b,则判断所述待测样本的微卫星状态为MSS;
(3)满足所述深度阈值的所述微卫星位点的数目n1<15,则所述待测样本的微卫星状态为待定;
其中,a为0.15~0.3,b为0.8~2。
14.根据权利要求13所述的检测方法,其特征在于,所述检测方法包括:
分别按照公式(I)计算所述差异水平g0和所述差异水平g1得到所述基线样本的KLD值和所述待测样本的KLD值;
根据所述待测样本的KLD值与所述基线样本的KLD值的平均水平和离散程度,计算出所述待测样本的Z值;
其中,p(x)代表所述待测样本的所述微卫星位点或所述基线样本的所述微卫星位点的所述频率分布,q(x)代表所述MSS血浆模型样本的所述微卫星位点的所述频率分布。
15.根据权利要求13所述的检测方法,其特征在于,根据如下任一方法判断所述微卫星位点为不稳定位点:
(1)若Mp≠Mq且所述待测样本的KLD值>平均(Ki)+3SD(Ki);
(2)若Mp=Mq,且p(Mp)<=平均(q(Mq))+zSD(q(Mq)),同时,所述待测样本的所述待测样本的KLD值>平均(Ki)+3SD(Ki);
其中,所述平均(Ki)表示所述基线样本的KLD值的所述平均水平,所述SD(Ki)表示所述基线样本的KLD值的所述离散程度。
16.一种MSS血浆模型样本的微卫星位点的筛选装置,其特征在于,所述筛选装置包括:
第一位点集模块,用于从人类参考基因组序列或靶向基因的捕获序列中提取符合第一条件的微卫星位点,记作第一位点集,所...
【专利技术属性】
技术研发人员:赵利利,于佳宁,闫慧婷,洪媛媛,陈维之,何骥,杜波,
申请(专利权)人:无锡臻和生物科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。