【技术实现步骤摘要】
一种基于二代测序检测血浆样本微卫星状态的方法和装置
[0001]本申请涉及微卫星状态检测
,特别是涉及一种基于二代测序检测血浆样本微卫星状态的方法和装置。
技术介绍
[0002]微卫星(Microsatellite),即在基因组中的一类短串联重复DNA序列,一般由1
‑
6个核苷酸组成,呈串联重复排列。由于其核心重复单元重复次数差异,微卫星具有群体多态性。
[0003]微卫星不稳定性(Microsatellite Instability,缩写MSI)是指,与正常组织相比,肿瘤中某个微卫星位点由于重复单元的插入或缺失而出现新的微卫星等位基因的现象。MSI的发生是由于肿瘤组织的DNA错配修复出现功能性缺陷导致。
[0004]微卫星不稳定在大约15%的结直肠癌以及90%的林奇综合症(HNPCC,又称Lynch Syndrome)中起决定作用。近年来的研究表明,MSI对林奇综合症以及结直肠癌的诊断、预后以及化疗敏感性有重要参考意义。除了结直肠癌,研究人员也相继在子宫内膜癌、卵巢癌、胃癌以及乳腺癌等疾病中发现MSI。MSI作为肿瘤遗传不稳定的敏感指标,其检测对于肿瘤的早期诊断、预后判断、化疗敏感性判断以及高危人群的圈定等具有重要参考意义。已有不少研究发现高频MSI(MSI
‑
H)的肿瘤患者相对于微卫星稳定(MSS)的肿瘤患者有更好的预后,同时MSI
‑
H肿瘤患者对不同化疗方法的敏感性也表现出差异。
[0005]在NCCN指南中推荐了许多癌症类型和
【技术保护点】
【技术特征摘要】
1.一种基于二代测序检测血浆样本微卫星状态的方法,其特征在于:包括以下步骤,数据获取步骤,包括获取待测对象血浆样本的二代测序数据的比对文件,根据比对文件,统计待测样本的基因组MSI位点重复单元分布;特征计算步骤,包括分析高频MSI显著区间分布、微卫星稳定区间分布和间隙区间分布,并计算以下特征值,特征值一,样本集位点分布标准化,即计算各分布/总分布之和;特征值二,(高频MSI显著区间分布+间隙区间分布)/所有重复分布之和;特征值三,高频MSI显著区间分布/间隙区间分布;特征值四,高频MSI显著区间分布/(高频MSI显著区间分布+间隙区间分布);所述高频MSI显著区间分布是指,从0开始一段连续的分布,且reads数占比小于0.1%
‑
0.2%,支持该区域的reads数之和;所述微卫星稳定区间分布是指,选取ref或最高分布数左右2bp为微卫星稳定区域;所述间隙区间分布是指,高频MSI显著区间分布区域与微卫星稳定区间分布区域,两者之间的分布,该区域各重复长度支持的reads数之和;所述所有重复分布之和是指,统计分析的基因组所有MSI位点重复单元的分布,针对位点0
‑
100各重复长度支持的reads数之和;所述总分布之和是指,MSI位点重复单元分布0
‑
100的reads数之和;微卫星状态判断步骤,包括利用特征值一、特征值二、特征值三和特征值四对各个位点进行模型训练,通过AUC>80%筛选位点集模型,根据不稳定微卫星在所有微卫星位点集的占比,将大于0.18的样本判定为微卫星不稳定。2.根据权利要求1所述的方法,其特征在于:所述高频MSI显著区间分布中,高频MSI位点是指满足以下条件之一的位点,条件一,血浆样本对应组织的检测结果中,通过msisensor v06配对分析认为是高频MSI的位点;条件二,血浆样本的高频MSI显著区间分布大于训练样本的mean+2sd的位点集,也认定为高频MSI位点;其中,训练样本是指若干个已知微卫星状态的样本。3.根据权利要求1或2所述的方法,其特征在于:所述微卫星状态判断步骤中,模型训练包括5倍交叉验证的逻辑回归、支持向量机、梯度提升树、XGBoost、Adaboost、随机森林中的至少一种。4.一种用于二代测序检测血浆样本微卫星状态的数据库,其特征在于:所述数据库包括以若干个已知微卫星状态的样本为训练集,对其进行模型训练获得的用于判断微卫星状态的特征值;所述模型训练的方法包括以下步骤,获取训练集血浆样本的二代测序数据比对文件,根据比对文件,统计各样本的基因组MSI位点重复单元分布;分析各样本的高频MSI位点和微卫星稳定位点,对各样本的高频MSI位点和微卫星稳定位点进行5倍交叉验证的逻辑回归、支持向量机、梯度提升树、XGBoost、Adaboost、随机森林中的至少一种模型训练,获得判断微卫星状态的四个特征值,即特征值一、特征值二、特征
值三和特征值四;特征值一,样本集位点分布标准化,即计算各分布/总分布之和;特征值二,(高频MSI显著区间分布+间隙区间分布)/所有重复分布之和;特征值三,高频MSI显著区间分布/间隙区间分布;特征值四,高频MSI显著区间分布/(高频MSI显著区间分布+间隙区间分布);所述高频MSI显著区间分布是指,从0开始一段连续的分布,且reads数占比小于0.1%
‑
0.2%,支持该区域的reads数之和;所述微卫星稳定区间分布是指...
【专利技术属性】
技术研发人员:杨玲,王科,刘涛,方欢,陈彩霞,易鑫,
申请(专利权)人:苏州吉因加生物医学工程有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。