一种基于二代测序检测血浆样本微卫星状态的方法和装置制造方法及图纸

技术编号:38758360 阅读:9 留言:0更新日期:2023-09-10 09:43
本申请公开了一种基于二代测序检测血浆样本微卫星状态的方法和装置。本申请方法包括获取样本二代测序数据比对文件,统计待测样本基因组MSI位点重复单元分布;分析高频MSI显著区间分布、微卫星稳定区间分布和间隙区间分布,计算以下值:样本集位点分布标准化,即计算各分布/总分布之和;(高频MSI显著区间分布+间隙区间分布)/所有重复分布之和;高频MSI显著区间分布/间隙区间分布;高频MSI显著区间分布/(高频MSI显著区间分布+间隙区间分布);根据特征值进行模型训练,将不稳定微卫星在所有微卫星位点集的占比大于0.18的样本判定为微卫星不稳定。本申请只需对血浆样本二代测序数据进行分析即可准确获得微卫星状态,特异性强、敏感性高。敏感性高。敏感性高。

【技术实现步骤摘要】
一种基于二代测序检测血浆样本微卫星状态的方法和装置


[0001]本申请涉及微卫星状态检测
,特别是涉及一种基于二代测序检测血浆样本微卫星状态的方法和装置。

技术介绍

[0002]微卫星(Microsatellite),即在基因组中的一类短串联重复DNA序列,一般由1

6个核苷酸组成,呈串联重复排列。由于其核心重复单元重复次数差异,微卫星具有群体多态性。
[0003]微卫星不稳定性(Microsatellite Instability,缩写MSI)是指,与正常组织相比,肿瘤中某个微卫星位点由于重复单元的插入或缺失而出现新的微卫星等位基因的现象。MSI的发生是由于肿瘤组织的DNA错配修复出现功能性缺陷导致。
[0004]微卫星不稳定在大约15%的结直肠癌以及90%的林奇综合症(HNPCC,又称Lynch Syndrome)中起决定作用。近年来的研究表明,MSI对林奇综合症以及结直肠癌的诊断、预后以及化疗敏感性有重要参考意义。除了结直肠癌,研究人员也相继在子宫内膜癌、卵巢癌、胃癌以及乳腺癌等疾病中发现MSI。MSI作为肿瘤遗传不稳定的敏感指标,其检测对于肿瘤的早期诊断、预后判断、化疗敏感性判断以及高危人群的圈定等具有重要参考意义。已有不少研究发现高频MSI(MSI

H)的肿瘤患者相对于微卫星稳定(MSS)的肿瘤患者有更好的预后,同时MSI

H肿瘤患者对不同化疗方法的敏感性也表现出差异。
[0005]在NCCN指南中推荐了许多癌症类型和相关的FDA批准的治疗方案,但通过组织进行MSI状态判定会存在一些障碍,包括难以找到存档的诊断标本或因活检安排获得新组织而导致的延误。此外,对于许多经过严格预处理和/或身体虚弱的患者来说,侵入性的组织获取程序可能是禁忌,并且有更高的成本和程序风险等相关缺点。此外,快速增长的生物标志物数量和多样化的测试选项给已经不堪重负的医生带来了令人生畏的复杂性。
[0006]目前,MSI检测最常用的方法是通过PCR和/或免疫组化(IHC)分析肿瘤组织标本。前者评估了Bethesda小组最初推荐的5个典型微卫星位点,并将它们在肿瘤DNA中的长度与在匹配的非肿瘤DNA中评估的胚系基因型进行比较;每个微卫星束长度的不稳定性被用作MSI的直接证据。然而,这种有限的微卫星面板主要是为结直肠癌开发,对其他癌症类型的敏感性更有限。相反,免疫组化方法评估四种MMR蛋白水平,其中一种或多种(deficient MMR,dMMR)的表达缺失与MSI状态密切相关。然而,大约5%

11%的MSI

H病例显示完整的MMR染色和定位(proficient MMR,pMMR),这是由于抗原性保留和细胞内运输一种其他非功能蛋白。

技术实现思路

[0007]本申请的目的是提供一种新的基于二代测序检测血浆样本微卫星状态的方法和装置。
[0008]为了实现上述目的,本申请采用了以下技术方案:
[0009]本申请的第一方面公开了一种基于二代测序检测血浆样本微卫星状态的方法,包括以下步骤:
[0010]数据获取步骤,包括获取待测对象血浆样本的二代测序数据的比对文件,根据比对文件,统计待测样本的基因组MSI位点重复单元分布;
[0011]特征计算步骤,包括分析高频MSI显著区间分布、微卫星稳定区间分布和间隙区间分布,并计算以下特征值,
[0012]特征值一,样本集位点分布标准化,即计算各分布/总分布之和;
[0013]特征值二,(高频MSI显著区间分布+间隙区间分布)/所有重复分布之和;
[0014]特征值三,高频MSI显著区间分布/间隙区间分布;
[0015]特征值四,高频MSI显著区间分布/(高频MSI显著区间分布+间隙区间分布);
[0016]其中,高频MSI显著区间分布是指,从0开始一段连续的分布,且reads数占比小于0.1%

0.2%,支持该区域的reads数之和;微卫星稳定区间分布是指,选取ref或最高分布数左右2bp为微卫星稳定区域;间隙区间分布是指,高频MSI显著区间分布区域与微卫星稳定区间分布区域,两者之间的分布,该区域各重复长度支持的reads数之和;所有重复分布之和是指,统计分析的基因组所有MSI位点重复单元的分布,针对位点0

100各重复长度支持的reads数之和;总分布之和是指,MSI位点重复单元分布0

100的reads数之和;
[0017]微卫星状态判断步骤,包括利用特征值一、特征值二、特征值三和特征值四对各个位点进行模型训练,通过AUC>80%筛选位点集模型,根据不稳定微卫星在所有微卫星位点集的占比,将大于0.18的样本判定为微卫星不稳定。
[0018]需要说明的是,本申请的微卫星状态检测方法,只需要对待测对象的血浆样本的二代测序数据进行分析,即可准确有效的获得待测样本的微卫星状态,具有特异性强、敏感性高等优点。本申请的一种实现方式中,利用本申请的方法对162例血浆样本进行微卫星状态检测,结果显示,其检测特异性可以达到98.6%,敏感性可以达到90.5%。
[0019]本申请的一种实现方式中,高频MSI显著区间分布的高频MSI位点是指满足以下条件之一的位点,
[0020]条件一,血浆样本对应组织的检测结果中,通过msisensor v06配对分析认为是高频MSI的位点;
[0021]条件二,血浆样本的高频MSI显著区间分布大于训练样本的mean+2sd的位点集,也认定为高频MSI位点;
[0022]其中,训练样本是指若干个已知微卫星状态的样本。
[0023]本申请的一种实现方式中,微卫星状态判断步骤中,模型训练包括5倍交叉验证的逻辑回归、支持向量机、梯度提升树、XGBoost、Adaboost、随机森林中的至少一种。
[0024]本申请的第二方面公开了一种用于二代测序检测血浆样本微卫星状态的数据库,该数据库包括以若干个已知微卫星状态的样本为训练集,对其进行模型训练获得的用于判断微卫星状态的特征值;其中,模型训练的方法包括以下步骤:
[0025]获取训练集血浆样本的二代测序数据比对文件,根据比对文件,统计各样本的基因组MSI位点重复单元分布;
[0026]分析各样本的高频MSI位点和微卫星稳定位点,对各样本的高频MSI位点和微卫星稳定位点进行5倍交叉验证的逻辑回归、支持向量机、梯度提升树、XGBoost、Adaboost、随机
森林中的至少一种模型训练,获得判断微卫星状态的四个特征值,即特征值一、特征值二、特征值三和特征值四;
[0027]特征值一,样本集位点分布标准化,即计算各分布/总分布之和;
[0028]特征值二,(高频MSI显著区间分布+间隙区间分布)/所有重复分布之和;
[0029]特征值三,高频MSI显著区间分布/间隙区间分布;...

【技术保护点】

【技术特征摘要】
1.一种基于二代测序检测血浆样本微卫星状态的方法,其特征在于:包括以下步骤,数据获取步骤,包括获取待测对象血浆样本的二代测序数据的比对文件,根据比对文件,统计待测样本的基因组MSI位点重复单元分布;特征计算步骤,包括分析高频MSI显著区间分布、微卫星稳定区间分布和间隙区间分布,并计算以下特征值,特征值一,样本集位点分布标准化,即计算各分布/总分布之和;特征值二,(高频MSI显著区间分布+间隙区间分布)/所有重复分布之和;特征值三,高频MSI显著区间分布/间隙区间分布;特征值四,高频MSI显著区间分布/(高频MSI显著区间分布+间隙区间分布);所述高频MSI显著区间分布是指,从0开始一段连续的分布,且reads数占比小于0.1%

0.2%,支持该区域的reads数之和;所述微卫星稳定区间分布是指,选取ref或最高分布数左右2bp为微卫星稳定区域;所述间隙区间分布是指,高频MSI显著区间分布区域与微卫星稳定区间分布区域,两者之间的分布,该区域各重复长度支持的reads数之和;所述所有重复分布之和是指,统计分析的基因组所有MSI位点重复单元的分布,针对位点0

100各重复长度支持的reads数之和;所述总分布之和是指,MSI位点重复单元分布0

100的reads数之和;微卫星状态判断步骤,包括利用特征值一、特征值二、特征值三和特征值四对各个位点进行模型训练,通过AUC>80%筛选位点集模型,根据不稳定微卫星在所有微卫星位点集的占比,将大于0.18的样本判定为微卫星不稳定。2.根据权利要求1所述的方法,其特征在于:所述高频MSI显著区间分布中,高频MSI位点是指满足以下条件之一的位点,条件一,血浆样本对应组织的检测结果中,通过msisensor v06配对分析认为是高频MSI的位点;条件二,血浆样本的高频MSI显著区间分布大于训练样本的mean+2sd的位点集,也认定为高频MSI位点;其中,训练样本是指若干个已知微卫星状态的样本。3.根据权利要求1或2所述的方法,其特征在于:所述微卫星状态判断步骤中,模型训练包括5倍交叉验证的逻辑回归、支持向量机、梯度提升树、XGBoost、Adaboost、随机森林中的至少一种。4.一种用于二代测序检测血浆样本微卫星状态的数据库,其特征在于:所述数据库包括以若干个已知微卫星状态的样本为训练集,对其进行模型训练获得的用于判断微卫星状态的特征值;所述模型训练的方法包括以下步骤,获取训练集血浆样本的二代测序数据比对文件,根据比对文件,统计各样本的基因组MSI位点重复单元分布;分析各样本的高频MSI位点和微卫星稳定位点,对各样本的高频MSI位点和微卫星稳定位点进行5倍交叉验证的逻辑回归、支持向量机、梯度提升树、XGBoost、Adaboost、随机森林中的至少一种模型训练,获得判断微卫星状态的四个特征值,即特征值一、特征值二、特征
值三和特征值四;特征值一,样本集位点分布标准化,即计算各分布/总分布之和;特征值二,(高频MSI显著区间分布+间隙区间分布)/所有重复分布之和;特征值三,高频MSI显著区间分布/间隙区间分布;特征值四,高频MSI显著区间分布/(高频MSI显著区间分布+间隙区间分布);所述高频MSI显著区间分布是指,从0开始一段连续的分布,且reads数占比小于0.1%

0.2%,支持该区域的reads数之和;所述微卫星稳定区间分布是指...

【专利技术属性】
技术研发人员:杨玲王科刘涛方欢陈彩霞易鑫
申请(专利权)人:苏州吉因加生物医学工程有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1