用于基因突变高深度测序的基因芯片及其制备方法和应用技术

技术编号:24077320 阅读:37 留言:0更新日期:2020-05-09 03:08
本申请公开了一种用于基因突变高深度测序的基因芯片及其制备方法和应用。本申请的基因芯片制备方法,包括根据不同的突变类型,结合基因突变在线数据库和本地数据库,构建捕获区间库;由捕获区间库设计基因芯片,提高捕获质量和效率,实现高深度测序;突变类型包括单核苷酸变异、插入缺失突变、拷贝数突变和结构变异中的至少一种;捕获区间库包括单核苷酸变异和插入缺失突变捕获区间库、拷贝数突变捕获区间库、结构变异捕获区间库。本申请的基因芯片制备方法,能够最大程度的覆盖突变人群,最大程度的覆盖癌症及其相关基因,设计出更加适应于中国人群的基因芯片。本申请的基因芯片测序深度高,特别适用于血液中极其微量的循环DNA的检测。

Gene chip for high-depth sequencing of gene mutation and its preparation and Application

【技术实现步骤摘要】
用于基因突变高深度测序的基因芯片及其制备方法和应用
本申请涉及核酸测序领域,特别是涉及一种用于基因突变高深度测序的基因芯片及其制备方法和应用。
技术介绍
肿瘤是严重威胁人类健康的疾病之一,而肿瘤具有高度的异质性,即不同部位肿瘤具有不同特征,即使同一部位的肿瘤,治疗效果也因人而异。为了提高临床肿瘤治疗的效果,考虑肿瘤个体的差异性和肿瘤细胞发展进化的特征,进行“因人因时”的肿瘤个体化治疗势在必行。随着癌症认知领域的发展和科学技术的进步,基因组测序技术逐渐进入到肿瘤临床应用,个体化的肿瘤基因检测已有很多惊人的成果出现。Science、Nature、theJournalofNewEngland上刊登的多项研究成果也证明了个体化基因检测在临床治疗中的巨大前景。基于高通量测序技术的全基因组、全外显子组或目标区域捕获测序能够比较全面的反应体细胞变异情况。众所周知,对于肿瘤患者,癌组织的获取总是相对困难的,尤其是对于一些晚期不适合手术的患者来说,如果能够从外周血中检测得到来自肿瘤细胞的变异,将会对癌症的临床治疗和监测带来巨大的变革。于是,近年来肿瘤患者血液中循环DNA的基因检测诊断已成为研究热点,研究显示血液中循环肿瘤DNA有可能成为一种新的肿瘤诊断标志物。血液循环肿瘤DNA含量会随着肿瘤病情的发展以及转移性肿瘤的发生而产生变化,但整体上血浆循环肿瘤DNA的含量会较癌组织中获取到的DNA含量低很多,尤其是对于早期筛查以及预后监控的样本来说,含量会更低,这使得血浆循环DNA中的肿瘤标志物突变频率较癌组织频率低,这就需要对血浆循环DNA进行超高深度的测序,才能更准确的检出早期发生的肿瘤标志物。但是,对血浆循环DNA进行超高深度的测序,采用全基因组或者全外显子组测序将会大大提高成本。为了降低成本,亟需开发对微量血液循环DNA进行目标区域芯片捕获测序的方案。
技术实现思路
本申请的目的是提供一种新的用于基因突变高深度测序的基因芯片及其制备方法和应用。本申请采用了以下技术方案:本申请的一方面公开了一种用于基因突变高深度测序的基因芯片的制备方法,包括根据不同的突变类型,结合基因突变在线数据库和本地数据库的突变信息,构建捕获区间库;根据捕获区间库设计基因芯片,提高基因芯片的捕获质量和效率,实现高深度测序;突变类型包括单核苷酸变异、插入缺失突变、拷贝数突变和结构变异中的至少一种;捕获区间库根据不同的突变类型分为,单核苷酸变异和插入缺失突变捕获区间库、拷贝数突变捕获区间库、结构变异捕获区间库。本申请的基因芯片制备方法,提供了一种新的芯片设计算法,一方面,本申请的制备方法,综合考虑了不同突变类型对基因芯片设计的影响;另一方面,本申请的制备方法结合了基因突变在线数据库和本地数据库的突变信息,这对设计不同地区人群针对性的基因芯片具有重要意义,特别是目前基因突变大部分在线数据库都是针对西方人种的检测结果,因此,难以设计出更加适应于中国人群的基因芯片,而本申请的制备方法则很好的克服了该问题。优选的,单核苷酸变异和插入缺失突变捕获区间库的构建具体包括以下步骤,(1)统计cosmic数据库中所检测肿瘤的驱动基因的外显子区间的RI值,并将所有统计到的与所检测肿瘤相关的驱动基因的外显子区间,按照RI值降序排列;RI值等于(n×1000)÷L,其中n为cosmic数据库中外显子区间的患者数目、L为外显子区间的序列长度;也就是说,n的值为该外显子区间相对应的患者数目,即在cosmic数据库中有多少个患者是在该外显子区间发生的单核苷酸变异或插入缺失突变;(2)按照RI值降序排列后,以RI值最高的外显子区间,即第一个外显子区间,作为样本数据库,统计其它外显子区间与样本数据库的不同变异的个数,不同变异个数最多的作为第二个筛选外显子区间,将第二个筛选外显子区间加入到样本数据库中,继续统计其它外显子区间与加入第二个筛选外显子区间后的样本数据库的不同变异的个数,不同变异个数最多的作为第三个筛选外显子区间,将第三个筛选外显子区间也加入到样本数据库中,采用相同的方法得到第四个筛选外显子区间,再将第四个筛选外显子区间加入到样本数据库中,以此类推,直至所有统计到的与所检测肿瘤相关的驱动基因的外显子区间都被这样迭代筛选完,得到的样本数据库,即芯片区间;(3)统计TCGA和ICGC数据库中所检测肿瘤相关的驱动基因的外显子区间,去除与cosmic数据库相同的驱动基因的外显子区间,以包含热点变异并且患者数目大于或等于5的驱动基因外显子区间为候选区间,根据步骤(2)最终得到的样本数据库,按照步骤(2)相同的筛选方法,对候选区间进行筛选,并将筛选的外显子区间加入到步骤(2)的样本数据库中;也就是说,统计候选区间与步骤(2)最终获得的样本数据库的不同变异的个数,不同变异个数最多的作为第一筛选外显子区间,将第一筛选外显子区间加入到样本数据库中,继续统计其它候选区间与加入第一筛选外显子区间后的样本数据库的不同变异的个数,不同变异个数最多的作为第二筛选外显子区间,将第二筛选外显子区间也加入到样本数据库中,采用相同的方法得到第三筛选外显子区间,再将第三筛选外显子区间加入到样本数据库中,以此类推,直至所有候选区间都被这样迭代筛选完,得到的样本数据库;其中,患者数目大于或等于5,即5个或以上的样本,这是为了保障所加入区间是容易检测出突变的区间,也就是说,是为了保障该区间的阳性检出率;比如一个区间上,如果都没有样本变异,那么将这个区间设计到芯片上,其意义也不会很大;(4)统计步骤(3)最终得到的样本数据库中,只有一个SNV或INDEL变异的样本,作为单突变样本数据库;(5)根据步骤(3)统计的TCGA和ICGC数据库中所检测肿瘤相关的驱动基因的外显子区间,去除已经被步骤(3)筛选入样本数据库的外显子区间,以RI≥30,包含热点变异并且患者数目大于或等于3的驱动基因外显子区间为候选区间,筛选候选区间中去除单突变样本数据库后样本数减少最多的外显子区间,作为第一外显子区间;从候选区间中去除被筛选的第一外显子区间及其单突变样本;然后,采用同样的方法筛选第二外显子区间;以此类推,直至去除单突变样本数据库后样本数不再减少;被筛选到的所有外显子区间,都加入步骤(3)得到的样本数据库中;其中,被筛选到的所有外显子区间,就是指第一外显子区间、第二外显子区间,直至最终获得的去除单突变样本数据库后样本数不再减少的外显子区间,这些外显子区间的总和;(6)根据步骤(3)统计的TCGA和ICGC数据库中所检测肿瘤相关的驱动基因的外显子区间,去除已经被步骤(3)和步骤(5)筛选入样本数据库的外显子区间,以RI≥20,包含热点变异并且患者数目大于或等于3的驱动基因外显子区间为候选区间,按照步骤(5)的筛选方法,筛选外显子区间,并将其加入步骤(5)得到的样本数据库中;即得到初步的单核苷酸变异和插入缺失突变捕获区间库;其中,按照步骤(5)的筛选方法筛选外显子区间,具体是指,同样的,筛选候选区间中去除单突变样本数据库后样本数减少最多的外显子区间,作为第一外显子区间;本文档来自技高网
...

【技术保护点】
1.一种用于基因突变高深度测序的基因芯片的制备方法,其特征在于:包括根据不同的突变类型,结合基因突变在线数据库和本地数据库的突变信息,构建捕获区间库;根据所述捕获区间库设计基因芯片,提高基因芯片的捕获质量和效率,实现高深度测序;/n所述突变类型包括单核苷酸变异、插入缺失突变、拷贝数突变和结构变异中的至少一种;/n所述捕获区间库根据不同的突变类型分为,单核苷酸变异和插入缺失突变捕获区间库、拷贝数突变捕获区间库、结构变异捕获区间库。/n

【技术特征摘要】
1.一种用于基因突变高深度测序的基因芯片的制备方法,其特征在于:包括根据不同的突变类型,结合基因突变在线数据库和本地数据库的突变信息,构建捕获区间库;根据所述捕获区间库设计基因芯片,提高基因芯片的捕获质量和效率,实现高深度测序;
所述突变类型包括单核苷酸变异、插入缺失突变、拷贝数突变和结构变异中的至少一种;
所述捕获区间库根据不同的突变类型分为,单核苷酸变异和插入缺失突变捕获区间库、拷贝数突变捕获区间库、结构变异捕获区间库。


2.根据专利要求1所述的制备方法,其特征在于:所述单核苷酸变异和插入缺失突变捕获区间库采用以下方法构建,
(1)统计cosmic数据库中所检测肿瘤的驱动基因的外显子区间的RI值,并将所有统计到的与所检测肿瘤相关的驱动基因的外显子区间,按照RI值降序排列;
所述RI值等于(n×1000)÷L,其中n为cosmic数据库中所述外显子区间的患者数目,L为外显子区间的序列长度;
(2)按照RI值降序排列后,以RI值最高的外显子区间,即第一个外显子区间,作为样本数据库,统计其它外显子区间与所述样本数据库的不同变异的个数,不同变异个数最多的作为第二个筛选外显子区间,将第二个筛选外显子区间加入到所述样本数据库中,继续统计其它外显子区间与加入第二个筛选外显子区间后的样本数据库的不同变异的个数,不同变异个数最多的作为第三个筛选外显子区间,将第三个筛选外显子区间也加入到所述样本数据库中,采用相同的方法得到第四个筛选外显子区间,再将第四个筛选外显子区间加入到所述样本数据库中,以此类推,直至所有统计到的与所检测肿瘤相关的驱动基因的外显子区间都被这样迭代筛选完,得到的样本数据库,即芯片区间;
(3)统计TCGA和ICGC数据库中所检测肿瘤相关的驱动基因的外显子区间,去除与cosmic数据库相同的驱动基因的外显子区间,以包含热点变异并且患者数目大于或等于5的驱动基因外显子区间为候选区间,根据步骤(2)最终得到的样本数据库,按照步骤(2)相同的筛选方法,对所述候选区间进行筛选,并将筛选的外显子区间加入到步骤(2)的样本数据库中;
(4)统计步骤(3)最终得到的样本数据库中,只有一个SNV或INDEL变异的样本,作为单突变样本数据库;
(5)根据步骤(3)统计的TCGA和ICGC数据库中所检测肿瘤相关的驱动基因的外显子区间,去除已经被步骤(3)筛选入样本数据库的外显子区间,以RI≥30,包含热点变异并且患者数目大于或等于3的驱动基因外显子区间为候选区间,筛选候选区间中去除所述单突变样本数据库后样本数减少最多的外显子区间,作为第一外显子区间;从候选区间中去除被筛选的第一外显子区间及其单突变样本;然后,采用同样的方法筛选第二外显子区间;以此类推,直至去除所述单突变样本数据库后样本数不再减少;被筛选到的所有外显子区间,都加入步骤(3)得到的样本数据库中;
(6)根据步骤(3)统计的TCGA和ICGC数据库中所检测肿瘤相关的驱动基因的外显子区间,去除已经被步骤(3)和步骤(5)筛选入样本数据库的外显子区间,以RI≥20,包含热点变异并且患者数目大于或等于3的驱动基因外显子区间为候选区间,按照步骤(5)的筛选方法,筛选外显子区间,并将其加入步骤(5)得到的样本数据库中;即得到初步的单核苷酸变异和插入缺失突变捕获区间库;
(7)统计本地数据库中的高频热点变异,将其中未被包含在步骤(6)得到的初步单核苷酸变异和插入缺失突变捕获区间库中的高频热点变异,沿其变异位点前后各延伸50bp的区间,加入到步骤(6)得到的样本数据库中,得到最终的单核苷酸变异和插入缺失突变捕获区间库。


3.根据权利要求1所述的制备方法,其特征在于:所述拷贝数突变捕获区间库由杂合SNP位点前后各延伸100bp得到的捕获区间组成,所述杂合SNP位点筛选自拷贝数突变相关的基因及其外显子区间;
所述杂合SNP位点采用以下方法筛选获得:
(1)统计现有的拷贝数突变的基因列表,提取所有关于拷贝数突变的基因序列,及其外显子区间;
(2)提取SNP千人数据库中,步骤(1)所提取的基因序列的杂合SNP位点,并将所提取的SNP位点按变异人数降序排列;
(3)筛选变异人数大于或等于100的高频杂合SNP位点,选取包含4至N个所述高频杂合SNP位点的基因序列,以所选取的基因序列为分析对象,步长1000bp,筛选每个基因序列的杂合SNP位点,杂合SNP位点前后各延伸100bp用于组成拷贝数突变捕获区间库;其中,N的取值为所述基因序列长度的1/400;
(4)筛选变异人数大于或等于50的高频杂合SNP位点,选取包含2至M个所述高频杂合SNP位点的外显子区间,以所选取的外显子区间为分析对象,步长1000bp,筛选每个外显子区间的杂合SNP位点,杂合SNP位点前后各延伸100bp用于组成拷贝数突变捕获区间库;其中,M的取值为所述外显子区间长度的1/500。


4.根据权利要求1所述的制备方法,其特征在于:所述结构变异捕获区间库采用以下方法构建,
(1)统计现有的关于热点融合基因的热点断点,将热点断点前后各延伸100bp作为捕获区间;
(2)统计本地数据库中,用...

【专利技术属性】
技术研发人员:王春丽蔡宇航师妍杨颖陈希刘军
申请(专利权)人:深圳华大基因股份有限公司天津华大医学检验所有限公司广州华大基因医学检验所有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1