【技术实现步骤摘要】
评估肿瘤基因组测序数据分析质量的方法、装置及应用
本申请涉及肿瘤基因组测序数据分析质量评估领域,特别是涉及一种评估肿瘤基因组测序数据分析结果的质量的方法、装置及应用。
技术介绍
癌症是一种严重威胁人类健康的基因病,其发生、发展和复发均与基因的变异、缺失、畸形相关。从基因组层面比较正常组织和肿瘤组织基因的突变、扩增、缺失、易位和甲基化水平,对于阐明肿瘤发生发展的分子机制具有重要意义。近年来,随着二代测序技术(nextgenerationsequencing,NGS)的不断发展和肿瘤相关研究的不断深入,产生了大量的肿瘤基因组数据。基于肿瘤基因组数据和生物信息分析工具,目前已建立多种肿瘤的基因组突变图谱,有助于阐明各类肿瘤基因组的变异规律。肿瘤基因组数据类型包括全基因组数据(wholegenomesequencing,WGS)、全外显子数据(Whole-exomesequencing,WES)、靶向深度测序数据(Targetdeepsequencing,TDS)。不同类型的肿瘤基因组数据分析结果受到很多因素的影响,其中主要 ...
【技术保护点】
1.一种评估肿瘤基因组测序数据分析结果质量的方法,其特征在于:包括采用至少两种细胞系的下机测序数据进行特异性评估,每种细胞系至少设置两个平行样本,同一细胞系的所有平行样本检出的突变交集作为真实突变集;/n将所述下机测序数据拆分成多份读段数目相等的数据,如果一个样本包含多个序列条形码或者在多条lane上进行测序,则将一个样本的所有数据合并后再进行拆分;/n所述特异性评估包括,在同一细胞系的同一样本中,随机选取若干份数据作为正常对照样本数据,再随机取若干份数据作为肿瘤样本数据,进行体细胞突变的检测,所有被检测出的突变位点都是假阳性位点,以此评估从样本处理到获得体细胞突变位点的过 ...
【技术特征摘要】
1.一种评估肿瘤基因组测序数据分析结果质量的方法,其特征在于:包括采用至少两种细胞系的下机测序数据进行特异性评估,每种细胞系至少设置两个平行样本,同一细胞系的所有平行样本检出的突变交集作为真实突变集;
将所述下机测序数据拆分成多份读段数目相等的数据,如果一个样本包含多个序列条形码或者在多条lane上进行测序,则将一个样本的所有数据合并后再进行拆分;
所述特异性评估包括,在同一细胞系的同一样本中,随机选取若干份数据作为正常对照样本数据,再随机取若干份数据作为肿瘤样本数据,进行体细胞突变的检测,所有被检测出的突变位点都是假阳性位点,以此评估从样本处理到获得体细胞突变位点的过程中每个步骤、每个步骤使用的试剂、使用的设备、处理条件、数据分析方法和/或数据分析参数设置对肿瘤基因组测序检测和分析的特异性。
2.根据权利要求1所述的方法,其特征在于:还包括采用至少两种细胞系的下机测序数据进行敏感性评估,其中至少两种细胞系包括至少一种非肿瘤细胞系和至少一种肿瘤细胞系;
从所述真实突变集中选取肿瘤细胞系中的纯合或杂合突变位点,和/或非肿瘤细胞系中的纯合非突变位点,作为金标准突变集;
所述敏感性评估包括,从非肿瘤细胞系中随机选取若干份数据作为正常对照样本数据,从肿瘤细胞系中随机选取若干份数据作为肿瘤样本数据,将正常对照样本数据和肿瘤样本数据按照不同的设定比例混合形成混合样本,对混合样本进行体细胞突变检测,将检测结果与金标准突变集进行对比,以此评估从样本处理到获得体细胞突变位点的过程中每个步骤、每个步骤使用的试剂、使用的设备、处理条件、数据分析方法和/或数据分析参数设置对肿瘤基因组测序检测和分析的敏感性。
3.根据权利要求1或2所述的方法,其特征在于:所述下机测序数据为全基因组文库、全外显子文库或靶向深度文库的测序数据。
4.根据权利要求3所述的方法,其特征在于:对于全基因组文库的下机测序数据,在拆分成多份读段数目相等的数据时,每份数据的读段数目为50M;
对于全外显子文库的下机测序数据,在拆分成多份读段数目相等的数据时,每份数据的读段数目为10M;
对于靶向深度文库的下机测序数据,在拆分成多份读段数目相等的数据时,每份数据的读段数目为10M。
5.根据权利要求1或2所述的方法,其特征在于:所述至少两种细胞系中,各细胞系的所有样本都是培养至同代的细胞,即每种细胞系中的该细胞系的所有样本细胞的培养代数相同。
6.一种评估肿瘤基因组测序数据分析结果质量的装置,其特征在于:包括下机数据分析模块、下机数据拆分模块、金标准突变集提取模块、特异性评估模块和敏感性评估模块;
所述下机数据分析模块,包括用于对至少两种细胞系的下机测序...
【专利技术属性】
技术研发人员:李甫强,周鑫兰,乔斯坦,
申请(专利权)人:深圳华大生命科学研究院,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。