The invention discloses a flow correcting method aiming at the high throughput sequencing data of the second generation tumor genome. This method uses a series of 32 bit unsigned number identification, respectively records of each blood variation or somatic variation data corresponding to the generation shows the purity and proportions of different subclones of read data, according to the variation of father and son subclone inheritance, brothers subcloned to the mutex, calibration data somaclonalvariation sub sub cloning and subcloning of the brothers, for the processing of the two generation cancer genome high-throughput sequencing data correction.
【技术实现步骤摘要】
针对第二代肿瘤基因组高通量测序数据的流程校正方法
本专利技术属于以精准医学为应用背景的数据科学
,是肿瘤精准诊疗的决策支持系统的一套辅助校正系统。
技术介绍
近十年来,得益于高通量基因组、转录组测序技术的迅猛发展,肿瘤基因组学和肿瘤精准诊疗无论在医学研究的深度还是在临床应用的广度方面都取得了令人瞩目的成就。肿瘤基因组学研究和肿瘤精准医学都依赖于肿瘤高通量测序数据。从测序仪输出的基因组、转录组测序数据称为读段数据(英文名称是readdata),由于短且存在测序误差,所以是不能直接被肿瘤研究人员和临床医师使用的。必须使用一些数据处理流程将读段数据进行处理,简单来说就是通过基因组信息学算法和工具将其中的基因变异信号提取出来,提取后的数据称为变异数据。变异数据是研究人员和医师可以读懂的数据。类似医学检验结果,变异数据是临床诊断的重要参考指标,在肿瘤治疗策略设计、药物筛选或重标定等多个关键步骤中,变异数据都是重要决策依据。由于目前高通量测序技术和肿瘤基因组信息学技术的局限性,变异数据中不可避免的存在假阳性和假阴性结果。目标是尽可能的减少假阳性和假阴性结果,提高变异数据的精度,以求降低误诊率和低效诊疗的概率,提高用药和诊疗效率。为此,(1)所有针对肿瘤基因组高通量测序数据的处理流程在投入使用前都必须进行流程校正;(2)已经投入使用的流程在遇到特殊病例时也有必要进行个性化再校正。流程校正的主要目的是调整流程中的参数设置,使之与下机的读段数据的特征、病例的肿瘤纯度、肿瘤异质性特征尽量相符,以期获得高精度的变异数据。目前已有一些针对第二代基因组高通量测序数据的 ...
【技术保护点】
针对第二代肿瘤基因组高通量测序数据的流程校正方法,其特征在于,采用一系列32位无符号数为标识量,分别记录对应的每条血系变异或体细胞变异数据,生成体现纯度和不同亚克隆配比的读段数据,根据父子亚克隆继承、兄弟亚克隆互斥的变异关系,得到子代亚克隆及其兄弟亚克隆的体细胞变异校准数据,用于对所述二代肿瘤基因组高通量测序数据的处理流程进行校正。
【技术特征摘要】
1.针对第二代肿瘤基因组高通量测序数据的流程校正方法,其特征在于,采用一系列32位无符号数为标识量,分别记录对应的每条血系变异或体细胞变异数据,生成体现纯度和不同亚克隆配比的读段数据,根据父子亚克隆继承、兄弟亚克隆互斥的变异关系,得到子代亚克隆及其兄弟亚克隆的体细胞变异校准数据,用于对所述二代肿瘤基因组高通量测序数据的处理流程进行校正。2.根据权利要求1所述的一种针对第二代肿瘤基因组高通量测序数据的流程校正方法,其特征在于,所述父子亚克隆继承、兄弟亚克隆互斥的变异关系的数据生成包括以下步骤:S1、读取参考基因组序列,确定一组父子亚克隆继承、兄弟亚克隆互斥的变异关系数据;S2、根据步骤S1所述变异数据生成第一代克隆的体细胞变异数据;S3、根据步骤S2所述体细胞变异数据生成第一代克隆的子代亚克隆的体细胞变异数据;S4、根据步骤S3所述体细胞变异数据生成子代亚克隆的兄弟亚克隆的体细胞变异数据。3.根据权利要求2所述的一种针对第二代肿瘤基因组高通量测序数据的流程校正方法,其特征在于,所述步骤S1具体包括以下步骤:S11、读取参考基因组序列;S12、根据预设条件在参考基因组序列上选取变异位点;S13、确定每个变异位点的变异类型、基因型和其他属性;S14、将步骤S13确定的变异位点的变异数据以32位无符号数格式存储在nor.sim文件中,并将其中的杂合变异的变异数据同时存储在nor_AB.idx文件中。4.根据权利要求2所述的一种针对第二代肿瘤基因组高通量测序数据的流程校正方法,其特征在于:所述步骤S2具体包括以下步骤:S21、读取参考基因组序列、nor.sim和nor_AB.idx三个文件;S22、根据预设条件在参考基因组序列上选取第一代克隆的变异位点;S23、检查每个变异位点,如果所述变异位点出现在nor.sim中,但未在nor_AB.idx中,即为纯合变异,则返回步骤S22,否则确定变异类型和其他属性;S24、将步骤S23确定的变异位点的变异数据以32位无符号数格式存储在founding_clone.sim文件中。5.根据权利要求2所述的一种针对第二代肿瘤基因组高通量测序数据的流程校正方法,其特征在于,所述步骤S3具体包括以下步骤:S31、读取参考基因组序列、nor.sim、nor_AB.idx和founding_clone.sim;S32、根据预设条件在参考基因组序列上选取变异位点;S33、检查每个变异位点,如果所述变异位点出现在nor.sim和founding_clone.sim中,但未在nor_AB.idx中,即为纯合变异,返回步骤S32,否则确定变异类型和其他属性;S34、将步骤S33确定的变异位点的变异数据以32位无符号数格式存储在subcloneX.sim文件中,其中,X是文件编号;S35、将所述subclone...
【专利技术属性】
技术研发人员:赵仲孟,王嘉寅,耿彧,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:陕西,61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。