针对第二代肿瘤基因组高通量测序数据的流程校正方法技术

技术编号:15501137 阅读:352 留言:0更新日期:2017-06-03 22:38
本发明专利技术公开了一种针对第二代肿瘤基因组高通量测序数据的流程校正方法。该方法采用一系列32位无符号数为标识量,分别记录对应的每条血系变异或体细胞变异数据,生成体现纯度和不同亚克隆配比的读段数据,根据父子亚克隆继承、兄弟亚克隆互斥的变异关系,得到子代亚克隆及其兄弟亚克隆的体细胞变异的校准数据,用于对所述二代肿瘤基因组高通量测序数据的处理流程进行校正。

Flow correction method for high throughput sequencing data of second generation tumor genomes

The invention discloses a flow correcting method aiming at the high throughput sequencing data of the second generation tumor genome. This method uses a series of 32 bit unsigned number identification, respectively records of each blood variation or somatic variation data corresponding to the generation shows the purity and proportions of different subclones of read data, according to the variation of father and son subclone inheritance, brothers subcloned to the mutex, calibration data somaclonalvariation sub sub cloning and subcloning of the brothers, for the processing of the two generation cancer genome high-throughput sequencing data correction.

【技术实现步骤摘要】
针对第二代肿瘤基因组高通量测序数据的流程校正方法
本专利技术属于以精准医学为应用背景的数据科学
,是肿瘤精准诊疗的决策支持系统的一套辅助校正系统。
技术介绍
近十年来,得益于高通量基因组、转录组测序技术的迅猛发展,肿瘤基因组学和肿瘤精准诊疗无论在医学研究的深度还是在临床应用的广度方面都取得了令人瞩目的成就。肿瘤基因组学研究和肿瘤精准医学都依赖于肿瘤高通量测序数据。从测序仪输出的基因组、转录组测序数据称为读段数据(英文名称是readdata),由于短且存在测序误差,所以是不能直接被肿瘤研究人员和临床医师使用的。必须使用一些数据处理流程将读段数据进行处理,简单来说就是通过基因组信息学算法和工具将其中的基因变异信号提取出来,提取后的数据称为变异数据。变异数据是研究人员和医师可以读懂的数据。类似医学检验结果,变异数据是临床诊断的重要参考指标,在肿瘤治疗策略设计、药物筛选或重标定等多个关键步骤中,变异数据都是重要决策依据。由于目前高通量测序技术和肿瘤基因组信息学技术的局限性,变异数据中不可避免的存在假阳性和假阴性结果。目标是尽可能的减少假阳性和假阴性结果,提高变异数据的精度,以求降低误诊率和低效诊疗的概率,提高用药和诊疗效率。为此,(1)所有针对肿瘤基因组高通量测序数据的处理流程在投入使用前都必须进行流程校正;(2)已经投入使用的流程在遇到特殊病例时也有必要进行个性化再校正。流程校正的主要目的是调整流程中的参数设置,使之与下机的读段数据的特征、病例的肿瘤纯度、肿瘤异质性特征尽量相符,以期获得高精度的变异数据。目前已有一些针对第二代基因组高通量测序数据的流程校正方法,但是这些方法都没有针对性地考虑肿瘤组织的异质性的问题,所以都不适用于肿瘤基因组数据的处理流程。已有的校验方法的设计思想是,首先生成一组变异数据,然后基于该组变异数据生成读段数据,最后实施校验。虽然这些方法在生成变异数据和/或读段数据的模型上有所区别,但是其核心思想基本上完全一致。根据这些方法的异同,大体上可以分成三类:第一类关注生成读段数据时模拟测序仪的误差,包括Wgsim[1]、ART[2]、ArtificialFastqGenerator[3]、pIRS[4]和Wessim[5];第二类关注不同类型的变异,包括SInC[6]和RSVSim[7]能够实现基因组的结构变异;第三类关注种群基因组特征,包括GENOME[8]、FREGene[9]和FIGG[10]。已有方法不适用于肿瘤基因组数据处理流程的原因如下:其一,肿瘤组织是正常细胞和不同亚克隆的肿瘤细胞的混合体。现代肿瘤学理论普遍认为,因为肿瘤细胞是从正常细胞演化而来的,所以一般情况下肿瘤细胞继承了正常细胞的变异,同时携带有不同于正常细胞的突变。突变包括两种,一是继承的变异,即肿瘤细胞与正常细胞共有的变异称为血系变异;另一是肿瘤细胞独有的变异称为体细胞变异。不同的肿瘤细胞携带的体细胞变异是不同的。携带相同体细胞变异的肿瘤细胞,如果在肿瘤演化中表现出选择优势,那么就被认为是肿瘤组织的一个亚克隆。肿瘤组织一般都由数个甚至十数个亚克隆组成。因此,针对第二代基因组高通量测序数据的流程校正方法必须根据继承和演化关系依次生成血系变异数据和各个亚克隆的体细胞变异数据。这是已有的方法无法实现的。其二,肿瘤组织中肿瘤细胞所占的比例称为肿瘤纯度,不同亚克隆的肿瘤细胞占肿瘤细胞的比重称为肿瘤异质性配比。不同类型的肿瘤纯度和肿瘤异质性配比差别很大。如前所述,纯度和异质性配比是校正的重要目标。肿瘤基因组信息学研究认为,存在纯度和异质性配比的肿瘤测序读段数据的覆盖度服从多重Beta分布或多重Dirichlet分布。然而,倘若使用已有的方法,只能将基于单一变异数据的读段数据叠加,由此获得的读段数据服从多重均匀分布,只能尽量趋近于多重Beta或多重Dirichlet分布,无法与正确情形拟合。综上所述,由于肿瘤组织的特殊性,已有的针对第二代基因组高通量测序数据的流程校正方法都不适用于肿瘤基因组数据的处理流程。肿瘤精准诊疗的现实需求需要针对第二代肿瘤基因组高通量测序数据的流程校正方法。
技术实现思路
本专利技术所要解决的技术问题在于针对上述现有技术中的不足,提供一种针对第二代肿瘤基因组高通量测序数据的流程校正方法,针对性地考虑肿瘤结构异质性的问题。本专利技术采用以下技术方案:针对第二代肿瘤基因组高通量测序数据的流程校正方法,采用一系列32位无符号数为标识量,分别记录对应的每条血系变异或体细胞变异数据,生成体现纯度和不同亚克隆配比的读段数据,根据父子亚克隆继承、兄弟亚克隆互斥的变异关系,得到子代亚克隆及其兄弟亚克隆的体细胞变异校准数据,用于对所述二代肿瘤基因组高通量测序数据的处理流程进行校正。优选的,所述父子亚克隆继承、兄弟亚克隆互斥的变异关系的数据生成包括以下步骤:S1、读取参考基因组序列,确定一组父子亚克隆继承、兄弟亚克隆互斥的变异关系数据;S2、根据步骤S1所述变异数据生成第一代克隆的体细胞变异数据;S3、根据步骤S2所述体细胞变异数据生成第一代克隆的子代亚克隆的体细胞变异数据;S4、根据步骤S3所述体细胞变异数据生成子代亚克隆的兄弟亚克隆的体细胞变异数据。优选的,所述步骤S1具体包括以下步骤:S11、读取参考基因组序列;S12、根据预设条件在参考基因组序列上选取变异位点;S13、确定每个变异位点的变异类型、基因型和其他属性;S14、将步骤S13确定的变异位点的变异数据以32位无符号数格式存储在nor.sim文件中,并将其中的杂合变异的变异数据同时存储在nor_AB.idx文件中。优选的,所述步骤S2具体包括以下步骤:S21、读取参考基因组序列、nor.sim和nor_AB.idx三个文件;S22、根据预设条件在参考基因组序列上选取第一代克隆的变异位点;S23、检查每个变异位点,如果所述变异位点出现在nor.sim中,但未在nor_AB.idx中,即为纯合变异,则返回步骤S22,否则确定变异类型和其他属性;S24、将步骤S23确定的变异位点的变异数据以32位无符号数格式存储在founding_clone.sim文件中。优选的,所述步骤S3具体包括以下步骤:S31、读取参考基因组序列、nor.sim、nor_AB.idx和founding_clone.sim;S32、根据预设条件在参考基因组序列上选取变异位点;S33、检查每个变异位点,如果所述变异位点出现在nor.sim和founding_clone.sim中,但未在nor_AB.idx中,即为纯合变异,返回步骤S32,否则确定变异类型和其他属性;S34、将步骤S33确定的变异位点的变异数据以32位无符号数格式存储在subcloneX.sim文件中,其中,X是文件编号。S35、将所述subcloneX.sim文件中的特异性变异存储在subcloneX_uniq.idx文件中,其中,X是文件编号,若需生成多代子代亚克隆的体细胞变异数据,则重复步骤S31-S35。优选的,所述步骤S4具体包括以下步骤:S41、读取参考基因组序列、nor.sim、nor_AB.idx、subcloneX.sim、subcloneX_uniq.idx;S42、根据预设条件在参考基因组序列上本文档来自技高网
...
针对第二代肿瘤基因组高通量测序数据的流程校正方法

【技术保护点】
针对第二代肿瘤基因组高通量测序数据的流程校正方法,其特征在于,采用一系列32位无符号数为标识量,分别记录对应的每条血系变异或体细胞变异数据,生成体现纯度和不同亚克隆配比的读段数据,根据父子亚克隆继承、兄弟亚克隆互斥的变异关系,得到子代亚克隆及其兄弟亚克隆的体细胞变异校准数据,用于对所述二代肿瘤基因组高通量测序数据的处理流程进行校正。

【技术特征摘要】
1.针对第二代肿瘤基因组高通量测序数据的流程校正方法,其特征在于,采用一系列32位无符号数为标识量,分别记录对应的每条血系变异或体细胞变异数据,生成体现纯度和不同亚克隆配比的读段数据,根据父子亚克隆继承、兄弟亚克隆互斥的变异关系,得到子代亚克隆及其兄弟亚克隆的体细胞变异校准数据,用于对所述二代肿瘤基因组高通量测序数据的处理流程进行校正。2.根据权利要求1所述的一种针对第二代肿瘤基因组高通量测序数据的流程校正方法,其特征在于,所述父子亚克隆继承、兄弟亚克隆互斥的变异关系的数据生成包括以下步骤:S1、读取参考基因组序列,确定一组父子亚克隆继承、兄弟亚克隆互斥的变异关系数据;S2、根据步骤S1所述变异数据生成第一代克隆的体细胞变异数据;S3、根据步骤S2所述体细胞变异数据生成第一代克隆的子代亚克隆的体细胞变异数据;S4、根据步骤S3所述体细胞变异数据生成子代亚克隆的兄弟亚克隆的体细胞变异数据。3.根据权利要求2所述的一种针对第二代肿瘤基因组高通量测序数据的流程校正方法,其特征在于,所述步骤S1具体包括以下步骤:S11、读取参考基因组序列;S12、根据预设条件在参考基因组序列上选取变异位点;S13、确定每个变异位点的变异类型、基因型和其他属性;S14、将步骤S13确定的变异位点的变异数据以32位无符号数格式存储在nor.sim文件中,并将其中的杂合变异的变异数据同时存储在nor_AB.idx文件中。4.根据权利要求2所述的一种针对第二代肿瘤基因组高通量测序数据的流程校正方法,其特征在于:所述步骤S2具体包括以下步骤:S21、读取参考基因组序列、nor.sim和nor_AB.idx三个文件;S22、根据预设条件在参考基因组序列上选取第一代克隆的变异位点;S23、检查每个变异位点,如果所述变异位点出现在nor.sim中,但未在nor_AB.idx中,即为纯合变异,则返回步骤S22,否则确定变异类型和其他属性;S24、将步骤S23确定的变异位点的变异数据以32位无符号数格式存储在founding_clone.sim文件中。5.根据权利要求2所述的一种针对第二代肿瘤基因组高通量测序数据的流程校正方法,其特征在于,所述步骤S3具体包括以下步骤:S31、读取参考基因组序列、nor.sim、nor_AB.idx和founding_clone.sim;S32、根据预设条件在参考基因组序列上选取变异位点;S33、检查每个变异位点,如果所述变异位点出现在nor.sim和founding_clone.sim中,但未在nor_AB.idx中,即为纯合变异,返回步骤S32,否则确定变异类型和其他属性;S34、将步骤S33确定的变异位点的变异数据以32位无符号数格式存储在subcloneX.sim文件中,其中,X是文件编号;S35、将所述subclone...

【专利技术属性】
技术研发人员:赵仲孟王嘉寅耿彧
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1