基于外显子测序数据的拷贝数变异检测方法及系统、终端和存储介质技术方案

技术编号:24332768 阅读:63 留言:0更新日期:2020-05-29 20:31
本发明专利技术公开了一种基于外显子测序数据的拷贝数变异检测方法及系统、终端和存储介质。方法包括:对正常样本的外显子测序数据进行数据清理,然后对数据进行标准化处理,得到正常样本集数据矩阵;根据每个外显子区域在所有样本中的离散程度,将外显子区域划分成稳定与不稳定的区域;正常样本集数据矩阵在外显子稳定的区域中处理批次效应进而构建参考数据矩阵;使用PCA方法对参考数据矩阵进行处理,通过用主成分重构原始数据,将参考数据矩阵转换到其他空间并得到新的参数;将测试数据变换到参考数据矩阵使用PCA转换后的空间中,然后使用Z‑score方法得到测试数据与参考数据矩阵在当前空间中的差异程度,完成对测试样本的拷贝数变异的检测。采用该方法可以降低成本,实现外显子测序数据拷贝数变异检测的准确性和有效性。

Detection method, system, terminal and storage medium of copy number variation based on exon sequencing data

【技术实现步骤摘要】
基于外显子测序数据的拷贝数变异检测方法及系统、终端和存储介质
本专利技术涉及外显子测序
,尤其是涉及一种基于外显子测序数据的拷贝数变异检测方法及系统、终端和存储介质。
技术介绍
人类是二倍体,有两套遗传信息,分别来自父母,通常认为DNA分子有两个拷贝。拷贝数变异(copynumbervariants,CNVs)是DNA序列结构变异的一种,通常定义为DNA片段(>1Kb)的扩增或删除。因为发生CNVs的区域一般比较大,大概率会包含若干基因,所以它们在人类疾病和药物反应中具有重要的作用。若CNVs包含影响关键的发育基因会引发很严重的疾病,比如自闭症、精神分裂症、先天性心脏畸形、帕金森、老年痴呆症等等。而且CNVs与癌症的发生也密切相关,导致致癌基因的激活归因于拷贝数的扩增和抑癌基因的失活归因于拷贝数的减少。所以,对CNVs的研究可以在疾病、癌症的治疗和预后发挥重要的作用,也有助于发现一些药物的靶点,应用于临床治疗。目前检测CNVs主要有两种技术:1)微阵列比较基因组杂交技术。这种技术有其局限性,检测的结果的灵敏度与精度相对比较低。2)二代测序技术。随着测序技术快速发展,基于测序技术的CNVs检测结果有更高的分辨率和准确度,而且测序成本不断降低。全基因组测序技术与外显子测序技术成为二代测序技术中检测CNVs和研究人类疾病的主要策略。因为外显子只占了人类基因组的1%左右,外显子测序技术比全基因组测序技术更便宜、更快。DNA序列由A、G、C、T四种碱基组成,测序实际上就是通过仪器得到由这四种碱基组成的一条很长的字符串。外显子测序技术就是将位于外显子区域的DNA捕获并富集,通过测序得到外显子区域的字符串。所以,使用外显子测序数据检测病人的CNVs成为研究人类疾病主要方式之一。与全基因组测序技术相比,在外显子数据中检测CNVs存在更高的难度。外显子测序技术的文库准备的时候,杂交这一过程引入了偏差;一些外显子区域内的reads数比较低;全基因组测序数据中reads是连续的,而外显子的reads比对到参考基因组却是孤立的。这些因素使得在外显子测序数据中检测拷贝数变异带来了额外的挑战。目前,国内外已有的使用外显子测序数据检测CNVs的工具比较好的有以下三个工具:1)CANOES:利用负二项分布模型拟合数据,去噪声的算法使用的是广义相加模型,去掉GC含量对数据的影响。然后使用HMM和Viterbi算法将拷贝数划分成删除、正常和扩增,但只对比较小的CNVs有很高的敏感度,而且没有考虑外显子区域信号分布不均匀、以及杂交等因素导致的偏差。2)XHMM:利用高斯近似模型拟合数据,并且用PCA标准化数据,去掉前K个潜在的影响噪声的因子,然而假定所有噪声都是随机的高斯噪声,但GC含量对数据的影响并不是随机的。3)CoNVEX:同样使用高斯近似模型来拟合数据,但去噪声的算法采用的是通过比对正常样本,设置对照组来减少一些特定的噪声,然而没有考虑杂交等因素导致的偏差和噪声。
技术实现思路
为了解决现有技术中外显子测序数据中检测不足的问题,本专利技术提供了一种基于外显子测序数据的拷贝数变异检测方法及系统、终端和存储介质。采用该方法可以降低成本,实现外显子测序数据拷贝数变异检测的准确性和有效性。为达到上述目的,本专利技术采用以下技术方案:一种基于外显子测序数据的拷贝数变异检测方法,包括以下步骤:S100,获取正常样本和测试样本,对正常样本的外显子测序数据进行数据清理,然后对数据进行标准化处理,生成标准化后的正常样本集数据矩阵;S200,根据正常样本集数据矩阵中每个外显子区域在所有样本中的离散程度,将外显子区域划分成稳定与不稳定的区域;在稳定的区域中,处理测序技术中批次效应因素对正常样本集与测试样本比对的影响,以此构建参考数据矩阵;S300,使用PCA方法对参考数据矩阵进行处理,通过用主成分重构原始数据,将参考数据矩阵转换到其他空间并得到新的参数;S400,将测试数据变换到参考数据矩阵使用PCA转换后的空间中,然后使用Z-score方法得到测试数据与参考数据矩阵在当前空间中的差异程度,将外显子区域划分成扩增、正常、删除三种状态,根据各个外显子区域的状态使用贪心算法进行合并,完成对测试样本的拷贝数变异的检测。步骤S100具体包括:S101,根据样本集文件自身提供的质量信息对正常样本集的外显子测序数据进行质量控制,获得高质量的测序数据,形成正常样本集外显子测序数据对应的readscount数据矩阵;S102,根据外显子测序数据自身的特点进行进一步清理,过滤掉数据矩阵中不符合参数值要求的外显子区域;S103,对数据进行标准化处理,将每个样本每个外显子区域的reads数标准化后的值构建形成正常样本集数据矩阵。S102中,所述参数值要求包括设定最低的外显子长度、外显子上可接受的最低GC含量、外显子上可接受的最高GC含量、所有样本在一个外显子上可接受的最低的reads数的中位数。S103中,每个样本每个外显子区域的reads数标准化后的值为外显子上的reads数除以对应样本测序数据中的数据清理后的reads数总和。步骤S200具体包括:S201,使用变异系数判断正常样本集数据中每个外显子区域在所有样本中的离散程度,根据设定的变异系数阈值将外显子区域划分成稳定与不稳定的区域;S202,将测试样本的外显子测序数据按照正常样本集数据矩阵的构建流程生成对应的测试样本数据矩阵,然后在稳定的外显子区域中计算测试样本与正常样本集之间的距离,进而生成参考数据矩阵。一种基于外显子测序数据的拷贝数变异检测系统,包括:正常样本集数据矩阵生产模块,用于获取正常样本和测试样本,对正常样本的外显子测序数据进行数据清理,然后对数据进行标准化处理,生成标准化后的正常样本集数据矩阵;参考数据矩阵构建模块,用于根据正常样本集数据矩阵中每个外显子区域在所有样本中的离散程度,将外显子区域划分成稳定与不稳定的区域;在稳定的区域中,处理测序技术中批次效应因素对正常样本集与测试样本比对的影响,以此构建参考数据矩阵;参考数据矩阵处理模块,使用PCA方法对参考数据矩阵进行处理,通过用主成分重构原始数据,将参考数据矩阵转换到其他空间并得到新的参数;拷贝数变异的检测模块,将测试数据变换到参考数据矩阵使用PCA转换后的空间中,然后使用Z-score方法得到测试数据与参考数据矩阵在当前空间中的差异程度,将外显子区域划分成扩增、正常、删除三种状态,根据各个外显子区域的状态使用贪心算法进行合并,完成对测试样本的拷贝数变异的检测。所述正常样本集数据矩阵生产模块具体用于:根据样本集文件自身提供的质量信息对正常样本集的外显子测序数据进行质量控制,获得高质量的测序数据,形成正常样本集外显子测序数据对应的readscount数据矩阵;根据外显子测序数据自身的特点进行进一步清理,过滤掉数据矩本文档来自技高网
...

【技术保护点】
1.一种基于外显子测序数据的拷贝数变异检测方法,其特征在于,包括以下步骤:/nS100,获取正常样本和测试样本,对正常样本的外显子测序数据进行数据清理,然后对数据进行标准化处理,生成标准化后的正常样本集数据矩阵;/nS200,根据正常样本集数据矩阵中每个外显子区域在所有样本中的离散程度,将外显子区域划分成稳定与不稳定的区域;在稳定的区域中,处理测序技术中批次效应因素对正常样本集与测试样本比对的影响,以此构建参考数据矩阵;/nS300,使用PCA方法对参考数据矩阵进行处理,通过用主成分重构原始数据,将参考数据矩阵转换到其他空间并得到新的参数;/nS400,将测试数据变换到参考数据矩阵使用PCA转换后的空间中,然后使用Z-score方法得到测试数据与参考数据矩阵在当前空间中的差异程度,将外显子区域划分成扩增、正常、删除三种状态,根据各个外显子区域的状态使用贪心算法进行合并,完成对测试样本的拷贝数变异的检测。/n

【技术特征摘要】
1.一种基于外显子测序数据的拷贝数变异检测方法,其特征在于,包括以下步骤:
S100,获取正常样本和测试样本,对正常样本的外显子测序数据进行数据清理,然后对数据进行标准化处理,生成标准化后的正常样本集数据矩阵;
S200,根据正常样本集数据矩阵中每个外显子区域在所有样本中的离散程度,将外显子区域划分成稳定与不稳定的区域;在稳定的区域中,处理测序技术中批次效应因素对正常样本集与测试样本比对的影响,以此构建参考数据矩阵;
S300,使用PCA方法对参考数据矩阵进行处理,通过用主成分重构原始数据,将参考数据矩阵转换到其他空间并得到新的参数;
S400,将测试数据变换到参考数据矩阵使用PCA转换后的空间中,然后使用Z-score方法得到测试数据与参考数据矩阵在当前空间中的差异程度,将外显子区域划分成扩增、正常、删除三种状态,根据各个外显子区域的状态使用贪心算法进行合并,完成对测试样本的拷贝数变异的检测。


2.根据权利要求1所述的一种基于外显子测序数据的拷贝数变异检测方法,其特征在于,步骤S100具体包括:
S101,根据样本集文件自身提供的质量信息对正常样本集的外显子测序数据进行质量控制,获得高质量的测序数据,形成正常样本集外显子测序数据对应的readscount数据矩阵;
S102,根据外显子测序数据自身的特点进行进一步清理,过滤掉数据矩阵中不符合参数值要求的外显子区域;
S103,对数据进行标准化处理,将每个样本每个外显子区域的reads数标准化后的值构建形成正常样本集数据矩阵。


3.根据权利要求1所述的一种基于外显子测序数据的拷贝数变异检测方法,其特征在于,S102中,所述参数值要求包括设定最低的外显子长度、外显子上可接受的最低GC含量、外显子上可接受的最高GC含量、所有样本在一个外显子上可接受的最低的reads数的中位数。


4.根据权利要求1所述的一种基于外显子测序数据的拷贝数变异检测方法,其特征在于,S103中,每个样本每个外显子区域的reads数标准化后的值为外显子上的reads数除以对应样本测序数据中的数据清理后的reads数总和。


5.根据权利要求1所述的一种基于外显子测序数据的拷贝数变异检测方法,其特征在于,步骤S200具体包括:
S201,使用变异系数判断正常样本集数据中每个外显子区域在所有样本中的离散程度,根据设定的变异系数阈值将外显子区域划分成稳定与不稳定的区域;
S202,将测试样本的外显子测序数据按照正常样本集数据矩阵的构建流程生成对应的测试样本数据矩阵,然后在稳定的外显子区域中计算测试样本与正常样本集之间的距离,进而生成参考数据矩...

【专利技术属性】
技术研发人员:叶凯梁皓杨晓飞杨帆贾鹏郭立
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1