【技术实现步骤摘要】
基于外显子测序数据的拷贝数变异检测方法及系统、终端和存储介质
本专利技术涉及外显子测序
,尤其是涉及一种基于外显子测序数据的拷贝数变异检测方法及系统、终端和存储介质。
技术介绍
人类是二倍体,有两套遗传信息,分别来自父母,通常认为DNA分子有两个拷贝。拷贝数变异(copynumbervariants,CNVs)是DNA序列结构变异的一种,通常定义为DNA片段(>1Kb)的扩增或删除。因为发生CNVs的区域一般比较大,大概率会包含若干基因,所以它们在人类疾病和药物反应中具有重要的作用。若CNVs包含影响关键的发育基因会引发很严重的疾病,比如自闭症、精神分裂症、先天性心脏畸形、帕金森、老年痴呆症等等。而且CNVs与癌症的发生也密切相关,导致致癌基因的激活归因于拷贝数的扩增和抑癌基因的失活归因于拷贝数的减少。所以,对CNVs的研究可以在疾病、癌症的治疗和预后发挥重要的作用,也有助于发现一些药物的靶点,应用于临床治疗。目前检测CNVs主要有两种技术:1)微阵列比较基因组杂交技术。这种技术有其局限性,检测的结果的灵敏度与精度相对比较低。2)二代测序技术。随着测序技术快速发展,基于测序技术的CNVs检测结果有更高的分辨率和准确度,而且测序成本不断降低。全基因组测序技术与外显子测序技术成为二代测序技术中检测CNVs和研究人类疾病的主要策略。因为外显子只占了人类基因组的1%左右,外显子测序技术比全基因组测序技术更便宜、更快。DNA序列由A、G、C、T四种碱基组成,测序实际上 ...
【技术保护点】
1.一种基于外显子测序数据的拷贝数变异检测方法,其特征在于,包括以下步骤:/nS100,获取正常样本和测试样本,对正常样本的外显子测序数据进行数据清理,然后对数据进行标准化处理,生成标准化后的正常样本集数据矩阵;/nS200,根据正常样本集数据矩阵中每个外显子区域在所有样本中的离散程度,将外显子区域划分成稳定与不稳定的区域;在稳定的区域中,处理测序技术中批次效应因素对正常样本集与测试样本比对的影响,以此构建参考数据矩阵;/nS300,使用PCA方法对参考数据矩阵进行处理,通过用主成分重构原始数据,将参考数据矩阵转换到其他空间并得到新的参数;/nS400,将测试数据变换到参考数据矩阵使用PCA转换后的空间中,然后使用Z-score方法得到测试数据与参考数据矩阵在当前空间中的差异程度,将外显子区域划分成扩增、正常、删除三种状态,根据各个外显子区域的状态使用贪心算法进行合并,完成对测试样本的拷贝数变异的检测。/n
【技术特征摘要】
1.一种基于外显子测序数据的拷贝数变异检测方法,其特征在于,包括以下步骤:
S100,获取正常样本和测试样本,对正常样本的外显子测序数据进行数据清理,然后对数据进行标准化处理,生成标准化后的正常样本集数据矩阵;
S200,根据正常样本集数据矩阵中每个外显子区域在所有样本中的离散程度,将外显子区域划分成稳定与不稳定的区域;在稳定的区域中,处理测序技术中批次效应因素对正常样本集与测试样本比对的影响,以此构建参考数据矩阵;
S300,使用PCA方法对参考数据矩阵进行处理,通过用主成分重构原始数据,将参考数据矩阵转换到其他空间并得到新的参数;
S400,将测试数据变换到参考数据矩阵使用PCA转换后的空间中,然后使用Z-score方法得到测试数据与参考数据矩阵在当前空间中的差异程度,将外显子区域划分成扩增、正常、删除三种状态,根据各个外显子区域的状态使用贪心算法进行合并,完成对测试样本的拷贝数变异的检测。
2.根据权利要求1所述的一种基于外显子测序数据的拷贝数变异检测方法,其特征在于,步骤S100具体包括:
S101,根据样本集文件自身提供的质量信息对正常样本集的外显子测序数据进行质量控制,获得高质量的测序数据,形成正常样本集外显子测序数据对应的readscount数据矩阵;
S102,根据外显子测序数据自身的特点进行进一步清理,过滤掉数据矩阵中不符合参数值要求的外显子区域;
S103,对数据进行标准化处理,将每个样本每个外显子区域的reads数标准化后的值构建形成正常样本集数据矩阵。
3.根据权利要求1所述的一种基于外显子测序数据的拷贝数变异检测方法,其特征在于,S102中,所述参数值要求包括设定最低的外显子长度、外显子上可接受的最低GC含量、外显子上可接受的最高GC含量、所有样本在一个外显子上可接受的最低的reads数的中位数。
4.根据权利要求1所述的一种基于外显子测序数据的拷贝数变异检测方法,其特征在于,S103中,每个样本每个外显子区域的reads数标准化后的值为外显子上的reads数除以对应样本测序数据中的数据清理后的reads数总和。
5.根据权利要求1所述的一种基于外显子测序数据的拷贝数变异检测方法,其特征在于,步骤S200具体包括:
S201,使用变异系数判断正常样本集数据中每个外显子区域在所有样本中的离散程度,根据设定的变异系数阈值将外显子区域划分成稳定与不稳定的区域;
S202,将测试样本的外显子测序数据按照正常样本集数据矩阵的构建流程生成对应的测试样本数据矩阵,然后在稳定的外显子区域中计算测试样本与正常样本集之间的距离,进而生成参考数据矩...
【专利技术属性】
技术研发人员:叶凯,梁皓,杨晓飞,杨帆,贾鹏,郭立,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。