【技术实现步骤摘要】
一种统计DNA拷贝数信息的方法、装置及存储介质
本专利技术涉及生物信息学
,具体涉及一种统计DNA拷贝数信息的方法、装置及存储介质。
技术介绍
拷贝数变异(copynumbervariation,CNV)是基因组结构变异的一种形式。长度介于50bp至1Mb之间。在人类基因组中,发生CNV的区域约占基因组总长度的12%。CNV能够通过改变基因剂量或染色体构象来影响基因表达,进而影响疾病的发生和发展。基因芯片技术和深度测序技术是目前检测全基因组CNV的两种主要技术。前者主要包括比较基因组杂交芯片(comparativegenomichybridization,CGH)和SNP(singlenucleotidepolymorphism)芯片。比较基因组杂交技术通过将试验样品和参照样品基因组DNA同时与微阵列芯片上的DNA探针杂交,直观地得到试验样品中基因组DNA发生变异的位点信息及拷贝数量变化信息。它可以高效、快速地分析数以千计的基因组信息,具有高通量、微型化和自动化的特点。CGH又不断演进出微阵列比较基因组杂交(Array-CGH)技术和寡核苷酸阵列比较基因组杂 ...
【技术保护点】
1.一种统计DNA拷贝数信息的方法,其特征在于,包括:获取目标基因组的全基因组测序读段数据;将所述测序读段数据比对到参考基因组以去除未比对上的读段及重复读段;分别计算基于排列组合的染色体非整倍性评估值PECA和基于排列组合的单臂不稳定性评估值PEAI,其中,所述PECA值表示被分割成片段的基因组中各片段的基因组代表比例的P值经校正后的求和结果或所述求和结果的对数值,其中各片段的基因组代表比例表示该片段比对到唯一位置的读段数与该样本全部比对到唯一位置的读段总数的比值,所述PEAI值表示基因组中各染色体单臂的基因组代表比例的P值中数值最小的若干个P值经校正后的求和结果,其中各染 ...
【技术特征摘要】
1.一种统计DNA拷贝数信息的方法,其特征在于,包括:获取目标基因组的全基因组测序读段数据;将所述测序读段数据比对到参考基因组以去除未比对上的读段及重复读段;分别计算基于排列组合的染色体非整倍性评估值PECA和基于排列组合的单臂不稳定性评估值PEAI,其中,所述PECA值表示被分割成片段的基因组中各片段的基因组代表比例的P值经校正后的求和结果或所述求和结果的对数值,其中各片段的基因组代表比例表示该片段比对到唯一位置的读段数与该样本全部比对到唯一位置的读段总数的比值,所述PEAI值表示基因组中各染色体单臂的基因组代表比例的P值中数值最小的若干个P值经校正后的求和结果,其中各染色体单臂的基因组代表比例表示该染色体单臂比对到唯一位置的读段数与该样本全部比对到唯一位置的读段总数的比值;将所述PECA值和所述PEAI值分别与各自的设定阈值比较以评估基因组拷贝数变化。2.根据权利要求1所述的方法,其特征在于,所述PECA值的计算公式如下:其中,I为片段数,adjustedPvalue为各片段的基因组代表比例的P值经FDR校正后的结果。3.根据权利要求1所述的方法,其特征在于,所述PEAI值的计算公式如下:其中,m为所有P值中数值最小的P值的个数,adjustedPvalue为各染色体单臂的基因组代表比例的P值中数值最小的若干个P值经校正后的结果。4.根据权利要求3所述的方法,其特征在于,所述m的取值为5。5.根据权利要求1所述的方法,其特征在于,所述各片段的基因组代表比例的P值,通过如下方法获得:将对照组所有样本的同一片段的基因组代表比例重复随机选择第一预定次数,所述P值表示所选择的基因组代表比例中大于该片段的基因组代表比例的个数与所述第一预定次数的比例。6.根据权利...
【专利技术属性】
技术研发人员:金鑫,周亚峰,李佳,袁玉英,陈芳,刘强,刘娜,吴仁花,张红云,茅矛,尹烨,
申请(专利权)人:深圳华大基因股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。