【技术实现步骤摘要】
本专利技术属于基因信息数据处理领域,特别是涉及到一种全外显子组测序数据分析方法。
技术介绍
随着人类基因组计划和国际人类单体型图谱构建的完成,快速推动了通过解析基因组信息研究疾病易感位点的预测和功能研究。这类研究主要是基于生物芯片的基因分型技术,利用全基因组关联分析研究(GWAS)方法来寻找与复杂疾病相关的遗传因素。随着生物芯片中探针越来越密集,特别是叠瓦式探针的设计,对于疾病风险位点的挖掘也越来越全面。然而,GWAS的局限在于:识别的多数关联位点位于基因组的基因间区、内含子、调控区;其次,芯片的探针都是基于目前已知的(绝大多数是常见SNP)设计的,不能识别低频的致病变异和新的致病突变。短短几年内,新一代技术的迅猛发展在数据通量和成本上都显示出巨大的优势。特别是全外显子组捕获测序技术,通过特异性探针富集到具有编码功能的外显子区,针对这些功能区域进行深度测序,不仅可以更全面的检测编码区域的变异,且能够识别低频的和新的变异位点。全外显子测序包含目标区间的捕获、文库构建和上机测序,以及生物信息学分析三个过程。目前最流行的三种外显子捕获试剂分别来自罗氏NimbleGen ...
【技术保护点】
一种全外显子组测序数据分析方法,其特征在于,包括以下步骤:1)测序数据的质控:通过对原始测序数据文件中单碱基质量,以及read质量的评估,判断测序数据是否可用于后续分析,同时,筛选去除测序因素产生的数据噪音;2)测序数据的基因组映射:利用BWA的aln算法完成read到基因组的映射过程,通过多线程运算达到快速比对的结果;3)测序数据找高置信的基因组变异:利用GATK包的UnifiedGenotyper方法找基因组上的变异位点,包括SNV和小片段的INDEL;4)变异位点的注释:对变异的候选位点或基因组区间做注释,包含这些变异在基因组的位置、是否影响氨基酸编码、人群频率、对于蛋白质功能是否有害。
【技术特征摘要】
1.一种全外显子组测序数据分析方法,其特征在于,包括以下步骤:1)测序数据的质控:通过对原始测序数据文件中单碱基质量,以及read质量的评估,判断测序数据是否可用于后续分析,同时,筛选去除测序因素产生的数据噪音;2)测序数据的基因组映射:利用BWA的aln算法完成read到基因组的映射过程,通过多线程运算达到快速比对的结果;3)测序数据找高置信的基因组变异:利用GATK包的UnifiedGenotyper方法找基因组上的变异位点,包括SNV和小片段的INDEL;4)变异位点的注释:对变异的候选位点或基因组区间做注释,包含这些变异在基因组的位置、是否影响氨基酸编码、人群频率、对于蛋白质功能是否有害。2.根据权利要求1所述的一种全外显子组测序数据分析方法,其特征在于,所述步骤1)中测序数据的质控包括:101)数据质量的统计结果以及评估报告,包含以下内容:碱基质量分布、GC含量统计、A/T/G/C碱基分布、read长度统计、显著富集的段序列检测;102)read修剪,包括去除低质量的read片段、去除测序异常的read、去除测序过程中添加的适配器,输出高质量的read用于后续信息挖...
【专利技术属性】
技术研发人员:薛成海,雷文婕,刘婷婷,
申请(专利权)人:万康源天津基因科技有限公司,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。