一种针对孤独症的高通量测序数据分析方法及装置制造方法及图纸

技术编号:34548285 阅读:24 留言:0更新日期:2022-08-17 12:31
本发明专利技术提供了一种针对孤独症的高通量测序数据分析方法及装置。具体地,包括:I.提供基于卷积神经网络过滤的个体变异数据,并提供用于群体分析的个体预检测变异数据;II.对所述个体预检测变异数据进行合并,从而获得群体预检测变异数据;并对群体预检测变异数据进行群体变异检测,从而获得群体变异数据,并对所述群体变异数据进行过滤和再次过滤,从而获得最终群体变异数据;并对所述最终群体变异数据进行拆分、新生突变检验和过滤,从而获得最终个体变异数据;和III.对所述最终个体变异数据的进行注释和功能预测,从而获得孤独症基因的注释结果和功能预测结果。本发明专利技术的方法可高通量、快速、准确的针对孤独症的基因检测数据进行分析。行分析。

【技术实现步骤摘要】
一种针对孤独症的高通量测序数据分析方法及装置


本专利技术涉及生物信息处理
,特别是指一种针对孤独症高通量测序的数据分析方法及装置。

技术介绍

孤独症又称自闭症,是一类比较严重的神经发育性疾病,核心症状是社交障碍、语言障碍和重复刻板行为。随着公众意识和诊断水平的提高,近年来孤独症患儿越来越多,孤独症患者的人群频率从1990年前的5/10000上升到2018年的1/59。而孤独症的异质性明显:找不到特定的异常脑区和特定的异常细胞,也就没有统一的诊治方案,为社会和家庭带来了沉重的负担。孤独症和遗传因素密切相关。孤独症多发家系再生出孤独症儿童的概率达到35%。孤独症患者的姊妹患孤独症的概率也较高。15%的孤独症患者携带了已知的遗传缺陷。对孤独症患儿进行致病基因、易感基因、可能相关基因的检测,是有效诊断的必要前提。针对孤独症的基因检测情况特殊:1)需要以核心家庭为单位,收集患儿及父母的样本进行检测;2)发病率较高,样本增长速度快,进行群体分析有助于提高准确度。目前已有的基因检测数据分析系统,1)缺乏有效的信息梳理步骤,容易导致检测结果的性别或亲缘关系错误;2)缺乏标准化文件的备份机制,信息可溯源性差;3)缺乏对三口之家数据的合理分析,对妊娠过程中产生的新生突变的分析能力不足;4)缺乏对群体信息的有效分析,难以发挥孤独症大规模样本的数据潜力。所以本领域急需提供一种高通量、分析快速、结果准确的针对孤独症的基因检测数据分析方法及装置。

技术实现思路

本专利技术的目的是提供一种高通量、分析快速、结果准确的针对孤独症的基因检测数据分析方法及装置。本专利技术第一方面,提供了一种针对孤独症基因检测的数据分析方法,该方法包括:步骤I.提供基于卷积神经网络过滤的个体变异数据,并提供用于群体分析的个体预检测变异数据,其中,所述的个体包括孤独症患者、孤独症易感者、和/或正常个体(未患孤独症患者且非孤独症易感者);步骤II.对所述个体预检测变异数据进行合并,从而获得群体预检测变异数据;并对群体预检测变异数据进行群体变异检测,从而获得群体变异数据,并对所述群体变异数据进行过滤和再次过滤,从而获得最终群体变异数据;并对所述最终群体变异数据进行拆分、新生突变检验和过滤,从而获得最终个体变异数据;和步骤III.对所述最终个体变异数据的进行注释和功能预测,从而获得孤独症基因的注释结果和功能预测结果。在另一优选例中,在步骤III中,还包括基于所述的孤独症基因的注释结果和功能
预测结果,对群体的孤独症进行致病性分析。在另一优选例中,所述的变异数据为核酸测序数据,较佳地为基因组测序数据、RNA测序数据、或其组合。在另一优选例中,步骤I中,包括如下步骤:步骤S1,对待处理数据进行类型判断、质量控制和整理,从而得到测序数据;步骤S2,测序数据的拼接和比对,对已经标记过接头的测序数据的比对,然后根据已知变异位点数据库进行碱基质量值计算,进一步优化比对结果,得到最终用于变异检测的优质比对数据;和步骤S3,将优质比对数据进行个体变异检测和个体变异预检测,获取基于卷积神经网络过滤的个体变异数据,获取将用于群体分析的预检测个体变异数据。在另一优选例中,步骤S1包括如下步骤:步骤S1.01a和步骤S1.01b,待处理数据的类型判断,当待处理数据为fastq格式的原始测序数据,则进入步骤S1.02a;待处理数据为bam格式的已比对数据,则进入步骤S1.02b;步骤S1.02a,fastq格式原始测序数据的质量控制,包括测序数据的质量验证和低质量测序数据的排除,得到fastq格式的优质测序数据;步骤S1.02b,bam格式已比对数据的还原,即将已按照参考基因组完成拼接的测序数据,还原为没有拼接的数据,得到含有RG(Read Groups)参数的bam格式预比对数据;步骤S1.03,添加参数和格式转换,即针对步骤S1.02a中得到的优秀测序数据添加RG参数,并进行格式转换,得到含有RG参数的bam格式预比对数据;步骤S1.04,标记步骤S1.02b或步骤S1.03中得到的预比对数据中的接头序列,得到标记接头序列的bam格式预比对数据;和步骤S1.05,将步骤S1.04中得到的已经标记了接头序列的bam格式预比对数据,还原为标记了接头序列的fastq格式测序数据。在另一优选例中,步骤S2包括如下步骤:步骤S2.06,根据参考基因组序列,将测序序列进行拼接和比对,得到不含RG参数的贫参数比对数据;步骤S2.07,整合步骤S2.06得到的贫参数比对数据和步骤S1.02a或步骤S1.03得到的bam格式预比对数据,得到含有RG参数的富参数比对数据;步骤S2.08,标记步骤S2.07得到的富参数比对数据中由于测序过程中由于PCR导致的重复测序的序列,得到去除了重复序列的去重比对数据;步骤S2.09,根据已知的变异位点数据库,针对步骤S2.08得到的去重比对数据,计算碱基质量值,得到碱基质量值计算结果;和步骤S2.10,根据步骤S2.09得到的碱基质量值计算结果,针对步骤S2.08得到的去重比对数据,进行碱基质量值校正,得到优质比对数据。在另一优选例中,步骤S3包括如下步骤:步骤S3.11,根据S2.10得到的优质比对数据,进入两个平行的子流程,其中,对于群体分析的流程,按照步骤S3.12进行个体变异预检测;对于非群体分析的流程,按照步骤S3.13进行个体变异检测;
步骤S3.12,将S2.10得到的优质比对数据,进行个体变异预检测,得到个体的预检测变异数据(得到gvcf文件),留待群体分析时使用;步骤S3.13,将S2.10得到的优质比对数据,直接进行个体变异检测,得到个体变异数据;和步骤S3.14,根据已知的变异位点数据库,采用卷积神经网络方法,对步骤S3.13的个体变异数据进行过滤,得到基于卷积神经网络过滤的个体变异数据(即CNN个体变异数据)。在另一优选例中,步骤S2.06中所述参考基因组序列,特别指含有alternate contigs和decoy contigs的GRCh38版本的参考基因组。在另一优选例中,步骤II中,包括如下步骤:步骤S4,对所述个体预检测变异数据进行合并,从而得到群体预检测变异数据,再对所述群体预检测变异数据进行群体变异检测,从而获得群体变异数据;步骤S5,对所述群体变异数据进行过滤,较佳地分别计算群体变异数据的单核苷酸变异质量值和插入或缺失质量值,并根据这两个质量值对群体变异数据进行过滤,得到经过滤的优质群体变异数据;步骤S6,对所述的优质群体变异数据进行进一步处理和再次过滤,从而获得经再次过滤的优质群体变异数据,并在经再次过滤的优质群体变异数据中标记同一家系中的新生突变,从而获得最终群体变异数据;和步骤S7,将最终群体变异数据拆分为优质个体变异数据,并根据基于卷积神经网络的个体变异数据和多种新生突变检验工具进行过滤,得到最终版的个体变异数据。在另一优选例中,所述的进一步处理包括:结合变异位点数据库和家系信息,计算基因型的后验概率。在另一优选例中,所述再次过滤包括:根据已知变异位点数据库和家系信息,对优质群体变异数据进行再次过滤,从而获得经再次过滤的优质群体变异数据。在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对孤独症基因检测的数据分析方法,其特征在于,该方法包括:步骤I.提供基于卷积神经网络过滤的个体变异数据,并提供用于群体分析的个体预检测变异数据,其中,所述的个体包括孤独症患者、孤独症易感者、和/或正常个体;步骤II.对所述个体预检测变异数据进行合并,从而获得群体预检测变异数据;并对群体预检测变异数据进行群体变异检测,从而获得群体变异数据,并对所述群体变异数据进行过滤和再次过滤,从而获得最终群体变异数据;并对所述最终群体变异数据进行拆分、新生突变检验和过滤,从而获得最终个体变异数据;和步骤III.对所述最终个体变异数据的进行注释和功能预测,从而获得孤独症基因的注释结果和功能预测结果。2.如权利要求1所述的方法,其特征在于,在步骤III中,还包括基于所述的孤独症基因的注释结果和功能预测结果,对群体的孤独症进行致病性分析。3.如权利要求1所述的方法,其特征在于,步骤I中,包括如下步骤:步骤S1,对待处理数据进行类型判断、质量控制和整理,从而得到测序数据;步骤S2,测序数据的拼接和比对,对已经标记过接头的测序数据的比对,然后根据已知变异位点数据库进行碱基质量值计算,进一步优化比对结果,得到最终用于变异检测的优质比对数据;和步骤S3,将优质比对数据进行个体变异检测和个体变异预检测,获取基于卷积神经网络过滤的个体变异数据,获取将用于群体分析的预检测个体变异数据。4.如权利要求1所述的方法,其特征在于,步骤II中,包括如下步骤:步骤S4,对所述个体预检测变异数据进行合并,从而得到群体预检测变异数据,再对所述群体预检测变异数据进行群体变异检测,从而获得群体变异数据;步骤S5,对所述群体变异数据进行过滤,较佳地分别计算群体变异数据的单核苷酸变异质量值和插入或缺失质量值,并根据这两个质量值对群体变异数据进行过滤,得到经过滤的优质群体变异数据;步骤S6,对所述的优质群体变异数据进行进一步处理和再次过滤,从而获得经再次过滤的优质群体变异数据,并在经再次过滤的优质群体变异数据中标记同一家系中的新生突变,从而获得最终群体变异数据;和步骤S7,将最终群体变异数据拆分为...

【专利技术属性】
技术研发人员:袁博仇子龙
申请(专利权)人:中国科学院脑科学与智能技术卓越创新中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1