本申请公开了一种测序数据的处理方法及装置。该方法包括:获取待检测基因组的测序数据,并确定待检测基因组的测序数据中产生的至少一个位点,其中,至少一个位点包括突变位点和/或不突变位点;验证待检测基因组的测序数据中产生的位点的基因型可靠程度,并输出位点的基因型可靠程度;基于位点的基因型可靠程度,对位点进行可信性标记。通过本申请,解决了相关技术中采用人工筛选的方式来验证二代测序产生的变异信息,导致验证效率低、时间周期长、成本高的技术问题。
【技术实现步骤摘要】
测序数据的处理方法及装置
本申请涉及基因测序
,具体而言,涉及一种测序数据的处理方法及装置。
技术介绍
随着二代测序的普及,产生了大量的人基因组数据,通过对基因组数据进行分析,从而推进了疾病研究的进展,解决了部分疑难杂症,造福了部分遗传病患者。而如何判别二代测序产生的变异信息的准确性,是获得准确可靠的基因分析成果的至关重要的一步。需要说明的是,基因组数据分析会获得大量突变,以一个30测序数据的处理方法及装置的全基因组测序数据为例,其能检测得到300M-400M的突变,包括单核苷酸多态性突变(SNP),插入缺失突变(InDel)。科研工作者往往需要在检测的结果中,去获取与研究目标相关的突变,并进行验证,该过程涉及到判断位点的准确性,需要先确定可靠,再进行验证,SNP一般假阳性在10%左右,而InDel的假阳性能达到20%以上。位点较少的时候一般是先用IGV人工判断,而样本或者位点较多的时候,或者需要判断样本间的基因型关系是否真实的与研究目标相符的时候,使用IGV判断工作量巨大,甚至难以实现判断目标。如何解决二代测序位点的准确性验证的不便利性,包括人工验证,或者实验验证的不方便,周期长,成本高等问题,是亟待解决的问题。针对相关技术中采用人工筛选的方式来验证二代测序产生的变异信息,导致验证效率低、时间周期长、成本高的技术问题,目前尚未提出有效的解决方案。
技术实现思路
本申请提供一种测序数据的处理方法及装置,以解决相关技术中采用人工筛选的方式来验证二代测序产生的变异信息,导致验证效率低、时间周期长、成本高的技术问题。根据本申请的一个方面,提供了一种测序数据的处理方法。该方法包括:获取待检测基因组的测序数据,并确定待检测基因组的测序数据中产生的至少一个位点,其中,至少一个位点包括突变位点和/或不突变位点;验证待检测基因组的测序数据中产生的位点的基因型可靠程度,并输出位点的基因型可靠程度;基于位点的基因型可靠程度,对位点进行可信性标记。可选地,获取待检测基因组的测序数据,并确定待检测基因组的测序数据中产生的至少一个位点包括:获取参考基因组的测序数据,并基于参考基因组的测序数据的位点顺序转换待检测基因组的测序数据,得到目标形式的测序数据;获取至少一个待判读的目标位点的基因组位置信息,并基于目标位点的基因组位置信息在目标形式的测序数据中确定至少一个位点。可选地,验证待检测基因组的测序数据中产生的位点的基因型可靠程度,并输出位点的基因型可靠程度包括:在产生的点位为突变点位的情况下,判断突变点位是否满足第一预设条件,并在突变点位满足第一预设条件时,确定突变点位的基因型可靠程度为可信;在产生的点位为不突变点位的情况下,判断不突变点位是否满足第二预设条件,并在不突变点位满足第二预设条件时,确定不突变点位的基因型可靠程度为可信。可选地,判断突变点位是否满足第一预设条件包括:判断突变位点的覆盖深度是否大于预设深度,判断突变位点是否存在链偏好性,并判断待检测基因组的测序数据中的突变的碱基是否不小于预设比例;在突变位点的覆盖深度大于预设深度,突变位点不存在链偏好性,且待检测基因组的测序数据中的突变的碱基不小于预设比例的情况下,确定突变位点满足第一预设条件。可选地,判断不突变点位是否满足第二预设条件包括:判断不突变位点的覆盖深度是否大于预设深度,并判断待检测基因组的测序数据中的突变的碱基是否小于预设比例;对于不突变点位,在不突变位点的覆盖深度大于预设深度,且待检测基因组的测序数据中的突变的碱基小于预设比例的情况下,判断不突变位点的上下游的预设对碱基序列中是否存在可信的插入缺失突变位点;在不突变位点的上下游的预设对碱基序列中不存在可信的插入缺失突变位点的情况下,确定不突变位点的基因型可靠程度为可信。可选地,基于位点的基因型可靠程度,对位点进行可信性标记包括:在待检测的基因组中的测序数据为单样本的情况下,如果单样本的位点的基因型可靠程度为可信,则标记位点为可信的位点。可选地,基于位点的基因型可靠程度,对产生的位点进行可信性标记包括:在待检测基因组的测序数据为多样本的情况下,基于多样本之间的关系以及位点的基因型可靠程度对位点进行可信性标记。可选地,基于多样本之间的关系以及位点的基因型可靠程度对位点进行可信性标记包括:在判定单样本中的位点的基因型可靠程度为可信的情况下判定结果,基于多样本之间的关系信息验证判定结果是否正确;在判定结果正确的情况下,则标记位点为可信。根据本申请的另一方面,提供了一种测序数据的处理装置。该装置包括:获取单元,用于获取待检测基因组的测序数据,并确定待检测基因组的测序数据中产生的至少一个位点,其中,至少一个位点包括突变位点和/或不突变位点;验证单元,用于验证待检测基因组的测序数据中产生的位点的基因型可靠程度,并输出位点的基因型可靠程度;标记单元,用于基于位点的基因型可靠程度,对位点进行可信性标记。根据本专利技术实施例的另一方面,还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,程序运行时控制非易失性存储介质所在的设备执行一种测序数据的处理方法。根据本专利技术实施例的另一方面,还提供了一种电子装置,包含处理器和存储器;存储器中存储有计算机可读指令,处理器用于运行计算机可读指令,其中,计算机可读指令运行时执行一种测序数据的处理方法。通过本申请,采用以下步骤:获取待检测基因组的测序数据,并确定待检测基因组的测序数据中产生的至少一个位点,其中,至少一个位点包括突变位点和/或不突变位点;验证待检测基因组的测序数据中产生的位点的基因型可靠程度,并输出位点的基因型可靠程度;基于位点的基因型可靠程度,对位点进行可信性标记,解决了相关技术中采用人工筛选的方式来验证二代测序产生的变异信息,导致验证效率低、时间周期长、成本高的技术问题。进而达到了提高变异信息的验证效率和验证准确性的效果。附图说明构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例提供的测序数据的处理方法的流程图;图2是根据本申请实施例提供的另一种测序数据的处理方法的流程图;以及图3是根据本申请实施例提供的测序数据的处理装置的示意图。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定本文档来自技高网...
【技术保护点】
1.一种测序数据的处理方法,其特征在于,包括:/n获取待检测基因组的测序数据,并确定所述待检测基因组的测序数据中产生的至少一个位点,其中,所述至少一个位点包括突变位点和/或不突变位点;/n验证所述待检测基因组的测序数据中产生的位点的基因型可靠程度,并输出所述位点的基因型可靠程度;/n基于所述位点的基因型可靠程度,对所述位点进行可信性标记。/n
【技术特征摘要】
1.一种测序数据的处理方法,其特征在于,包括:
获取待检测基因组的测序数据,并确定所述待检测基因组的测序数据中产生的至少一个位点,其中,所述至少一个位点包括突变位点和/或不突变位点;
验证所述待检测基因组的测序数据中产生的位点的基因型可靠程度,并输出所述位点的基因型可靠程度;
基于所述位点的基因型可靠程度,对所述位点进行可信性标记。
2.根据权利要求1所述的方法,其特征在于,获取待检测基因组的测序数据,并确定所述待检测基因组的测序数据中产生的至少一个位点包括:
获取参考基因组的测序数据,并基于所述参考基因组的测序数据的位点顺序转换所述待检测基因组的测序数据,得到目标形式的测序数据;
获取至少一个待判读的目标位点的基因组位置信息,并基于所述目标位点的基因组位置信息在所述目标形式的测序数据中确定至少一个位点。
3.根据权利要求1所述的方法,其特征在于,验证所述待检测基因组的测序数据中产生的位点的基因型可靠程度,并输出所述位点的基因型可靠程度包括:
在产生的点位为突变点位的情况下,判断所述突变点位是否满足第一预设条件,并在所述突变点位满足所述第一预设条件时,确定所述突变点位的基因型可靠程度为可信;
在产生的点位为不突变点位的情况下,判断所述不突变点位是否满足第二预设条件,并在所述不突变点位满足所述第二预设条件时,确定所述不突变点位的基因型可靠程度为可信。
4.根据权利要求3所述的方法,其特征在于,判断所述突变点位是否满足第一预设条件包括:
判断所述突变位点的覆盖深度是否大于预设深度,判断所述突变位点是否存在链偏好性,并判断所述待检测基因组的测序数据中的突变的碱基是否不小于预设比例;
在所述突变位点的覆盖深度大于所述预设深度,所述突变位点不存在链偏好性,且所述待检测基因组的测序数据中的突变的碱基不小于所述预设比例的情况下,确定所述突变位点满足所述第一预设条件。
5.根据权利要求3所述的方法,其特征在于,判断所述不突变点位是否满足第二预设条件包括:
判断所述不突变位点的覆盖深度是否大于预设深度,并判断所述待检测基因组的测序数据中的突变的碱基是否小于预设比例;
对于不突变点位,在所述不突变位点的覆盖深度大...
【专利技术属性】
技术研发人员:余欢,江文恺,吴俊,李瑞强,
申请(专利权)人:天津诺禾医学检验所有限公司,
类型:发明
国别省市:天津;12
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。