注释后的突变检测结果文件的数据处理方法及相关设备技术

技术编号:29679672 阅读:34 留言:0更新日期:2021-08-13 22:02
本发明专利技术公开一种注释后的突变检测结果文件的数据处理方法,电子设备和计算机可读存储介质,方法包括:接收注释后的突变检测结果文件,注释后的突变检测结果文件包括多行数据,每一行数据对应一个突变位点;获取过滤条件对应的配置参数,配置参数包括预设等位频率范围、预设转录本类型和预设突变类型;根据配置参数,从突变检测结果文件中确定出满足过滤条件的目标突变位点;其中过滤条件包括:突变位点的等位频率值在预设等位频率范围内,突变位点所在的转录本类型数据包括预设转录本类型,突变位点属于预设突变类型。本发明专利技术中的方法数据的处理更加方便便捷,可以避免手动挑选匹配带来的数据遗漏或者匹配错误的可能,数据处理的准确率高。

【技术实现步骤摘要】
注释后的突变检测结果文件的数据处理方法及相关设备
本专利技术涉及心电仿真
,更具体地,涉及一种注释后的突变检测结果文件的数据处理方法、电子设备和计算机可读存储介质。
技术介绍
随着基因测序技术的快速发展,检测成本大幅度降低,因此基因组测序越来越多的投入临床市场并服务于大众。但是二代测序发现的变异数量是巨大的,造成变异解读及查找致病基因需耗费大量的人力物力。以人类基因组为例,1个人类基因组包含近3500000个SNV突变和1000个拷贝数变异,其中约20000-25000个变异是在编码区,10000个位点改变了氨基酸编码,但仅有50-100个突变造成蛋白截断或功能缺失,手动检查每个变异位点非常耗时且有些不切实际。目前常用的方式是首先通过注释软件对突变检测结果文件(一般;来说为VCF(VariantCallFormat)格式的文件)进行位点信息注释,然后对注释后的突变检测结果文件进行基因信息和突变信息的提取。注释后的突变检测结果文件数据量一般来说是非常巨大的,手动挑选匹配的基因信息数据和突变信息数据会耗费大量的时间,并且也会存在数据遗漏或数据本文档来自技高网...

【技术保护点】
1.一种注释后的突变检测结果文件的数据处理方法,其特征在于,包括:/n接收注释后的突变检测结果文件,所述注释后的突变检测结果文件包括多行数据,每一行数据对应一个突变位点;/n获取过滤条件对应的配置参数,所述配置参数包括预设等位频率范围、预设转录本类型和预设突变类型;和/n根据所述配置参数,从所述突变检测结果文件中确定出满足过滤条件的目标突变位点;其中所述过滤条件包括:突变位点的等位频率值在所述预设等位频率范围内,突变位点所在的转录本类型数据包括所述预设转录本类型,突变位点属于所述预设突变类型。/n

【技术特征摘要】
1.一种注释后的突变检测结果文件的数据处理方法,其特征在于,包括:
接收注释后的突变检测结果文件,所述注释后的突变检测结果文件包括多行数据,每一行数据对应一个突变位点;
获取过滤条件对应的配置参数,所述配置参数包括预设等位频率范围、预设转录本类型和预设突变类型;和
根据所述配置参数,从所述突变检测结果文件中确定出满足过滤条件的目标突变位点;其中所述过滤条件包括:突变位点的等位频率值在所述预设等位频率范围内,突变位点所在的转录本类型数据包括所述预设转录本类型,突变位点属于所述预设突变类型。


2.根据权利要求1所述的数据处理方法,其特征在于,通过如下方法判断突变位点是否属于所述预设突变类型:
获取预设突变类型对应的判断条件,所述判断条件包括突变位点对应的数据中包含指定关键字段、以及指定指标的数值满足预设要求;
若突变位点对应的数据满足所述判断条件,则确定突变位点属于预设突变类型,否则确定突变位点不属于预设突变类型。


3.根据权利要求2所述的数据处理方法,其特征在于,若预设突变类型为lof突变,则判断条件包括:
突变位点对应的数据中包含关键字段stop_gained、frameshift_variant、start_lost、splice_acceptor_variant和splice_donor_variant中的至少一个;或
突变位点对应的数据中不包含关键字段stop_gained、frameshift_variant、start_lost、splice_acceptor_variant和splice_donor_variant中的任何一个,并且突变位点对应的数据满足以下预设要求:至少一个SpliceAI_pred列的得分大于等于预设得分,SpliceAI_pred_SYMBOL列与SYMBOL列相同,LOF列的对应的字段不是LC。


4.根据权利要求2所述的数据处理方法,其特征在于,
若预设突变类型为missense_benign_1突变,则判断条件包括:突变位点对应的数据中包含关键字段inframe_deletion、inframe_insertion、missense_variant、stop_lost和start_lost中的至少一个,并且突变位点对应的数据满足以下预设要求:CADD小于预设值,所有SpliceAI_pred列的得分小于得分阈值;
若预设突变类型为missense_benign_2突变,则判断条件包括:突变位点对应的数据中同时包含关键字段tolerated和benign,并且突变位点对应的数据满足以下预设要求:所有SpliceAI_pred列的得分小于得分阈值;
若预设突变类型为missense_damage_1突变,则判断条件包括:突变位点对应的数据中包含关键字段inframe_deletion、inframe_insertion、missense_variant、stop_lost、start_lost和protein_altering_variant中的至少一个,并且突变位点对应的数据满足以下预设要求:CADD大于等于预设值,所有SpliceAI_pred列的得分小于得分阈值;
若预设突变类型为missense_damage_2突变,则判断条件包括:突变位点对应的数据中同时包含关键字段deleterious和probably_damaging,并且突变位点对应的数据满...

【专利技术属性】
技术研发人员:苏建忠袁健闻旭冉李凯陈福坤
申请(专利权)人:温州谱希医学检验实验室有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1