二代测序数据的处理方法、装置及电子设备制造方法及图纸

技术编号:21955334 阅读:47 留言:0更新日期:2019-08-24 19:10
本申请公开了一种二代测序数据的处理方法、装置及电子设备。其中的方法包括:获取待筛选的二代测序数据;所述待筛选的二代测序数据包括待筛选的变异位点及对应的第一注释;所述第一注释包括测序信息;获取参考数据库;所述参考数据库至少包括:第一类数据库、第二类数据库、第三类数据库、第四类数据库、第五类数据库、第六类数据库;根据所述参考数据库,对所述待筛选的二代测序数据进行注释添加处理,按照预设策略对经过注释添加处理后的所述待筛选的二代测序数据进行变异位点筛选处理,输出筛选的变异位点及经注释添加后的所述第一注释。

Processing Method, Device and Electronic Equipment of Second Generation Sequencing Data

【技术实现步骤摘要】
二代测序数据的处理方法、装置及电子设备
本申请涉及生物信息
,尤其涉及一种二代测序数据的处理方法、装置及电子设备。
技术介绍
脱氧核糖核酸(deoxyribonucleicacid,DNA),是生物染色体的主要组成成分,同时也是生物的主要遗传物质。DNA分子巨大,是由核苷酸组成的序列。DNA测序技术,即测定DNA序列的技术,对生物医疗都具有重大意义。尤其在医疗中,通过分析DNA序列,可以协助临床诊断。Sanger测序技术是第一代DNA测序技术,随着科技的发展,第二代DNA测序技术(简称二代测序技术)也逐渐成熟,相比Sanger测序技术,二代测序技术具有通量高、精度高、成本低的优点。由于高通量,二代测序技术会产生大量的测序数据,因此,二代测序技术也带来了处理和分析大规模数据的挑战。目前,在消除实验误差、序列片段拼装和定位变异位点等方面对二代测序数据进行处理的方法和流程已经较为完善。经过相关技术处理之后的二代测序数据,可以定位变异位点,但是仍然无法直接应用于临床诊断,主要是因为:第一,变异位点数据量大。以一份平均测序深度120倍的全外显子检测数据为例,经标准流程处理后,即从二代测序本文档来自技高网...

【技术保护点】
1.一种二代测序数据的处理方法,其特征在于,包括:获取待筛选的二代测序数据;所述待筛选的二代测序数据包括待筛选的变异位点及对应的第一注释;所述第一注释包括测序信息;获取参考数据库;所述参考数据库至少包括:第一类数据库、第二类数据库、第三类数据库、第四类数据库、第五类数据库、第六类数据库;所述第一类数据库包括变异位点及对应的第二注释,所述第二注释包括已报道不致病或者已报道可能致病或者已报道明确致病;所述第二类数据库包括基因位置的注释,所述基因位置的注释包括外显子的捕获区域在基因组上的定位;所述第三类数据库包括已报道与疾病相关的基因;第四类数据库包括基因组上的变异位点以及对应的第三注释,所述第三注...

【技术特征摘要】
1.一种二代测序数据的处理方法,其特征在于,包括:获取待筛选的二代测序数据;所述待筛选的二代测序数据包括待筛选的变异位点及对应的第一注释;所述第一注释包括测序信息;获取参考数据库;所述参考数据库至少包括:第一类数据库、第二类数据库、第三类数据库、第四类数据库、第五类数据库、第六类数据库;所述第一类数据库包括变异位点及对应的第二注释,所述第二注释包括已报道不致病或者已报道可能致病或者已报道明确致病;所述第二类数据库包括基因位置的注释,所述基因位置的注释包括外显子的捕获区域在基因组上的定位;所述第三类数据库包括已报道与疾病相关的基因;第四类数据库包括基因组上的变异位点以及对应的第三注释,所述第三注释包括基因组上的变异位点在公共人群中出现的频率及核型;所述第五类数据库包括变异位点以及对应的第四注释,所述第四注释包括变异位点在目标地区人群中出现的频率及目标地区的临床报告;所述第六类数据库包括变异位点及对应的第五注释,所述第五注释包括变异位点所属基因已知相关的疾病、疾病的遗传模式、基因功能;根据所述参考数据库,对所述待筛选的二代测序数据进行注释添加处理,按照预设策略对经过注释添加处理后的所述待筛选的二代测序数据进行变异位点筛选处理,输出筛选的变异位点及经注释添加后的所述第一注释。2.根据权利要求1所述的方法,其特征在于,所述注释添加处理,至少包括:对所述待筛选的二代测序数据中存在于所述第一类数据库中的变异位点的所述第一注释添加所述第二注释;根据所述第二类数据库、所述第三类数据库和所述第四类数据库,对所述待筛选的二代测序数据中、满足第一添加条件的所述待筛选的变异位点的所述第一注释添加注释:若所述待筛选的变异位点位于以所述外显子的捕获区域为基准外扩的区域内,添加第一标记注释,若存在于所述第四类数据库中,添加所述第三注释,若位于已报道与疾病相关的基因,添加变异位点所属已报道与疾病相关的基因;所述第一添加条件包括已报道明确致病的变异位点以外的变异位点;所述第一标记注释包括位于所述外扩的区域内;对所述待筛选的二代测序数据中满足第二添加条件、且存在于所述第五类数据库中的所述待筛选的变异位点的所述第一注释添加所述第四注释;所述第二添加条件包括:所述待筛选的变异位点位于所述外扩的区域内且不存在于所述第四类数据库中,或者,位于所述外扩的区域内、存在于所述第四类数据库中且核型未见纯合变异,或者,位于所述外扩的区域内、存在于所述第四类数据库中、核型包括纯合变异、位于已报道与疾病相关的基因上且在公共人群中出现的频率小于第一预设频率;通过预设算法对所述待筛选的二代测序数据中满足所述第二添加条件、且满足第三添加条件的所述待筛选的变异位点进行基因定位和危害等级预测,并添加第二标记注释;所述第二标记注释包括预测的危害等级,所述第三添加条件包括所述待筛选的变异位点不位于所述第五类数据库,或者,位于所述第五类数据库且在目标地区人群中出现的频率小于第二预设频率;将所述待筛选的二代测序数据中满足所述第二添加条件、所述第三添加条件、且满足第四添加条件的所述待筛选的变异位点添加所述第五注释;所述第四添加条件包括所述待筛选的变异位点位于已报道与疾病相关的基因,或者预测的危害等级为最高等级,或者预测的危害等级低于最高等级且为非同义变异。3.根据权利要求2所述的方法,其特征在于,所述按照预设策略对经过注释添加处理后的所述待筛选的二代测序数据进行变异位点筛选处理,包括:将满足第一筛选条件的所述待筛选的变异位点添加到第一变异位点筛选集合中;所述第一筛选条件包括所述第一注释中添加有所述第二注释且所述第二注释包括已报道明确致病;将满足第二筛选条件的所述待筛选的变异位点添加到第二变异位点筛选集合中;所述第二筛选条件包括所述第一注释中添加有变异位点所属已报道与疾病相关的基因、且未添加所述第三注释和所述第四注释;将满足第三筛选条件的所述待筛选的变异位点添加到所述第二变异位点筛选集合中;所述第三筛选条件包括所述第一注释中添加有所述第一标记注释,添加有所述第三注释且未见纯合变异、在公共人群中出现的频率小于所述第一预设频率,添加有所述第四注释且在目标地区人群中出现的频率小于第二预设频率,添加有变异位点所属已报道与疾病相关的基因;将满足第四筛选条件的所述待筛选的变异位点添加到所述第二变异位点筛选集合中;所述第四筛选条件包括所述第一注释中添加有所述第一标记注释,添加有所述第三注释且未见纯合变异、在公共人群中出现的频率小于所述第一预设频率,添加有所述第四注释且在目标地区人群中出现的频率小于第二预设频率,添加有所述第二标记注释且所述第二标记注释包括最高等级;将满足第五筛选条件的所述待筛选的变异位点添加到所述第二变异位点筛选集合中;所述第五筛选条件包括所述第一注释中添加有所述第一标记注释,添加有所述第三注释且未见纯合变异、在公共人群中出现的频率小于所述第一预设频率,添加有所述第四注释且在目标地区人群中出现的频率小于第二预设频率,所述待筛选的变异位点为非同义变异;将满足第六筛选条件的所述待筛选的变异位点添加到所述第二变异位点筛选集合中;所述第六筛选条件包括所述第一注释中添加有所述第一标记注释,添加有所述第三注释且未见纯合变异、在公...

【专利技术属性】
技术研发人员:卢宇蓝黎籽秀
申请(专利权)人:复旦大学附属儿科医院
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1