【技术实现步骤摘要】
检测线粒体起源核基因组序列的方法、装置和存储介质
[0001]本申请涉及核基因组序列检测
,特别是涉及一种检测线粒体起源核基因组序列的方法、装置和存储介质。
技术介绍
[0002]人类细胞的遗传物质存在于细胞核和线粒体中。细胞核DNA(nDNA)约由31亿个碱基对组成,包括22对常染色体和2条性染色体。线粒体DNA(mitochondrial DNA,mtDNA)是长度为16 569bp的双链环状分子。mtDNA片段整合到nDNA是内共生事件的必然结果,这些整合到nDNA的mtDNA片段被称为线粒体起源核基因组序列(nuclear fragments of mitochondrial origin,NUMTs)。大多数NUMTs是古老、中性的,是细胞长期进化的产物,且在人类参考基因组中已有记载。在人类参考基因组中已有记载的NUMTs,即参考基因组线粒体起源核基因组序列(ref
‑
NUMTs),而那些新近发生的非参考基因组中的NUMTs,称为非参考基因组线粒体起源核基因组序列(non
‑
ref NUMTs),尤其是体细胞中的non
‑
ref NUMTs,可影响核基因组的稳定性和相关基因的表达,已被报道与多种人类疾病的发生发展相关。此外,non
‑
ref NUMTs发生后,其在nDNA中也会累积新的突变,而这些突变往往被误认为是mtDNA的突变,极大影响了mtDNA突变检测及后续疾病相关性的探究。因此,检测NUMTs,尤其是non
‑< ...
【技术保护点】
【技术特征摘要】
1.一种检测线粒体起源核基因组序列的方法,其特征在于:包括以下步骤,测序数据预处理步骤,包括1)将全基因组测序数据比对到线粒体参考基因组中,仅保留能够比对到线粒体参考基因组的读段;2)将比对到线粒体参考基因组的读段比对到包含人23对染色体和线粒体参考基因组的参考序列中,去除非唯一比对的读段,得到不含ref
‑
NUMTs的读段集;线粒体起源核基因组序列检测步骤,包括1)从不含ref
‑
NUMTs的读段集中,提取一部分序列比对到核基因组参考序列,其余部分比对到线粒体参考基因组的读段,作为潜在连接读段;2)根据潜在连接读段的比对位置,对距离50bp以内的潜在连接读段进行聚类,作为读簇,定位发生整合的mtDNA片段的坐标和方向,以及核基因组整合的位置,将发生整合的mtDNA片段作为non
‑
ref NUMTs;3)在读簇的位置上下游100bp寻找不一致比对读对,即其中一个读段比对到线粒体参考基因组,另一个配对读段比对到核基因组参考序列,统计不一致比对读对的数目,这些不一致比对读对为non
‑
ref NUMTs存在的支持信息;4)计算non
‑
ref NUMTs为纯合还是杂合,即支持读段数目与核基因组平均覆盖深度的比值,其中,支持读段数目为潜在连接读段的数目和不一致比对读对的数目之和,核基因组平均覆盖深度为比对到核基因组参考序列的读段数目乘以读段长度再除以核基因组参考序列的长度。2.根据权利要求1所述的方法,其特征在于:还包括线粒体起源核基因组序列验证步骤;所述线粒体起源核基因组序列验证步骤,包括1)组装支持non
‑
ref NUMTs存在的读段或读对中比对到线粒体参考基因组部分的序列,生成一致性序列;2)将生成的一致性序列比对到线粒体参考基因组中,根据其比对位置验证non
‑
ref NUMTs。3.根据权利要求2所述的方法,其特征在于:还包括线粒体起源核基因组序列累积突变检测步骤;所述线粒体起源核基因组序列累积突变检测步骤,包括根据所述一致性序列比对到线粒体参考基因组的结果,识别错配碱基,即non
‑
ref NUMTs累积的突变。4.根据权利要求1
‑
3任一项所述的方法,其特征在于:还包括注释步骤;所述注释步骤,包括注释核基因组参考序列断点位置和non
‑
ref NUMTs所在的区域和基因。5.一种检测线粒体起源核基因组序列的装置,其特征在于:包括测序数据预处理模块和线粒体起源核基因组序列检测模块;测序数据预处理模块,包括用于1)将全基因组测序数据比对到线粒体参考基因组中,仅保留能够比对到线粒体参考基因组的读段;2)将比对到线粒体参考基因组的读段比对...
【专利技术属性】
技术研发人员:崔永萍,庄雪寒,周勇,张维敏,
申请(专利权)人:深圳北京大学香港科技大学医学中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。