检测线粒体起源核基因组序列的方法、装置和存储介质制造方法及图纸

技术编号:38647763 阅读:14 留言:0更新日期:2023-09-02 22:38
本申请公开了一种检测线粒体起源核基因组序列的方法、装置和存储介质。本申请方法包括,将全基因组测序数据比对到线粒体参考基因组rCRS,保留比对到rCRS的读段,将其比对到包含23对染色体和rCRS的参考序列,去除非唯一比对读段;提取潜在连接读段,根据其比对位置,对距离50bp内的连接读段聚类,定位发生整合线粒体DNA片段的坐标和方向,及核基因组整合位置;在读簇上下游100bp寻找不一致比对读对,统计其数目,作为non

【技术实现步骤摘要】
检测线粒体起源核基因组序列的方法、装置和存储介质


[0001]本申请涉及核基因组序列检测
,特别是涉及一种检测线粒体起源核基因组序列的方法、装置和存储介质。

技术介绍

[0002]人类细胞的遗传物质存在于细胞核和线粒体中。细胞核DNA(nDNA)约由31亿个碱基对组成,包括22对常染色体和2条性染色体。线粒体DNA(mitochondrial DNA,mtDNA)是长度为16 569bp的双链环状分子。mtDNA片段整合到nDNA是内共生事件的必然结果,这些整合到nDNA的mtDNA片段被称为线粒体起源核基因组序列(nuclear fragments of mitochondrial origin,NUMTs)。大多数NUMTs是古老、中性的,是细胞长期进化的产物,且在人类参考基因组中已有记载。在人类参考基因组中已有记载的NUMTs,即参考基因组线粒体起源核基因组序列(ref

NUMTs),而那些新近发生的非参考基因组中的NUMTs,称为非参考基因组线粒体起源核基因组序列(non

ref NUMTs),尤其是体细胞中的non

ref NUMTs,可影响核基因组的稳定性和相关基因的表达,已被报道与多种人类疾病的发生发展相关。此外,non

ref NUMTs发生后,其在nDNA中也会累积新的突变,而这些突变往往被误认为是mtDNA的突变,极大影响了mtDNA突变检测及后续疾病相关性的探究。因此,检测NUMTs,尤其是non
‑<br/>ref NUMTs,及其累积的突变对理解人类疾病的发生发展至关重要。
[0003]当前利用FISH(fluorescence in situ hybridization)技术,在nDNA和mtDNA之间进行序列杂交可有效检测non

ref NUMTs。基于此,Koo D

H等人开发了“mtFIBER FISH”专门用于检测non

ref NUMTs,但其分辨率有限,仅能检测插入片段长度&gt;1kb的non

ref NUMTs;而大部分non

ref NUMTs的片段长度&lt;1kb,无法通过mtFIBER FISH检出。与此同时,mtFIBER FISH也无法检测non

ref NUMTs上累积的突变。
[0004]全基因组测序(whole genome sequencing,WGS)是迄今为止能以单碱基分辨率检测non

ref NUMTs及其累积突变的技术。随着测序技术的发展,WGS的成本呈指数型下降,国内外许多研究已积累了海量WGS数据,可助力non

ref NUMTs的研究。然而,常规30

50
×
的WGS数据中,mtDNA的覆盖深度可达几万层,具有极高的冗余性和异质性,检测non

ref NUMTs具有很大的挑战性,目前可用的工具非常有限。最近发表的一个工具NUMT

detection可利用WGS检测non

ref NUMTs;但因其检测原理主要是利用不一致配对读对的比对信息,因此具有较高的假阳性、推测的断点精确度有限,且不能检测non

ref NUMTs上累积的突变。
[0005]综上,在线粒体起源核基因组序列检测
,如何准确、有效的检测non

ref NUMTs,仍然是本领域的研究重点和难点;并且,目前尚无能同时检测non

ref NUMTs及其累积突变的工具和方法。

技术实现思路

[0006]本申请的目的是提供一种新的检测检测线粒体起源核基因组序列的方法、装置和
存储介质。
[0007]为了实现上述目的,本申请采用了以下技术方案:
[0008]本申请的第一方面公开了一种检测线粒体起源核基因组序列的方法,其包括以下步骤:
[0009]测序数据预处理步骤,包括1)将全基因组测序数据比对到线粒体参考基因组中,仅保留能够比对到线粒体参考基因组的读段;2)将比对到线粒体参考基因组的读段比对到包含人23对染色体和线粒体参考基因组的参考序列中,去除非唯一比对的读段,得到不含ref

NUMTs的读段集;
[0010]线粒体起源核基因组序列检测步骤,包括1)从不含ref

NUMTs的读段集中,提取一部分序列比对到核基因组参考序列,其余部分比对到线粒体参考基因组的读段,作为潜在连接读段;2)根据潜在连接读段的比对位置,对距离50bp以内的潜在连接读段进行聚类,作为读簇,定位发生整合的mtDNA片段的坐标和方向,以及核基因组整合的位置,将发生整合的mtDNA片段作为non

ref NUMTs;3)在读簇的位置上下游100bp寻找不一致比对读对,即其中一个读段比对到线粒体参考基因组,另一个配对读段比对到核基因组参考序列,统计不一致比对读对的数目,这些不一致比对读对即non

ref NUMTs的支持信息;4)计算non

ref NUMTs为纯合还是杂合,即支持读段数目与核基因组平均覆盖深度的比值,其中,支持读段数目为潜在连接读段的数目和不一致比对读对的数目之和,核基因组平均覆盖深度为比对到核基因组参考序列的读段数目乘以读段长度再除以核基因组参考序列的长度。
[0011]本申请中,非唯一比对的读段是指该读段既能够比对到线粒体参考基因组,又能够比对到人23对染色体的参考序列中,这样的读段可以认为是潜在的ref

NUMTs序列,将其去除后,即获得不含ref

NUMTs的读段集;可以理解,本申请的线粒体起源核基因组序列检测主要是指对non

ref NUMTs的检测,因此需要去除已经被明确记载于人类参考基因组中的ref

NUMTs。
[0012]本申请的线粒体起源核基因组序列检测步骤中,先根据1)和2)确定non

ref NUMTs的存在以及位置;在3)条,不一致比对读对,位于“读簇位置上下游100bp”,“一个读段比对到mtDNA,配对读段比对到nDNA”,这两个信息即能判断这些不一致读对是non

ref NUMTs存在的结果。
[0013]本申请的线粒体起源核基因组序列检测步骤中,第4)条,在non

ref NUMTs插入的核基因组位置,若该non

ref NUMTs为杂合,则一条染色体是正常的序列,一条插入了mtDNA片段,那么覆盖到该位置的读段大致有一半是由1)和3)确定的支持读段,一半是比对正常的读段,即支持读段数目与核基因组平均覆盖深度的比值约本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种检测线粒体起源核基因组序列的方法,其特征在于:包括以下步骤,测序数据预处理步骤,包括1)将全基因组测序数据比对到线粒体参考基因组中,仅保留能够比对到线粒体参考基因组的读段;2)将比对到线粒体参考基因组的读段比对到包含人23对染色体和线粒体参考基因组的参考序列中,去除非唯一比对的读段,得到不含ref

NUMTs的读段集;线粒体起源核基因组序列检测步骤,包括1)从不含ref

NUMTs的读段集中,提取一部分序列比对到核基因组参考序列,其余部分比对到线粒体参考基因组的读段,作为潜在连接读段;2)根据潜在连接读段的比对位置,对距离50bp以内的潜在连接读段进行聚类,作为读簇,定位发生整合的mtDNA片段的坐标和方向,以及核基因组整合的位置,将发生整合的mtDNA片段作为non

ref NUMTs;3)在读簇的位置上下游100bp寻找不一致比对读对,即其中一个读段比对到线粒体参考基因组,另一个配对读段比对到核基因组参考序列,统计不一致比对读对的数目,这些不一致比对读对为non

ref NUMTs存在的支持信息;4)计算non

ref NUMTs为纯合还是杂合,即支持读段数目与核基因组平均覆盖深度的比值,其中,支持读段数目为潜在连接读段的数目和不一致比对读对的数目之和,核基因组平均覆盖深度为比对到核基因组参考序列的读段数目乘以读段长度再除以核基因组参考序列的长度。2.根据权利要求1所述的方法,其特征在于:还包括线粒体起源核基因组序列验证步骤;所述线粒体起源核基因组序列验证步骤,包括1)组装支持non

ref NUMTs存在的读段或读对中比对到线粒体参考基因组部分的序列,生成一致性序列;2)将生成的一致性序列比对到线粒体参考基因组中,根据其比对位置验证non

ref NUMTs。3.根据权利要求2所述的方法,其特征在于:还包括线粒体起源核基因组序列累积突变检测步骤;所述线粒体起源核基因组序列累积突变检测步骤,包括根据所述一致性序列比对到线粒体参考基因组的结果,识别错配碱基,即non

ref NUMTs累积的突变。4.根据权利要求1

3任一项所述的方法,其特征在于:还包括注释步骤;所述注释步骤,包括注释核基因组参考序列断点位置和non

ref NUMTs所在的区域和基因。5.一种检测线粒体起源核基因组序列的装置,其特征在于:包括测序数据预处理模块和线粒体起源核基因组序列检测模块;测序数据预处理模块,包括用于1)将全基因组测序数据比对到线粒体参考基因组中,仅保留能够比对到线粒体参考基因组的读段;2)将比对到线粒体参考基因组的读段比对...

【专利技术属性】
技术研发人员:崔永萍庄雪寒周勇张维敏
申请(专利权)人:深圳北京大学香港科技大学医学中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1