System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种线粒体疾病预测方法及线粒体疾病预测系统技术方案_技高网

一种线粒体疾病预测方法及线粒体疾病预测系统技术方案

技术编号:41202811 阅读:3 留言:0更新日期:2024-05-07 22:28
本发明专利技术涉及遗传变异检测技术领域,提供了一种线粒体疾病预测方法及线粒体疾病预测系统。其中,线粒体疾病预测方法,包括:获取待检测的第一测序数据;对第一测序数据进行突变检测,得到第一测序数据中的变异位点;根据预构建的线粒体疾病整合数据库,对变异位点进行注释,得到变异位点的基因功能信息,线粒体疾病整合数据库是通过对多个线粒体疾病数据库进行位点校正得到的;根据变异位点及其基因功能信息,利用预构建的疾病预测模型,得到第一测序数据对应的致病性预测结果。通过本发明专利技术,提高线粒体疾病预测的效率和准确性。

【技术实现步骤摘要】

本专利技术涉及遗传变异检测,尤其涉及一种线粒体疾病预测方法及线粒体疾病预测系统


技术介绍

1、线粒体是细胞中除细胞核以外唯一具有脱氧核糖核酸(deoxyribonucleic acid,dna)遗传物质的半自主性细胞器,会参与氧化磷酸化复合体的组装以及其他的代谢通路中区。线粒体dna(mitochondrial dna,mtdna)是一种小型的环状基因组,长16,569bp,包含保守的编码区和控制区两部分。其中,编码区包含着22个编码转移核糖核酸(trna)的基因、2个编码核糖体核糖核酸(12s和16s rrna)的基因与13个编码多肽的基因,共37个基因;而控制区部分具有变异率较高的特点,每个细胞含数百个到数万个线粒体拷贝,每个线粒体中都含有2~10个环状mtdna,位于内膜附近或基质中。线粒体dna具有母系遗传,拷贝多,阈值效应、高异质性且变异率高的特点。线粒体疾病是由于线粒体dna和(或)核dna(nucleardna,ndna)变异导致线粒体结构或功能障碍,引起的较常见的遗传代谢性疾病,线粒体为体内许多器官提供能量,因此线粒体疾病常引起能量代谢紊乱和多系统受损,比如会单独或者同时累及神经、眼、肌肉、耳朵、消化、内分泌、心脏等器官,表现为任何症状,可以以任何遗传方式遗传。

2、线粒体疾病具有临床表现多样化和基因异质性强的特点,不同的突变类型和位置会导致不同的临床表型和疾病严重程度。传统的线粒体疾病检测方法主要包括聚合酶链式反应(polymerase chain reaction,pcr)、sanger测序和线粒体dna芯片分析等,这些方法存在着操作复杂、检测范围有限、耗时长以及检测精确度低等问题。为了解决这些问题,近年来出现了一些新的线粒体疾病检测方法,如高通量测序、基因芯片和生物信息学分析等技术的应用。

3、高通量测序技术可以同时对多个基因位点或整个基因组进行测序,通过大规模的测序数据获取更全面的突变信息。目前,对于高通量测序技术得到的测序数据,通过人工查找已公布的线粒体疾病数据库的方式,进行线粒体疾病的注释和预测。但是现有的线粒体数据库往往存在不同的数据格式和标准,通过人工查找数据库的方式耗时较长,线粒体变异注释、预测过程效率过低,准确性较差。


技术实现思路

1、为提高线粒体疾病预测的效率和准确性,本专利技术提出了一种线粒体疾病预测方法及线粒体疾病预测系统。

2、第一方面,本专利技术提供了一种线粒体疾病预测方法,方法包括:

3、获取待检测的第一测序数据;

4、对第一测序数据进行突变检测,得到第一测序数据中的变异位点;

5、根据预构建的线粒体疾病整合数据库,对变异位点进行注释,得到变异位点的基因功能信息,线粒体疾病整合数据库是通过对多个线粒体疾病数据库进行位点校正得到的;

6、根据变异位点及其基因功能信息,利用预构建的疾病预测模型,得到第一测序数据对应的致病性预测结果。

7、通过上述方法,利用线粒体疾病整合数据库对变异位点进行注释,得到变异位点的基因功能信息,其中,线粒体疾病整合数据库是通过对多个线粒体疾病数据库进行位点校正后得到的,克服了相关技术中已有的线粒体疾病数据库的标准不统一的问题,同时,根据得到的变异位点及其基因功能信息,利用疾病预测模型,对第一测序数据进行致病性预测,相较于人工查找预测的方式,本专利技术实施例提供的预测方法的效率和准确性均得到了提升。

8、在一种可选的实施方式中,获取待检测的第一测序数据,包括:

9、获取第二测序数据;

10、对第二测序数据进行数据清洗处理,得到第三测序数据;

11、将第三测序数据与核参考基因组进行比对,得到与核参考基因组比对成功的测序序列;

12、在第三测序数据中,删除比对成功的测序序列及测序序列对应的配对序列,得到第一测序数据。

13、考虑到高通量测序数据中不可避免存在的线粒体起源的核序列(nuclear-mitochondrial segments,numt),使得线粒体变异的准确检测变得复杂。由于具有同源区域的测序序列的真正来源难以确定,numt和mtdna会发生交叉映射,从而导致检测到假阳性mtdna变异(由于numt序列与基因chrm比对而被误认为mtdna变异)或假阴性mtdna变异(由于mtdna序列与numt位点比对而未检测到mtdna变异)。通过上述实施方式,将第三测序数据与核参考基因组进行比对,得到与核参考基因组比对成功的测序序列,删除该比对成功的测序序列及配对序列,使得到的第一测序数据中不存在核序列数据,进而根据第一测序数据得到的致病性预测结果更加准确,避免核序列数据对致病性预测的影响。

14、在一种可选的实施方式中,致病性预测结果包括变异位点与疾病之间的相关性,疾病包括表型疾病和潜在表型疾病,疾病预测模型包括随机森林模型和线性回归模型,根据变异位点及其基因功能信息,利用预构建的疾病预测模型,得到第一测序数据对应的致病性预测结果,包括:

15、获取第一测序数据中变异位点的异质性水平信息;

16、将变异位点及其基因功能信息输入至随机森林模型中,得到变异位点与表型疾病之间的相关性;

17、将变异位点及其异质性水平信息输入至线性回归模型中,得到变异位点与潜在表型疾病之间的相关性。

18、考虑到mtdna的异质性现象显著存在于同一个体的细胞、组织,甚至是不同个体当中。大多数的致病性mtdna变异本质上往往是异质性的。其中,临床疾病症状的存在和严重程度与受影响组织中的致病性变异异质性水平直接相关。与特定致病性变异相关的表型疾病有可能仅在该变异在给定组织中达到特定水平(或阈值)时出现。因此,通过上述实施方式,基于变异位点及其基因功能信息,利用随机森林模型,得到变异位点与表型疾病之间的相关性,利用第一测序数据中的变异位点及其异质性水平信息,得到变异位点与潜在表型疾病之间的相关性,在本专利技术实施方式中,不仅预测得到了表型疾病,还对潜在表型疾病进行预测,提高致病性疾病的预测准确性,同时提示未发线粒体疾病的外显风险,对于辅助诊断疾病具有重要意义。

19、在一种可选的实施方式中,构建线粒体疾病整合数据库的步骤,包括:

20、获取多个线粒体疾病数据库中的第一变异位点数据;

21、对各第一变异位点数据进行位点校正,得到各第一变异位点数据对应的预设格式的第二变异位点数据;

22、根据各第二变异位点数据,构建线粒体疾病整合数据库。

23、通过上述实施方式,将相关技术中的多个线粒体疾病数据库进行位点校正,得到预设格式的线粒体疾病整合数据库,克服了相关技术中各个线粒体疾病数据库的格式不统一的问题,以便后续根据线粒体疾病整合数据库进行致病性疾病预测提供基础,提高对线粒体变异的注释效率、预测效率。

24、在一种可选的实施方式中,对第一变异位点数据进行位点校正,得到第一变异位点数据对应的预设格式本文档来自技高网...

【技术保护点】

1.一种线粒体疾病预测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,获取待检测的第一测序数据,包括:

3.根据权利要求1所述的方法,其特征在于,所述致病性预测结果包括所述变异位点与疾病之间的相关性,所述疾病包括表型疾病和潜在表型疾病,所述疾病预测模型包括随机森林模型和线性回归模型,根据所述变异位点及所述基因功能信息,利用预构建的疾病预测模型,得到所述第一测序数据对应的致病性预测结果,包括:

4.根据权利要求1所述的方法,其特征在于,构建所述线粒体疾病整合数据库的步骤,包括:

5.根据权利要求4所述的方法,其特征在于,对所述第一变异位点数据进行位点校正,得到所述第一变异位点数据对应的预设格式的第二变异位点数据,包括:

6.根据权利要求5所述的方法,其特征在于,所述预设格式的第二变异位点数据包括原始碱基序列和突变后碱基序列,所述突变类型包括长片段插入缺失,根据所述突变类型,对所述第一变异位点数据进行位点校正,得到所述第一变异位点数据对应的第二变异位点数据,包括:

7.根据权利要求5所述的方法,其特征在于,所述预设格式的第二变异位点数据包括原始碱基序列和突变后碱基序列,所述突变类型包括单碱基突变,根据所述突变类型,对所述第一变异位点数据进行位点校正,得到所述第一变异位点数据对应的第二变异位点数据,包括:

8.根据权利要求4所述的方法,其特征在于,对所述第一变异位点数据进行位点校正,得到所述第一变异位点数据对应的预设格式的第二变异位点数据步骤之前还包括:

9.一种线粒体疾病预测系统,其特征在于,所述系统包括:

10.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-8中任一项所述的线粒体疾病预测方法的步骤。

...

【技术特征摘要】

1.一种线粒体疾病预测方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,获取待检测的第一测序数据,包括:

3.根据权利要求1所述的方法,其特征在于,所述致病性预测结果包括所述变异位点与疾病之间的相关性,所述疾病包括表型疾病和潜在表型疾病,所述疾病预测模型包括随机森林模型和线性回归模型,根据所述变异位点及所述基因功能信息,利用预构建的疾病预测模型,得到所述第一测序数据对应的致病性预测结果,包括:

4.根据权利要求1所述的方法,其特征在于,构建所述线粒体疾病整合数据库的步骤,包括:

5.根据权利要求4所述的方法,其特征在于,对所述第一变异位点数据进行位点校正,得到所述第一变异位点数据对应的预设格式的第二变异位点数据,包括:

6.根据权利要求5所述的方法,其特征在于,所述预设格式的第二变异位点数据包括原始碱基序列和突变后碱基序列,所述突变类型包括长片段...

【专利技术属性】
技术研发人员:罗仲韬万锈琳胡惠林郑焱谢龙旭
申请(专利权)人:广州凯普医学检验所有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1