使用NGS数据预测基因型的方法及装置制造方法及图纸

技术编号:32617813 阅读:17 留言:0更新日期:2022-03-12 17:46
本发明专利技术涉及一种使用下一代测序(NGS)数据预测基因型的方法及装置。一实施例包括以下步骤:获取分析对象的NGS数据;应用基于NGS的预测技术来获取第一概率;应用基于SNP的预测技术来获取第二概率;以及基于第一概率及第二概率来预测分析对象的NGS数据中的基因型。率来预测分析对象的NGS数据中的基因型。率来预测分析对象的NGS数据中的基因型。

【技术实现步骤摘要】
【国外来华专利技术】使用NGS数据预测基因型的方法及装置


[0001]以下实施例涉及一种使用NGS数据预测基因型的方法。

技术介绍

[0002]存在于包括人类在内的生物体细胞染色体中的DNA是一种遗传物质,在生殖和繁殖过程中传递给后代。在人类的情况下,从父母双方继承的DNA形成成对的染色体。与表型表达有关的DNA碱基序列的一部分称为基因,而蛋白质由基因表达合成,形成生物体的结构和功能。由于基因的DNA碱基序列的差异,每个生物体都被确定为不同的基因型,因此,属于同一物种的个体的DNA碱基序列中存在互不相同的单个碱基。将由DNA碱基序列中的单个碱基差异引起的遗传多样性称为单核苷酸多态性(SNP,single nucleotide polymorphism)。
[0003]下一代测序(NGS,Next Generation Sequencing)技术是一种将生物体的DNA或RNA切成小块,使用机器读取其序列的技术。为了确定每个序列片段在基因组(genome)中的位置,执行映射(mapping)任务,并在找到所有序列片段的位置后,通过分析DNA是否被修饰或测量转录成RNA的DNA量等来执行各种分析。为了映射特定生物体的遗传物质序列片段,需要作为相应生物基因组标准的参考基因组(reference genome),并通过人类基因组计划(Human Genome Project)等项目建立人类参考基因组,以不断更新。
[0004]然而,在多态(polymorphic)基因的情况下,即,在可能具有各种基因型的基因(例如,HLA)的情况下,特定生物体的序列片段可能具有与参考非常不同的序列,因此难以通过从NGS数据映射到参考基因组来精确分型基因型。为了解决难以将具有高度多态性的基因的序列片段映射到参考基因组的问题,人们使用一种方法:将序列片段映射到存储有各种已知基因型及其序列信息的数据库的整个序列,而不是只映射到一个参考基因组。例如,在人类HLA基因的情况下,在称为IMGT/HLA的公共数据库中,存储有迄今已知的各种HLA基因型及其序列信息。然而,上述方法存在一个问题,即当NGS深度(depth)较低时,准确度明显降低,因此需要开发一种改进的技术,其即使在NGS深度较低的情况下也能够准确预测基因型。

技术实现思路

[0005]要解决的技术问题
[0006]实施例提供一种技术,其即使NGS数据的测序深度较低,也能够从NGS数据精确分析具有高度多态性的基因的基因型。
[0007]实施例公开一种准确预测HLA基因的基因型的技术,其可用于确定反向化疗、自身免疫疾病风险、器官移植适宜性及药物副作用等。
[0008]解决问题的技术方法
[0009]根据一侧的使用下一代测序(NGS)数据预测基因型的方法,包括以下步骤:获取分析对象的NGS(next generation sequencing)数据;将所述分析对象的NGS数据分别映射(mapping)到针对分析对象基因具有不同基因型的每个碱基序列;基于所述映射结果,获取
所述分析对象的NGS数据与针对所述分析对象基因的每个基因型对应的第一概率;从所述NGS数据中提取分析对象的SNP数据;获取参考数据,所述参考数据包括针对所述分析对象基因具有不同基因型的多个SNP数据;基于所述分析对象的SNP数据及所述参考数据,获取所述分析对象的SNP数据对应于所述多个基因型中的每一个的第二概率;以及基于所述第一概率及所述第二概率,预测所述分析对象的NGS数据的基因型。
[0010]获取所述第一概率的步骤,可以包括以下步骤:对于针对所述分析对象基因具有不同基因型的每个碱基序列,获取所述NGS数据中映射的碱基序列的长度;以及基于所述映射的碱基序列的长度,获取与针对所述分析对象基因的每个基因型对应的第一概率。
[0011]预测所述分析对象的NGS数据的基因型的步骤,可以包括以下步骤:通过计算每个基因型的第一概率及第二概率,获取所述分析对象的SNP数据对应于所述多个基因型中的每一个的最终概率;以及将所述最终概率中的与最高最终概率对应的基因型预测为所述分析对象的NGS数据的基因型。
[0012]提取所述分析对象的SNP数据的步骤,还可以包括以下步骤:从所述NGS数据中的基因间隔区(intergenic region)检测SNP。
[0013]获取所述参考数据的步骤,还可以包括以下步骤:对于针对所述分析对象基因已确定基因型的多个SNP数据中的每一个,将对应于所述SNP数据的基因型的标记插入到被包括在SNP数据中的多个预定区域中的每一个。
[0014]获取所述参考数据的步骤,还可以包括以下步骤:对于针对所述分析对象基因已确定基因型的多个SNP数据中的每一个,将对应于所述SNP数据的基因型的二元标记插入到被包括在SNP数据中的多个外显子(exon)中的每一个。
[0015]获取所述第二概率的步骤,可以包括以下步骤:通过将所述分析对象的SNP数据及所述参考数据输入到估计模型,按每个区域计算所述分析对象的SNP数据与所述多个SNP数据的基因型对应的概率;以及基于所述每个区域的概率,获取所述分析对象的SNP数据对应于所述多个基因型中的每一个的第二概率。
[0016]获取所述第二概率的步骤,可以包括以下步骤:计算与所述多个基因型对应的多个标记之间的遗传距离;以及基于所述分析对象的SNP数据、说说参考数据及所述遗传距离,获取所述分析对象的SNP数据对应于所述多个基因型中的每一个的第二概率。
[0017]获取所述第二概率的步骤,可以包括以下步骤:对所述分析对象的SNP数据及所述多个SNP数据进行采样;基于所述采样数据,计算与隐马尔可夫模型中的所述多个基因型对应的状态之间的转移概率;通过转换所述状态之间的转移概率,获取状态之间的遗传距离;以及基于所述遗传距离、所述参考数据及所述分析对象的SNP数据,获取所述分析对象的SNP数据对应于所述多个基因型中的每一个的第二概率。
[0018]所述分析对象的SNP数据,可以包括:分析对象用户的DNA碱基序列中的至少一部分;以及被包括在所述DNA碱基序列中的至少一部分的SNP信息的至少一部分。
[0019]被包括在所述参考数据中的每个SNP数据,可以包括:相应基因型的DNA碱基序列;被包括在所述DNA碱基序列中的SNP信息;以及插入到所述DNA碱基序列中多个预定区域的标记。
[0020]根据一侧的使用NGS数据预测基因型的装置,包括:存储器,其用于存储参考数据,所述参考数据包括针对分析对象基因已确定基因型的多个SNP数据;以及至少一个处理器,
其中,所述至少一个处理器获取分析对象的NGS(next generation sequencing)数据;并将所述分析对象的NGS数据分别映射(mapping)到针对所述分析对象基因具有不同基因型的每个碱基序列;并基于所述映射结果,获取所述分析对象的NGS数据与针对所述分析对象基因的每个基因型对应的第一概率;并从所述NGS数据中提取分析对象的SNP数据;并获本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种使用下一代测序(NGS)数据预测基因型的方法,其特征在于,包括以下步骤:获取分析对象的NGS数据;将所述分析对象的NGS数据分别映射到针对分析对象基因具有不同基因型的每个碱基序列;基于所述映射结果,获取所述分析对象的NGS数据与针对所述分析对象基因的每个基因型对应的第一概率;从所述NGS数据中提取分析对象的SNP数据;获取参考数据,所述参考数据包括针对所述分析对象基因具有不同基因型的多个SNP数据;基于所述分析对象的SNP数据及所述参考数据,获取所述分析对象的SNP数据对应于所述多个基因型中的每一个的第二概率;以及基于所述第一概率及所述第二概率,预测所述分析对象的NGS数据的基因型。2.根据权利要求1所述的使用NGS数据预测基因型的方法,其特征在于,获取所述第一概率的步骤,包括以下步骤:对于针对所述分析对象基因具有不同基因型的每个碱基序列,获取所述NGS数据中映射的碱基序列的长度;以及基于所述映射的碱基序列的长度,获取与针对所述分析对象基因的每个基因型对应的第一概率。3.根据权利要求1所述的使用NGS数据预测基因型的方法,其特征在于,预测所述分析对象的NGS数据的基因型的步骤,包括以下步骤:通过计算每个基因型的第一概率及第二概率,获取所述分析对象的SNP数据对应于所述多个基因型中的每一个的最终概率;以及将所述最终概率中的与最高最终概率对应的基因型预测为所述分析对象的NGS数据的基因型。4.根据权利要求1所述的使用NGS数据预测基因型的方法,其特征在于,提取所述分析对象的SNP数据的步骤,还包括以下步骤:从所述NGS数据中的基因间隔区检测SNP。5.根据权利要求1所述的使用NGS数据预测基因型的方法,其特征在于,获取所述参考数据的步骤,还包括以下步骤:对于针对所述分析对象基因已确定基因型的多个SNP数据中的每一个,将对应于所述SNP数据的基因型的标记插入到被包括在SNP数据中的多个预定区域中的每一个。6.根据权利要求1所述的使用NGS数据预测基因型的方法,其特征在于,获取所述参考数据的步骤,还包括以下步骤:对于针对所述分析对象基因已确定基因型的多个SNP数据中的每一个,将对应于所述SNP数据的基因型的二元标记插入到被包括在SNP数据中的多个外显子中的每一个。7.根据权利要求1所述的使用NGS数据预测基因型的方法,其特征在于,获取所述第二概率的步骤,包括以下步骤:通过将所述分析对象的SNP数据及所述参考数据输入到估计模型,按每个区域计算所
述分析对象的SNP数据与所述多个SNP数据的基因型对应的概率;以及基于所述每个区域的概率,获取所述分析对象的SNP数据对应于所述多个基因型中的每一个的第二概率。8.根据权利要求1所述的使用NGS数据预测基因型的方法,其特征在于,获取所述第二概率的步骤,包括以下步骤:计算与所述多个基因型对应的多个标记之间的遗传距离;以及基于所述分析对象的SNP数据、说说参考数据及所述遗传距离,获取所述分析对象的SNP数据对应于所述多个基因型中的每一个的第二概率。9.根据权利要求1所述的使用NGS数据预测基因型的方法,其特征在于,获取所述第二概率的步骤,包括以下步骤:对所述分析对象的SNP数据及所述多个SNP数据进行采样;基于所述采样数据,计算与隐马尔可夫模型中的所述多个基因型对应的状态之间的转移概率;通过转换所述状态之间的转移概率,获取状态之间的遗传距离;以及基于所述遗传距离、所述参考数据及所述分析对象的SNP数据,获取所述分析对象的SNP数据对应于所述多个基因型中的每一个的第二概率。10.根据权利要求1所述的使用NGS数据预测基因型的方法,其特征在于,所述分析对象的SNP数据,包括:分析对象用户的DNA碱基序列中的至少一部分;以及被包括在所述DNA碱基序列中的至少一部分的SNP...

【专利技术属性】
技术研发人员:韩凡
申请(专利权)人:首尔大学校产学协力团
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1