【技术实现步骤摘要】
【国外来华专利技术】使用NGS数据预测基因型的方法及装置
[0001]以下实施例涉及一种使用NGS数据预测基因型的方法。
技术介绍
[0002]存在于包括人类在内的生物体细胞染色体中的DNA是一种遗传物质,在生殖和繁殖过程中传递给后代。在人类的情况下,从父母双方继承的DNA形成成对的染色体。与表型表达有关的DNA碱基序列的一部分称为基因,而蛋白质由基因表达合成,形成生物体的结构和功能。由于基因的DNA碱基序列的差异,每个生物体都被确定为不同的基因型,因此,属于同一物种的个体的DNA碱基序列中存在互不相同的单个碱基。将由DNA碱基序列中的单个碱基差异引起的遗传多样性称为单核苷酸多态性(SNP,single nucleotide polymorphism)。
[0003]下一代测序(NGS,Next Generation Sequencing)技术是一种将生物体的DNA或RNA切成小块,使用机器读取其序列的技术。为了确定每个序列片段在基因组(genome)中的位置,执行映射(mapping)任务,并在找到所有序列片段的位置后,通过分析DNA是否被修饰或测量转录成RNA的DNA量等来执行各种分析。为了映射特定生物体的遗传物质序列片段,需要作为相应生物基因组标准的参考基因组(reference genome),并通过人类基因组计划(Human Genome Project)等项目建立人类参考基因组,以不断更新。
[0004]然而,在多态(polymorphic)基因的情况下,即,在可能具有各种基因型的基因(例如,HLA)的情况下 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种使用下一代测序(NGS)数据预测基因型的方法,其特征在于,包括以下步骤:获取分析对象的NGS数据;将所述分析对象的NGS数据分别映射到针对分析对象基因具有不同基因型的每个碱基序列;基于所述映射结果,获取所述分析对象的NGS数据与针对所述分析对象基因的每个基因型对应的第一概率;从所述NGS数据中提取分析对象的SNP数据;获取参考数据,所述参考数据包括针对所述分析对象基因具有不同基因型的多个SNP数据;基于所述分析对象的SNP数据及所述参考数据,获取所述分析对象的SNP数据对应于所述多个基因型中的每一个的第二概率;以及基于所述第一概率及所述第二概率,预测所述分析对象的NGS数据的基因型。2.根据权利要求1所述的使用NGS数据预测基因型的方法,其特征在于,获取所述第一概率的步骤,包括以下步骤:对于针对所述分析对象基因具有不同基因型的每个碱基序列,获取所述NGS数据中映射的碱基序列的长度;以及基于所述映射的碱基序列的长度,获取与针对所述分析对象基因的每个基因型对应的第一概率。3.根据权利要求1所述的使用NGS数据预测基因型的方法,其特征在于,预测所述分析对象的NGS数据的基因型的步骤,包括以下步骤:通过计算每个基因型的第一概率及第二概率,获取所述分析对象的SNP数据对应于所述多个基因型中的每一个的最终概率;以及将所述最终概率中的与最高最终概率对应的基因型预测为所述分析对象的NGS数据的基因型。4.根据权利要求1所述的使用NGS数据预测基因型的方法,其特征在于,提取所述分析对象的SNP数据的步骤,还包括以下步骤:从所述NGS数据中的基因间隔区检测SNP。5.根据权利要求1所述的使用NGS数据预测基因型的方法,其特征在于,获取所述参考数据的步骤,还包括以下步骤:对于针对所述分析对象基因已确定基因型的多个SNP数据中的每一个,将对应于所述SNP数据的基因型的标记插入到被包括在SNP数据中的多个预定区域中的每一个。6.根据权利要求1所述的使用NGS数据预测基因型的方法,其特征在于,获取所述参考数据的步骤,还包括以下步骤:对于针对所述分析对象基因已确定基因型的多个SNP数据中的每一个,将对应于所述SNP数据的基因型的二元标记插入到被包括在SNP数据中的多个外显子中的每一个。7.根据权利要求1所述的使用NGS数据预测基因型的方法,其特征在于,获取所述第二概率的步骤,包括以下步骤:通过将所述分析对象的SNP数据及所述参考数据输入到估计模型,按每个区域计算所
述分析对象的SNP数据与所述多个SNP数据的基因型对应的概率;以及基于所述每个区域的概率,获取所述分析对象的SNP数据对应于所述多个基因型中的每一个的第二概率。8.根据权利要求1所述的使用NGS数据预测基因型的方法,其特征在于,获取所述第二概率的步骤,包括以下步骤:计算与所述多个基因型对应的多个标记之间的遗传距离;以及基于所述分析对象的SNP数据、说说参考数据及所述遗传距离,获取所述分析对象的SNP数据对应于所述多个基因型中的每一个的第二概率。9.根据权利要求1所述的使用NGS数据预测基因型的方法,其特征在于,获取所述第二概率的步骤,包括以下步骤:对所述分析对象的SNP数据及所述多个SNP数据进行采样;基于所述采样数据,计算与隐马尔可夫模型中的所述多个基因型对应的状态之间的转移概率;通过转换所述状态之间的转移概率,获取状态之间的遗传距离;以及基于所述遗传距离、所述参考数据及所述分析对象的SNP数据,获取所述分析对象的SNP数据对应于所述多个基因型中的每一个的第二概率。10.根据权利要求1所述的使用NGS数据预测基因型的方法,其特征在于,所述分析对象的SNP数据,包括:分析对象用户的DNA碱基序列中的至少一部分;以及被包括在所述DNA碱基序列中的至少一部分的SNP...
【专利技术属性】
技术研发人员:韩凡,
申请(专利权)人:首尔大学校产学协力团,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。