样本数据集合的构建方法及其遗传出生地预测方法技术

技术编号:20591419 阅读:23 留言:0更新日期:2019-03-16 07:57
本发明专利技术实施例公开了一种遗传出生地样本数据集合的构建方法及其遗传出生地预测方法。该构建方法包括:采集若干个样本数据,所述样本数据包括样本SNP分型和祖籍地;根据祖源成分集合,计算所述样本数据的祖源成分;所述祖源成分集合由若干个族群组成;将所述样本数据的祖籍地设置为对应的祖源成分的标签,生成标注数据。该遗传出生地样本数据集合的构建方法开创性的拓展了关于SNP分型结果的应用,更好的利用了SNP分型中包含的信息,具有良好的应用前景。

【技术实现步骤摘要】
样本数据集合的构建方法及其遗传出生地预测方法
本专利技术涉及生物信息
,尤其涉及一种基于SNP分型的样本数据集合的构建方法及其遗传出生地预测方法。
技术介绍
SNP是单核苷酸多态性(SingleNucleotidePolymorphism)的简写,是指基因组上单个核苷酸变异,即A、T、C、G四种碱基的互相改变,形成基因组上同一位置会有多种碱基存在的多态性。SNP基因分型指的是确定SNP的碱基对类型,除了未检出情况,总共有4*4=16种可能结果。基因分型的不同,可能导致样本的表型不同。SNP在人群中广泛存在,多态性丰富,是很好的遗传标记物。尤其高通量的SNP检测方法出现之后,被广泛用于生物信息学的分析。在实现本专利技术过程中,专利技术人发现相关技术存在以下问题:随着技术的发展成熟,目前由微阵列芯片、二代测序等都可以快速地对DNA样本进行SNP分型,但是如何针对性的利用SNP分型结果进行信息分析,挖掘其中的隐含的数据,应用于其它场景仍然有待研究。
技术实现思路
针对上述技术问题,本专利技术实施例提供了一种基于SNP分型的样本数据集合的构建方法及其遗传出生地预测方法,以解决现有技术中对SNP分型结果信息缺乏有效利用的问题。本专利技术实施例的第一方面提供一种遗传出生地样本数据集合的构建方法。所述方法包括:采集若干个样本数据,所述样本数据包括样本SNP分型和祖籍地;根据祖源成分集合,计算所述样本数据的祖源成分;所述祖源成分集合由若干个族群组成;将所述样本数据的祖籍地设置为对应的祖源成分的标签,生成标注数据。可选地,所述祖源成分集合通过如下方法获得:获取若干个不同族群对应的参考SNP分型;将所述若干个参考SNP分型作为祖源成分集合,每个参考SNP分型均为所述祖源成分集合的元素。可选地,所述样本数据的祖源成分中,所述祖源成分集合中的每个族群所占的成分比例之和为1。可选地,所述祖源成分集合包括北方汉族、南方汉族、高山族群以及藏族。可选地,所述祖源成分集合包括至少42个族群。可选地,通过线上调查问卷,确定所述样本数据的祖籍地。可选地,所述遗传出生地样本数据集合包括若干条标注数据,每一条标注数据包括根据SNP分型确定的祖源成分及祖籍地。可选地,所述方法还包括:将所述遗传出生地样本数据集合中的至少一部分标注数据作为训练集,并且将剩余的标注数据作为测试集;所述测试集和训练集之间的标注数据数量比例为0.2比0.8。本专利技术实施例的第二方面提供一种遗传出生地预测方法。该方法包括:应用如上所述的遗传出生地样本数据集合的构建方法构建获得的遗传出生地样本数据集合计算待测样本属于不同祖籍地的概率;根据所述概率生成所述待测样本的遗传出生地预测结果。本专利技术实施例提供的方法利用SNP分型结果构建了相应的样本数据集合,可以作为数据库或基础数据,利用多种不同的比较算法,对待测样本的遗传出生地进行预测,并将预测结果广泛的应用在多个不同的领域,例如在考古学方面可以利用该技术对待检测样本进行遗传出生地的推测,从基因层面给出考古对象的潜在来源。而在在法医学方面可以根据犯罪嫌疑人留下的DNA信息,推测其遗传出生地,帮助公安据此进行破案。或者是在公安帮助解救被拐卖小孩时,可以帮助推测小孩的出生地,从而帮助寻找失散的家人。上述遗传出生地样本数据集合的构建方法开创性的拓展了关于SNP分型结果的应用,更好的利用了SNP分型中包含的信息,具有良好的应用前景。附图说明图1为本专利技术实施例的遗传出生地样本数据集合构建方法的一个实施例示意图;图2为本专利技术实施例的遗传出生地预测方法的一个实施例示意图;图3为本专利技术实施例的遗传出生地可视化显示的一个实施例示意图;图4为本专利技术实施例的相似性计算的一个实施例示意图;图5为本专利技术另一实施例的相似性计算的一个实施例示意图;图6为本专利技术实施例的计算待测样本与各个遗传出生地的马氏距离的一个实施例示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,当元件被表述“固定于”另一个元件,它可以直接在另一个元件上、或者其间可以存在一个或多个居中的元件。当一个元件被表述“连接”另一个元件,它可以是直接连接到另一个元件、或者其间可以存在一个或多个居中的元件。本说明书所使用的术语“垂直的”、“水平的”、“左”、“右”、“上”、“下”、“内”、“外”、“底部”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。除非另有定义,本说明书所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本说明书中在本专利技术的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是用于限制本专利技术。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。此外,下面所描述的本专利技术不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。随着高通量的SNP微阵列技术(microarray)以及第二代测序技术(NextGenerationSequencing,NGS)的发展,人类基因的SNP分型结果已经可以快捷、准确并且低成本的获得。其中,微阵列(microarray)也被称为寡核苷酸阵列(Oligonucleitidearray),属于生物芯片中的一种。该技术的原理是在固体表面上集成已知序列的基因探针,被测生物细胞或组织中大量标记的核酸序列与上述探针阵列进行杂交以后,通过检测相应位置杂交探针来实现基因信息的快速检测。目前成熟商用的微阵列技术已经可以一次性对上百万的SNP位点进行准确分型。第二代测序技术的核心是变测序变合成测序,通过捕捉新合成的末端的标记来确定DNA的序列。现今使用的第二代测序具有费用低,通量高,速度快以及便于操作的优点,被广泛用于各种大型基因组研究中。利用第二代测序技术进行全基因组SNP的分型,即可以在检测全基因组的SNP的同时达到很高的准确性。基于所述的基因相关基础技术的发展,可以提供大量并且准确的SNP分型结果。本专利技术实施例提供了一种遗传出生地样本数据集合的构建方法,基于这些SNP分型结果构建遗传出生地的数据库,以便于后续的应用。如图1所示,所述构建方法包括:110、采集若干个样本数据,所述样本数据包括样本SNP分型和祖籍地。所述样本数据的祖籍地可以通过线上调查问卷等形式,由用户确认获得。120、根据祖源成分集合,计算所述样本数据的祖源成分;所述祖源成分集合由若干个族群组成。其中,所述祖源成分集合可以通过如下方法获得:首先,获取若干个不同族群对应的参考SNP分型。然后,将所述若干个参考SNP分型作为祖源成分集合,每个参考SNP分型均为所述祖源成分集合的元素。SNP的多态性因为不同族群演化历史不同,都会有带有很强的族群特异性,可以被用来反映族群的遗传特征。对于不本文档来自技高网
...

【技术保护点】
1.一种遗传出生地样本数据集合的构建方法,其特征在于,包括:采集若干个样本数据,所述样本数据包括样本SNP分型和祖籍地;根据祖源成分集合,计算所述样本数据的祖源成分;所述祖源成分集合由若干个族群组成;将所述样本数据的祖籍地设置为对应的祖源成分的标签,生成标注数据。

【技术特征摘要】
1.一种遗传出生地样本数据集合的构建方法,其特征在于,包括:采集若干个样本数据,所述样本数据包括样本SNP分型和祖籍地;根据祖源成分集合,计算所述样本数据的祖源成分;所述祖源成分集合由若干个族群组成;将所述样本数据的祖籍地设置为对应的祖源成分的标签,生成标注数据。2.根据权利要求1所述的构建方法,其特征在于,所述祖源成分集合通过如下方法获得:获取若干个不同族群对应的参考SNP分型;将所述若干个参考SNP分型作为祖源成分集合,每个参考SNP分型均为所述祖源成分集合的元素。3.根据权利要求2所述的构建方法,其特征在于,所述根据祖源成分集合,计算所述样本数据的祖源成分,包括:比较所述样本SNP分型以及所述若干个参考SNP分型,计算所述样本SNP分型的构成;根据所述样本SNP分型的构成,确定所述祖源成分集合中的每个族群所占的比例;根据所述比例,确定所述样本数据的祖源成分。4.根据权利要求3所述的构建方法,其特征在于,所述样本数据的祖源成分中,所述祖源成分集合中的每个族群所占的成分比例之和为1...

【专利技术属性】
技术研发人员:郑强陈钢李鹰翔胡振飞庄喆
申请(专利权)人:深圳韦格纳医学检验实验室
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1