样本数据集合的构建方法及其遗传出生地预测方法技术

技术编号：20591419 阅读：23 留言：0更新日期：2019-03-16 07:57

本发明专利技术实施例公开了一种遗传出生地样本数据集合的构建方法及其遗传出生地预测方法。该构建方法包括：采集若干个样本数据，所述样本数据包括样本SNP分型和祖籍地；根据祖源成分集合，计算所述样本数据的祖源成分；所述祖源成分集合由若干个族群组成；将所述样本数据的祖籍地设置为对应的祖源成分的标签，生成标注数据。该遗传出生地样本数据集合的构建方法开创性的拓展了关于SNP分型结果的应用，更好的利用了SNP分型中包含的信息，具有良好的应用前景。

全部详细技术资料下载

【技术实现步骤摘要】
样本数据集合的构建方法及其遗传出生地预测方法
本专利技术涉及生物信息
，尤其涉及一种基于SNP分型的样本数据集合的构建方法及其遗传出生地预测方法。
技术介绍
SNP是单核苷酸多态性(SingleNucleotidePolymorphism)的简写，是指基因组上单个核苷酸变异，即A、T、C、G四种碱基的互相改变，形成基因组上同一位置会有多种碱基存在的多态性。SNP基因分型指的是确定SNP的碱基对类型，除了未检出情况，总共有4*4＝16种可能结果。基因分型的不同，可能导致样本的表型不同。SNP在人群中广泛存在，多态性丰富，是很好的遗传标记物。尤其高通量的SNP检测方法出现之后，被广泛用于生物信息学的分析。在实现本专利技术过程中，专利技术人发现相关技术存在以下问题：随着技术的发展成熟，目前由微阵列芯片、二代测序等都可以快速地对DNA样本进行SNP分型，但是如何针对性的利用SNP分型结果进行信息分析，挖掘其中的隐含的数据，应用于其它场景仍然有待研究。
技术实现思路
针对上述技术问题，本专利技术实施例提供了一种基于SNP分型的样本数据集合的构建方法及其遗传出生地预测方法，以解决现有技术中对SNP分型结果信息缺乏有效利用的问题。本专利技术实施例的第一方面提供一种遗传出生地样本数据集合的构建方法。所述方法包括：采集若干个样本数据，所述样本数据包括样本SNP分型和祖籍地；根据祖源成分集合，计算所述样本数据的祖源成分；所述祖源成分集合由若干个族群组成；将所述样本数据的祖籍地设置为对应的祖源成分的标签，生成标注数据。可选地，所述祖源成分集合通过如下方法获得：获取若干个不同族...

【技术保护点】
1.一种遗传出生地样本数据集合的构建方法，其特征在于，包括：采集若干个样本数据，所述样本数据包括样本SNP分型和祖籍地；根据祖源成分集合，计算所述样本数据的祖源成分；所述祖源成分集合由若干个族群组成；将所述样本数据的祖籍地设置为对应的祖源成分的标签，生成标注数据。

【技术特征摘要】
1.一种遗传出生地样本数据集合的构建方法，其特征在于，包括：采集若干个样本数据，所述样本数据包括样本SNP分型和祖籍地；根据祖源成分集合，计算所述样本数据的祖源成分；所述祖源成分集合由若干个族群组成；将所述样本数据的祖籍地设置为对应的祖源成分的标签，生成标注数据。2.根据权利要求1所述的构建方法，其特征在于，所述祖源成分集合通过如下方法获得：获取若干个不同族群对应的参考SNP分型；将所述若干个参考SNP分型作为祖源成分集合，每个参考SNP分型均为所述祖源成分集合的元素。3.根据权利要求2所述的构建方法，其特征在于，所述根据祖源成分集合，计算所述样本数据的祖源成分，包括：比较所述样本SNP分型以及所述若干个参考SNP分型，计算所述样本SNP分型的构成；根据所述样本SNP分型的构成，确定所述祖源成分集合中的每个族群所占的比例；根据所述比例，确定所述样本数据的祖源成分。4.根据权利要求3所述的构建方法，其特征在于，所述样本数据的祖源成分中，所述祖源成分集合中的每个族群所占的成分比例之和为1...

【专利技术属性】
技术研发人员：郑强，陈钢，李鹰翔，胡振飞，庄喆，
申请(专利权)人：深圳韦格纳医学检验实验室，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人