本发明专利技术涉及基因大数据祖源分析预测技术领域,且公开了一种基于基因大数据进行祖源分析预测的算法,包括祖源成分样本数据的收集、数据预处理、祖源成分分析预测、Y染色体单倍群分析、线粒体单倍群分析、结果展示。目前市场上祖源分析技术多使用开源数据库,其中有关中国个体的样本量较少,导致血统和单倍群分型不准确、不够细致等,这里我们在开源数据库的基础上添加本公司收集的大量中国人样本数据,同时对源数据进行进一步优化,使得输入数据更加准确可靠,从而提高输出结果的精确度,另外本公司自主研发此三种分析中的比对打分算法,从而使得最终结果更加准确和细致。
An algorithm of ancestor analysis and prediction based on gene big data
【技术实现步骤摘要】
一种基于基因大数据进行祖源分析预测的算法
本专利技术涉及基因大数据祖源分析预测
,具体为一种基于基因大数据进行祖源分析预测的算法。
技术介绍
现代生物理论认为,基因是遗传的基本单位。在人类繁殖的过程中,遗传特征通过基因传递给下一代,子代分别从父母双方各获得一套染色体,一方面完成了遗传信息从亲代到子代的传递,另一方面也丰富了子代的遗传特征多样性。在人类族群演化的过程中,DNA中会累计多种遗传突变,也被称为单核苷酸多态性位点(SNP),不同族群累积的突变位点也不尽相同,因此SNP可以在一定程度上反应族群的遗传特征。在父母双方各自将自己一半的染色体遗传给儿子的时候,父亲将传递给子代22条常染色体和一条Y染色体,母亲则贡献另外一半常染色体和一条X染色体,因此男性的Y染色体只会从父亲处获得。在Y染色体传递的过程中,也会发生突变,在族群演化的过程中,Y染色体上的SNP被累积了下来,因此由Y染色体上SNP可以推测个体的父系祖源。生物学家通过收集分析不同族群的Y染色体数据,构建了Y染色体单倍群树,树上的节点可准确反映族群间发生分支的突变。通过检测这些突变并比对Y染色体单倍群树,我们可推测个体的Y染色体单倍群,追溯父系祖源、演化和迁徙。除了常染色体和性染色体外,亲代的线粒体DNA也会遗传给子代。线粒体DNA只来自母亲提供的卵子,因此线粒体DNA只会通过母亲遗传。线粒体在亲子代传递过程中不会发生重组现象,但是和Y染色体一样会发生突变。通过研究这些累计的突变,可以追溯母系祖源、族群分化和迁徙。目前市场上的祖源分析技术多使用开源数据库,其中关于中国个体的样本量小,导致血统和单倍群分型不准确、分型不细致等,从而无法做到精确的追溯祖源。
技术实现思路
针对上述
技术介绍
的不足,本专利技术提供了一种基于基因大数据进行祖源分析预测的算法,即我们开发的祖源分析技术在使用开源数据库的基础上,同时添加多渠道收集的中国人样本数据,可以使祖源成分、单倍群分型更细致和准确。本专利技术提供如下技术方案:一种基于基因大数据进行祖源分析预测的算法,其特征在于:包括祖源成分样本数据的收集、数据预处理、祖源成分分析预测、Y染色体单倍群分析、线粒体单倍群分析、结果展示:第一步,祖源分析预测中使用数据的收集,包括国际千人基因组计划中的样本数据、Hapmap项目中样本数据以及奇云诺德收集到的大量中国人样本数据;第二步数据预处理,奇云诺德公司收集到的样本采用Illumina公司针对亚洲人定制的ASAMD芯片进行基因分型检测,此芯片可检测出66万个有效SNP(singlenucleotidepolymorphism,单核苷酸多态性)位点,千人基因组和Hapmap项目中的样本数据采用的技术包括WGS(WholeGenomeSequencing,全基因组测序)、WES(WholeExomeSequencing,全外显子测序)以及芯片分型技术等,根据不同来源数据按照统一标准预处理成一个源数据;第三步祖源成分分析,此分析中我们使用美国加州大学洛杉矶分校(UCLA)开发的Admixture祖源分析软件为原型,在此基础上通过比对个体的基因型与奇云诺德数据库中的参考种族族群样本的相似度,计算出个体祖源成分,我们开发的祖源成分计算方法可以准确地区分美洲、欧洲、非洲和亚洲祖源,并且因为本公司收集到大量中国人群数据,因而亚洲祖源中可也以细分至多个中国地区,计算结果以百分比的方式呈现;第四步Y染色体单倍群分析,此分析中,我们参考了国际遗传系谱协会(ISOGG)公布的Y染色体单倍群树,通过比较待检样本与单倍群树上的每一个单倍群的相似性,对待检样本进行横向、纵向打分,最终以得分最高的单倍群作为待检样本的Y染色体单倍群;第五步线粒体单倍群分析,此分析中我们参考了鹿特丹伊拉斯姆斯大学(PhyloTree)公布的线粒体单倍群树,通过比较待检样本与单倍群树上的每一个单倍群的相似性,对待检样本进行横向、纵向打分,最终以得分最高的单倍群作为待检样本的线粒体单倍群。优选的,所述收集的样本基因数据SNP位点分型检测采用针对亚洲人群定制的ASAMD基因芯片。优选的,所述收集的原始数据包括千人基因组项目、Hapmap项目以及本公司收集的大量中国人样本数据。优选的,所述祖源成分分析通过与参考种族族群比对打分,计算出个体祖源成分,细分至中国多个区域,如南方汉族、北方汉族、藏族、其他少数名族等。优选的,所述单倍群分析通过与已知单倍群树(ISOGG、PhyloTree)比对,进行横向、纵向打分,最终以得分最高的单倍群作为待检样本的相应单倍群。本专利技术具备以下有益效果:使用开源数据库的基础上,添加多渠道收集的中国人样本数据,可以使祖源成分、单倍群分型更细致,同时在开源软件的基础上进行算法优化,使得最终结果更加精确。附图说明图1为本专利技术流程示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,但本专利技术的保护范围不受具体的实施方式所限制,以权利要求书为准,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参阅图1,一种基于基因大数据进行祖源分析预测的算法,该方法基于我们前期收集的多来源样本数据,包括国际千人基因组计划、Hapmap项目和奇云诺德内部数据集,其中奇云诺德内部数据集采用Illumina公司针对亚洲人定制的ASAMD芯片检测,芯片可检测出66万个有效SNP位点,同时在开源软件的基础上进行算法优化,使得最终结果更加细致和精确。祖源分析技术目前分为三个部分,祖源成分分析、Y染色体单倍群分析和线粒体单倍群分析,具体实施步骤如下:第一步,祖源分析预测中使用数据的收集,包括国际千人基因组计划中的样本数据、Hapmap项目中样本数据以及奇云诺德收集到的大量中国人样本数据;第二步数据预处理,奇云诺德公司收集到的样本采用Illumina公司针对亚洲人定制的ASAMD芯片进行基因分型检测,此芯片可检测出66万个有效SNP(singlenucleotidepolymorphism,单核苷酸多态性)位点,千人基因组和Hapmap项目中的样本数据采用的技术包括WGS(WholeGenomeSequencing,全基因组测序)、WES(WholeExomeSequencing,全外显子测序)以及芯片分型技术等,根据不同来源数据按照统一标准预处理成一个源数据;第三步祖源成分分析,此分析中我们使用美国加州大学洛杉矶分校(UCLA)开发的Admixture祖源分析软件为原型,在此基础上通过比对个体的基因型与奇云诺德数据库中的参考种族族群样本的相似度,计算出个体祖源成分,我们开发的祖源成分计算方法可以准确地区分美洲、欧洲、非洲和亚洲祖源,并且因为本公司收集到大量中国人群数据,因而亚洲祖源中可也以细分至多个中国地区本文档来自技高网...
【技术保护点】
1.一种基于基因大数据进行祖源分析预测的算法,其特征在于:包括祖源成分样本数据的收集、数据预处理、祖源成分分析预测、Y染色体单倍群分析、线粒体单倍群分析、结果展示:/n第一步,祖源分析预测中使用数据的收集,包括国际千人基因组计划中的样本数据、Hapmap项目中样本数据以及奇云诺德收集到的大量中国人样本数据;/n第二步数据预处理,奇云诺德公司收集到的样本采用Illumina公司针对亚洲人定制的ASAMD芯片进行基因分型检测,此芯片可检测出66万个有效SNP(single nucleotidepolymorphism,单核苷酸多态性)位点,千人基因组和Hapmap项目中的样本数据采用的技术包括WGS(Whole Genome Sequencing,全基因组测序)、WES(Whole Exome Sequencing,全外显子测序)以及芯片分型技术等,根据不同来源数据按照统一标准预处理成一个源数据;/n第三步祖源成分分析,此分析中我们使用美国加州大学洛杉矶分校(UCLA)开发的Admixture祖源分析软件为原型,在此基础上通过比对个体的基因型与奇云诺德数据库中的参考种族族群样本的相似度,计算出个体祖源成分,我们开发的祖源成分计算方法可以准确地区分美洲、欧洲、非洲和亚洲祖源,并且因为本公司收集到大量中国人群数据,因而亚洲祖源中可也以细分至多个中国地区,计算结果以百分比的方式呈现;/n第四步Y染色体单倍群分析,此分析中,我们参考了国际遗传系谱协会(ISOGG)公布的Y染色体单倍群树,通过比较待检样本与单倍群树上的每一个单倍群的相似性,对待检样本进行横向、纵向打分,最终以得分最高的单倍群作为待检样本的Y染色体单倍群;/n第五步线粒体单倍群分析,此分析中我们参考了鹿特丹伊拉斯姆斯大学(PhyloTree)公布的线粒体单倍群树,通过比较待检样本与单倍群树上的每一个单倍群的相似性,对待检样本进行横向、纵向打分,最终以得分最高的单倍群作为待检样本的线粒体单倍群。/n...
【技术特征摘要】
1.一种基于基因大数据进行祖源分析预测的算法,其特征在于:包括祖源成分样本数据的收集、数据预处理、祖源成分分析预测、Y染色体单倍群分析、线粒体单倍群分析、结果展示:
第一步,祖源分析预测中使用数据的收集,包括国际千人基因组计划中的样本数据、Hapmap项目中样本数据以及奇云诺德收集到的大量中国人样本数据;
第二步数据预处理,奇云诺德公司收集到的样本采用Illumina公司针对亚洲人定制的ASAMD芯片进行基因分型检测,此芯片可检测出66万个有效SNP(singlenucleotidepolymorphism,单核苷酸多态性)位点,千人基因组和Hapmap项目中的样本数据采用的技术包括WGS(WholeGenomeSequencing,全基因组测序)、WES(WholeExomeSequencing,全外显子测序)以及芯片分型技术等,根据不同来源数据按照统一标准预处理成一个源数据;
第三步祖源成分分析,此分析中我们使用美国加州大学洛杉矶分校(UCLA)开发的Admixture祖源分析软件为原型,在此基础上通过比对个体的基因型与奇云诺德数据库中的参考种族族群样本的相似度,计算出个体祖源成分,我们开发的祖源成分计算方法可以准确地区分美洲、欧洲、非洲和亚洲祖源,并且因为本公司收集到大量中国人群数据,因而亚洲祖源中可也以细分至多个中国地区,计算结果以百分比的方式呈现;
第四步Y染色体单倍群分析,此分析中,我们参...
【专利技术属性】
技术研发人员:罗奇斌,申玉林,廖胜光,任毅,
申请(专利权)人:北京奇云诺德信息科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。