利用全基因组SNP信息快速鉴定猪品种的方法及其应用技术

技术编号:36541818 阅读:18 留言:0更新日期:2023-02-01 16:42
本发明专利技术公开了一种利用全基因组SNP信息快速鉴定猪品种的方法及其应用,包括:根据已有数据库构建参考集;提取待鉴定品种个体的基因组DNA,并对DNA进行质量检测;利用基因芯片技术对待鉴定个体进行分型;利用主成分分析的方法、品种特异SNP的方法、群体遗传学的方法进行品种鉴定;综合分析三种结果,确定待鉴定个体的最终品种。本发明专利技术的优点是:充分利用高密度的SNP信息,能最大程度的从遗传层面解析品种差异,从而精准的鉴定出猪只的品种。利用了三种不同的方法来解析品种差异,从而进一步提高了品种鉴定的准确性。了品种鉴定的准确性。了品种鉴定的准确性。

【技术实现步骤摘要】
利用全基因组SNP信息快速鉴定猪品种的方法及其应用


[0001]本专利技术涉及动物品种鉴定
,特别涉及一种利用全基因组SNP信息快速鉴定大白猪、长白猪及其二元杂交猪的方法及其应用。

技术介绍

[0002]猪的品种鉴定具有重要的生物学意义及经济价值。无论是从品种保护还是从育种策略的制定角度,都离不开准确的猪的品种鉴定。早期对于猪的品种鉴定工作主要依赖于表型数据,但是由于杂交育种的推广,使得各个品种已无法仅靠表型就能进行区分。当前现有的方法往往是通过PCR扩增检测各个品种特异的SNP标记,但是这种方法大都更适用于地方猪品种。针对市面上常见的大白猪和长白猪群体,品种特异性SNP标记往往难以确定,此时若仍然沿用该方法毕竟使得鉴定的准确性大打折扣。目前的生猪繁育体系中,大白猪和长白猪通常都位于核心群。核心群的数量虽然比较少,但是在本品种的遗传改良中占据主导作用。只有对准确的核心群进行选择才能使得育种获得持续的遗传进展,否则只能是南辕北辙,事倍功半。
[0003]伴随着基因分型技术的飞速发展,使得获得全基因组范围内的海量的SNP标记成为了可能。因此,一种高效、简捷地利用全基因组SNP信息进行准确的品种鉴定的方法就应运而生。利用全基因组范围的SNP的信息,能够从遗传方面最大程度的解析各个品种的差异,从而对各个品种进行准确的鉴定。

技术实现思路

[0004]本专利技术针对现有技术的缺陷,提供了一种利用全基因组SNP信息快速鉴定猪品种的方法及其应用。
[0005]为了实现以上专利技术目的,本专利技术采取的技术方案如下:
[0006]一种利用全基因组SNP信息快速鉴定猪品种的方法,包括以下步骤:
[0007]S1:根据已有数据库构建参考集;
[0008]S2:提取待鉴定品种个体的基因组DNA,并对DNA进行质量检测;
[0009]S3:利用基因芯片技术对待鉴定个体进行分型;
[0010]S4:应用三种方法进行品种鉴定:
[0011]S41:利用主成分分析的方法,将高密度的SNP转换为少数几个线性无关的特征向量(主成分),并应用k

means聚类的方法将待鉴定个体聚类到参考集中以鉴定出待鉴定个体的品种;
[0012]S42:利用品种特异SNP的方法,根据参考集鉴定猪品种特异的SNP,选取待鉴定个体中品种特异的SNP的集合。假设不同位点的SNP基因型信息为独立的事件,根据二项分布的公式计算得到待鉴定个体为要鉴定品种的概率。设定阈值为0.9,若概率大于0.9则判定待鉴定个体归属于该品种;
[0013]S43:应用群体遗传学的方法,假设群体有K个祖先,计算现有群体中各个祖先群体
来源遗传成分的比例,选择得到最佳的K值并根据遗传成分比例判断待鉴定个体的品种;
[0014]S5:综合分析S4的三种结果,确定待鉴定个体的最终品种。
[0015]进一步地,S2对DNA进行质量检测:剔除检出率<90%、偏离哈代温伯格(Hardy

Weinberg Equilibrium,HWE)<10

7的SNP和检出率<90%的个体,并对缺失的基因型使用Beagle 5.1进行填充。
[0016]进一步地,S3具体为:将S2的所有个体的基因型数据转换为0,1,2格式并按交集合并基因型数据。利用R语言环境下的prcomp函数得到主成分,取前十个主成分作为特征向量用于k

means分析,调用R语言环境下的kmeans函数完成分析,得到鉴定个体分型。
[0017]进一步地,S41具体包括:将参考集的基因组信息和待鉴定个体的信息合并,并将基因型数据转换为0,1,2格式的基因型矩阵。利用R语言环境下的prcomp函数,将高密度的SNP信息转换为少数几个线性无关的特征向量(取前十个主成分)。利用k均值聚类算法,将欧式距离平方作为样本之间的距离,并通过损失函数最小化的原则,经过反复迭代求得局部最优解,并根据轮廓系数最终将样本划分为多类以确定待鉴定个体的品种。
[0018]进一步地,S42具体包括:根据参考集的基因组信息,选取待鉴定品种中多态性小的SNP位点(MAF<=0.01)并将二者取交集。从交集的SNP位点中,选取最小等位基因频率对应的等位基因在待鉴定品种中不相同的SNP位点。然后从待鉴定个体的基因型信息中挑选这部分不相同的SNP位点信息。根据二项分布的计算公式,分别计算待鉴定个体属于各个品种的概率。设定阈值,若待鉴定个体属于某一品种的概率大于设定的阈值就认为个体属于该品种。
[0019]进一步地,S43具体包括:将数据转换为Plink格式的数据,从群体遗传的角度利用贝叶斯算法,预设不同的分群策略(不同的K值)并得到不同分群下的交叉熵,选取交叉熵最小的分群策略。根据生成的血统比例文件对待测个体的品种进行鉴定。上述步骤可借助Admixture软件完成分析。
[0020]本专利技术还公开了所述利用全基因组SNP信息快速鉴定猪品种的方法在鉴定大白猪、长白猪和二元杂交猪品种的应用。
[0021]与现有技术相比,本专利技术的优点在于:
[0022]充分利用高密度的SNP信息,能最大程度的从遗传层面解析品种差异,从而精准的鉴定出猪只的品种。此外,综合利用了三种不同的方法来解析品种差异,从而进一步提高了品种鉴定的准确性。
附图说明
[0023]图1是本专利技术实施例利用全基因组SNP信息快速鉴定猪品种的方法流程图。
[0024]图2是本专利技术实施例利用主成分分析的方法及k

means算法对待鉴定品种个体进行分类的二维散点图。
具体实施方式
[0025]为使本专利技术的目的、技术方案及优点更加清楚明白,以下根据附图并列举实施例,对本专利技术做进一步详细说明。
[0026]如图1所示,一种利用全基因组SNP信息快速鉴定猪品种的方法,包括以下步骤:
[0027](1)结合实验室目前已有的数据库信息,从数据库中抽提出大白猪和长白猪的信息,构成参考集。
[0028](2)提取待鉴定个体的DNA并进行基因分型。对基因型数据进行质控:剔除检出率<90%、偏离哈代温伯格(Hardy

Weinberg Equilibrium,HWE)<10

7的SNP和检出率<90%的个体,并对缺失的基因型使用Beagle 5.1进行填充。
[0029](3)将参考集的基因组信息和待鉴定个体的信息合并,并将基因型数据转换为0,1,2格式的基因型矩阵。利用R语言环境下的prcomp函数,将高密度的SNP信息转换为少数几个线性无关的特征向量(取前十个主成分)。利用k均值聚类算法,将欧式距离平方作为样本之间的距离,并通过损失函数最小化的原则,经过反复迭代求得局部最优解,并根据轮廓系数最终将样本划分为多类以确定待鉴定个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种利用全基因组SNP信息快速鉴定猪品种的方法,其特征在于,包括以下步骤:S1:根据已有数据库构建参考集;S2:提取待鉴定品种个体的基因组DNA,并对DNA进行质量检测;S3:利用基因芯片技术对待鉴定个体进行分型;S4:应用三种方法进行品种鉴定:S41:利用主成分分析的方法,将高密度的SNP转换为少数几个线性无关的特征向量,并应用k

means聚类的方法将待鉴定个体聚类到参考集中并根据轮廓系数最终将样本划分为多类以确定待鉴定个体的品种;S42:利用品种特异SNP的方法,根据参考集鉴定猪品种特异的SNP,选取待鉴定个体中品种特异的SNP的集合;假设不同位点的SNP基因型信息为独立的事件,根据二项分布的公式计算得到待鉴定个体为要鉴定品种的概率;设定阈值为0.9,若概率大于0.9则判定待鉴定个体归属于该品种;S43:应用群体遗传学的方法,假设群体有K个祖先,计算现有群体中各个祖先群体来源遗传成分的比例,选择得到最佳的K值并根据遗传成分比例判断待鉴定个体的品种;S5:综合分析S4的三种方法的结果,确定待鉴定个体的最终品种。2.根据权利要求1所述的一种利用全基因组SNP信息快速鉴定猪品种的方法,其特征在于:S2对DNA进行质量检测:剔除检出率<90%、偏离哈代温伯格<10

7的SNP和检出率<90%的个体,并对缺失的基因型使用Beagle 5.1进行填充。3.根据权利要求1所述的一种利用全基因组SNP信息快速鉴定猪品种的方法,其特征在于:S3具体为:将S2的所有个体的基因型数据转换为0,1,2格式并按交集合并基因型数据。利用R语言环境下的prcomp函数得到主成分,取前十个主成分作为特征向量用于k

【专利技术属性】
技术研发人员:项韬梅全顺赵书红付川珂李新云李洁琳陈妍妮
申请(专利权)人:华中农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1