一种基于等位基因频率的SNP数据量化编码方法技术

技术编号:35304814 阅读:58 留言:0更新日期:2022-10-22 12:54
本发明专利技术公开了一种基于等位基因变异频率的SNP数据量化编码方法。本发明专利技术所提供的SNP数据量化编码方法,基于SNP位点下各品种或样本次要变异基因的频次分别对主要变异基因的纯合基因型、次要基因的纯合基因型和杂合基因型量化编码,使编码后的SNP数据具有明确的统计学和专业意义,与传统的统计分析方法兼容,更容易进行SNP位点评价与样本相似性分析。实验证明,本发明专利技术所提供的SNP数据量化编码方法可实现直观便捷的样本间及位点间相似性或相异性比较和分类评价,数据的专业意义更加明确,数据分析方法更加丰富,不受生物技术领域统计软件的限制,适用于更广泛的经典统计学方法和软件,对样本和位点的评价更加灵活、直观和全面。面。面。

【技术实现步骤摘要】
一种基于等位基因频率的SNP数据量化编码方法


[0001]本专利技术属于生物
,具体涉及一种基于等位基因频率的SNP数据量化编码方法。

技术介绍

[0002]分子标记是分子遗传学研究中的一种重要工具,可以广泛应用于分子标记辅助育种、农作物品种遗传相似性比对、品种特性鉴定与保护、作物种质资源多样性分析、品种亲缘关系研究等领域。DNA分子标记的通用性研究起初多集中于多态性丰富的SSR标记。SNP标记作为近几年发展起来的一种新型分子标记,具有高遗传稳定性、共显性、含量丰富、分布广泛且常与作物重要性状基因相关联等优点,具有重要的生物学意义。随着高通量测序技术的发展,新一代分子标记SNP因其含量丰富,分布广泛且代表性强等优势,在近年的分子标记研究中也逐渐受到重视,逐步在农作物品种检测鉴定与品种维权领域中得到广泛的应用。
[0003]SNP指纹数据也称为“有无”数据,具有二态性特征,对SNP位点和样本质量的统计分析和评价都是以基因在不同样本和位点中出现的频率变化为依据。在等位基因水平上SNP数据属于双向有序分类数据中只包含0和1两个类别的特殊本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于等位基因频率的SNP数据量化编码方法,其特征在于,所述方法包括如下步骤:(1)SNP数据量化预编码:在各SNP位点的次要等位基因未明确的情况下,即假定某SNP位点下任一个等位基因为次要等位基因,则另一等位基因为主要等位基因;将假定次要等位基因的纯合基因型编号为2,主要等位基因的纯和基因型编号为0,杂合基因型编号为1,缺失值用空白表示,从而将原来的由核苷酸字母组合的属性数据转化为由0、1、2数字组成的m
×
n数据矩阵,m和n分别表示品种或样本数和SNP位点数,完成SNP数据的预编码;(2)SNP数据量化编码校正:基于上述m
×
n数据矩阵计算各SNP位点的假定MAF值,即H_MAF值,以检验假定次要等位基因的真实性;如H_MAF值<0.50,则接受假定;如H_MAF值≥0.50,则拒绝假定,并且将相应SNP位点所在列的数字0和2互换,使矩阵中所有数字2和0都分别代表次要等位基因和主要等位基因的纯合基因型,从而完成SNP数据量化编码流程。2.根据权利要求1所述的基于等位基因频率的SNP数据量化编码方法,其特征在于,第j个SNP位点的H_MAF值在MS Excel中的计算公式如下:H_MAF
j
=SUM(SNP
1j
:SNP
mj
)/(COUNT(SNP
1j
:SNP
mj
)*2)*100%
…………
(1)其中,H_MAF
j
表示第j个SNP位点的H_MAF值,m为品种或样本容量,SNP
1j
、SNP
mj
分别表示量化编码矩阵第1行j列、第m行j列的量化编码。3.根据权利要求1所述的基于等位基因频率的SNP数据量化编码方法,其特征在于,SNP位点的评价参数包括次要基因频率MAF、主要基因频率MAAF、多态性信息量PIC、位点杂合率LHR、检出率CF,在Excel中的公式如下:MAF
j
=SUM(SNP
1j
:SNP
mj
)/((COUNT(SNP
1j
:SNP
mj
)*2)*100%
…………
(2)MAAF
j
=1

MAF
j
…………
(3)LHR
j
=COUNTIF(SNP
1j
:SNP
mj,1
)/COUNT(SNP
1j
:SNP
mj
)*100%
…………
(5)CF
j
=(1

COUNTBLANK(SNP
1j
:SNP
mj
)/m)*100%
…………
(6)其中,MAF
j
、MAAF
j
...

【专利技术属性】
技术研发人员:金石桥许乃银晋芳刘丰泽杨晓妮任雪贞孙全
申请(专利权)人:江苏省农业科学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1