【技术实现步骤摘要】
一种用于整合多类型数据进行表型预测的多视图GBLUP方法
[0001]本专利技术涉及生物信息
,尤其涉及一种用于整合多类型数据进行表型预测的多视图
GBLUP
方法
。
技术介绍
[0002]对于同一事物可以从不同的角度进行描述,这构成了事物的多个视图
。
事物的多视图数据在真实世界中广泛存在,如在育种中,一个样本可以被表示为与其相关的基因
、
表达量
、
代谢和表型等内容
。
利用多视图数据间的互补性可以一定程度上提高算法的性能
。
[0003]随着新一代高通量基因型分析技术的发展,
DNA
芯片和全基因组重测序技术已发展成为植物基因组学领域的一个常用手段,这使得基因组预测应用于作物遗传育种成为可能
。
全基因组预测方法主要分为两大类:传统统计方法,基因组最优线性无偏预测
(GBLUP)、
最小绝对收缩和选择算子
(LASSO)
以及贝叶斯方法;机器学 ...
【技术保护点】
【技术特征摘要】
1.
一种用于整合多类型数据进行表型预测的多视图
GBLUP
方法,其特征在于,该方法包括以下步骤:步骤1,获取
SNP
基因型数据作为训练集合,将
SNP
基因型数据按照不同的表型类型表示为
0/1/2
形式的多类型数据,将多类型数据写成矩阵,矩阵的行表示材料,矩阵的列表示特征,对每列数据进行
Z
‑
score
标准化;步骤2,设多类型数据矩阵中的第
i
行和第
j
行为个体
x
i
,x
j
,计算亲缘关系矩阵
K
,定义两个个体间的相似性函数;步骤3,根据个体间的相似性,将多类型数据加权整合成一个亲缘关系矩阵
K
,使用差分进化算法,其具体流程为:初始化种群,种群中的每个个体为一组多类型数据的权重组合,对种群进行变异
、
交叉操作,对比种群中的个体和经过变异
、
交叉后的个体,将权重赋予多类型数据的亲缘关系矩阵
K
,将其代入到
GBLUP
模型中学习,选择表型预测精度高的个体作为下一代种群的成员;步骤4,设置终止条件,在相邻两次迭代训练集合最大预测精度的绝对值差小于一定阈值时停止学习,输出多类型数据最优的权重组合;步骤5,根据最优的权重组合设置
GBLUP
模型,输入待预测的
SNP
基因型数据,输出预测的表型
。2.
根据权利要求1所述的用于整合多类型数据进行表型预测的多视图
GBLUP
方法,其特征在于,步骤1中,将
SNP
基因型数据按照不同的表型类型表示为
0/1/2
形式,其中0表示纯合子频率高的基因型,1表示杂合子,2表示纯合子频率低的基因型
。3.
根据权利要求1所述的用于整合多类型数据进行表型预测的多视图
GBLUP
方法,其特征在于,步骤1中,标准化的处理公式为:其中,
X、E(X)、Var(X)
分别表示待标准化的向量
、X
的数学期望和
X
的方差
。4.
根据权利要求1所述的用于整合多类型数据进行表型预测的多视图
GBLUP
方法,其特征在于,步骤2中,定义两个个体间的相似性函数为:其中,
(x
i
,x
j
)
表示的是个体
x
i
,x
j
的内积
。5.
根据权利要求1所述的用于整合多类型数据进行表型预测的多视图
GBLUP
方法,其特征在于,步骤3中,差分进化算法的具体步骤为:步骤
3.1
,初始化;初始化
NP
个种群个体,每个个体即为一组多类型数据的权重组合,初始的每个权重在
(0,1)
之间;步骤
3.2
,变异;对初始种群的每个个体,通过加权平均的松弛技术来生成变异个体,变异的计算...
【专利技术属性】
技术研发人员:杨文宇,卓琳,吴冰杰,肖英杰,严建兵,
申请(专利权)人:华中农业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。