一种基于XGBoost特征选择与深度学习结合的基因到表型预测方法和系统技术方案

技术编号:38519839 阅读:15 留言:0更新日期:2023-08-19 17:00
基于XGBoost特征选择与深度学习结合的大豆基因到表型预测方法,首先基于XGBoost方法进行特征选择挑选基因位点,根据XGBoost获得每个基因位点的重要性量度,根据重要性量度排序将重要的基因位点挑选出来,然后将挑选的基因位点进行自监督重构训练得到重构网络参数,最后对挑选的基因位点onehot编码,并利用重要性量度值对编码加权重,将加权重后的编码输入到修改后的重构网络中实现大豆基因到表型的预测。本发明专利技术利用XGBoost进行重要基因位点筛选,过滤掉大量冗余的基因位点,并利用生成网络学习基因位点的分布,对基因位点重构,重构网络的参数作为预训练参数指导基因预测表型的训练,提高表型预测的效率和效果。提高表型预测的效率和效果。提高表型预测的效率和效果。

【技术实现步骤摘要】
一种基于XGBoost特征选择与深度学习结合的基因到表型预测方法和系统


[0001]本专利技术涉及基因到表型预测技术以及深度学习技术,特别是一种基于XGBoost特征选择与深度学习结合的基因到表型预测方法。

技术介绍

[0002]基因到表型预测是遗传生物学中的核心问题,建立基因到表型的联系对于各种复杂性状及疾病解析具有重要作用。传统的全基因组关联分析通过构建BLUP、LASSO等线性模型对表型进行预测,但由于多基因控制的复杂形状目前的线性模型无法挖掘有效的基因位点信息导致预测能力普遍不高,神经网络深度学习的方法提供了一种非线性的方法解析基因到表型的关系,但由于深度学习的方法需要大量的数据,而以往的基因到表型的数据量都比较少,因此还要自监督的方法解决数据缺乏的问题来提高模型的泛化性能。
[0003]基于此提出本专利技术。

技术实现思路

[0004]本专利技术要克服现有技术的上述缺点,提出一种基于XGBoost特征选择与深度学习结合的基因到表型预测方法,用来提高基因到表型的预测效果,解释基因到表型的非线性关系。
[0005]为了实现该目的,本专利技术采用如下技术方案:
[0006]一种基于XGBoost特征选择与深度学习结合的基因到表型预测方法,包括以下步骤:
[0007]步骤1:基因数据集和表型数据集筛选处理,采用大豆自交到F5世代的基因和对应的表型数据。表型包括株高、油脂含量、蛋白质含量、单株荚数、节数、百粒重等重要表型,根据基因位点缺失率、最小等位基因频率过滤基因位点以及表型值未知的数据;
[0008]步骤2:基因数据处理,由于基因测序技术的问题,基因位点会有缺失未知态的情况,利用TASSEL软件中的基因插补技术KNN Imputation对缺失基因位点进行插补;
[0009]步骤3:表型数据处理,将表型数据按照步长1为单位划分为多个区间,每个区间的数据看作一个类别;
[0010]步骤4:将处理后的基因和表型数据利用XGBoost进行分类,并获取每个基因位点的重要性量度;
[0011]步骤5:利用步骤4特征选择后的基因位点进行自监督重构预训练;
[0012]步骤6:根据重要性量度对基因位点进行onehot加权,利用步骤5得到的位点重构参数初始化网络参数,利用深度学习技术进行基因到表型预测。
[0013]进一步,所述步骤4具体包括:
[0014]步骤4.1:将处理后的基因数据按如下方式进行编码:如果位点状态0/0编码为

1,状态0/1编码为0,状态1/1编码为1,表型数据取整,并按照步长为1为单位划分到不同的区
间,按照区间顺序赋予相应的0到C

1的分类标签,C为划分的区间个数;
[0015]步骤4.2:将步骤4.1编码后的基因位点数据输入到随机森林模型(RF model)中得到特征选择数据;
[0016]步骤4.3:特征选择后作为新的数据输入到XGBoost模型中利用步骤4.1的分类标签计算如下分类损失(其中y
i
是真实的标签,是预测的标签):
[0017][0018]步骤4.4:采用网格搜索找到最优参数
[0019]步骤4.5:得到最优参数后按照如下公式输出基因位点的特征重要度得分:
[0020][0021]其中是分裂的左叶子节点得分,是分裂的右叶子节点得分,是未经过分裂的节点得分,β是惩罚项;
[0022]进一步,所述步骤5所述的基因位点自监督重构预训练,包括:
[0023]步骤5.1:计算步骤4.3特征选择后的基因位点在每个位置的均值μ
i
和方差σ
i2

[0024]步骤5.2:将5.1的均值和方差输入到均值拟合神经网络和方差拟合神经网络中进行均值和方差的学习,方差拟合网络进行logσ
i2
的拟合学习来避免增加激活函数;
[0025]步骤5.3:利用5.2均值拟合神经网络和方差拟合神经网络得到每个位点的分布p(z|x
i
),分布的均值和方差由5.2的神经网络得到;
[0026]步骤5.4:利用5.3的分布进行采样得到每个位点的采样结果,将每个位点的采样结果输入到生成对抗网络GAN中进行位点的重构,通过GAN的生成器得到
[0027]步骤5.5:计算如下损失调整均值方差拟合网络参数和生成器参数:
[0028][0029]其中M是总的基因位点数量,KL(p(z|x
i
)||q(z))是均值方差拟合网络输出的分布p(z|x
i
)要接近标准正态分布,第二项为基因位点重构损失;
[0030]进一步,所述步骤6具体包括:
[0031]步骤6.1:将步骤4.3特征选择后的基因位点进行onehot编码,利用步骤4.5得到的特征重要度得分对onehot编码的每个位点增加权重,具体方式如下(fs(pos)是当前基因位点的特征重要度得分):
[0032][0033]步骤6.2:将步骤5训练得到的生成器最后一层修改为两个全连接层,其中一个全连接层用于分类,其输出特征个数为C,即每个表型划分的区间个数;另一个全连接层用于回归,其输出特征个数为1,将步骤6.1编码后的数据输入到修改后的网络中,并利用位点重构的网络参数初始化网络,两组全连接分别接交叉熵分类损失和L2均方误差损失,总的损失计算公式如下:
[0034][0035]其中N是总的植株数量,y
i
是真实的分类标签即表型所在区间的类别,模型预测的标签,Y
i
是真实的表型值,是模型预测的表型值,α为两种损失之间的调节系数;
[0036]步骤6.3:利用SGD进行模型优化降低5.2损失得到最优的模型参数。
[0037]基于XGBoost特征选择与深度学习结合的基因到表型预测系统,包括:
[0038]基因数据集和表型数据集筛选处理模块,用于筛选处理基因数据集和表型数据集;根据基因位点缺失率、最小等位基因频率过滤基因位点以及表型值未知的数据;
[0039]基因数据处理模块,用于处理基因数据,由于基因测序技术的问题,基因位点会有缺失未知态的情况,利用TASSEL软件中的基因插补技术KNN Imputation对缺失基因位点进行插补;
[0040]表型数据处理模块,用于处理表型数据,将表型数据按照步长1为单位划分为多个区间,每个区间的数据看作一个类别;
[0041]分类模块,用于将处理后的基因和表型数据利用XGBoost进行分类,并获取每个基因位点的重要性量度;
[0042]自监督重构预训练模块,利用步骤4特征选择后的基因位点进行自监督重构预训练;
[0043]网络参数初始化模块,根据重要性量度对基因位点进行onehot加权,利用步骤5得到的位点重构参数初始化网络参数,利用深度学习技术进行基因到表型预测。
[0044]基于XGBoost本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于XGBoost特征选择与深度学习结合的基因到表型预测方法,其特征在于,包括以下步骤:步骤1:筛选处理基因数据集和表型数据集;根据基因位点缺失率、最小等位基因频率过滤基因位点以及表型值未知的数据;步骤2:处理基因数据,由于基因测序技术的问题,基因位点会有缺失未知态的情况,利用TASSEL软件中的基因插补技术KNNImputation对缺失基因位点进行插补;步骤3:处理表型数据,将表型数据按照步长1为单位划分为多个区间,每个区间的数据看作一个类别;步骤4:将处理后的基因和表型数据利用XGBoost进行分类,并获取每个基因位点的重要性量度;步骤5:利用步骤4特征选择后的基因位点进行自监督重构预训练;步骤6:根据重要性量度对基因位点进行onehot加权,利用步骤5得到的位点重构参数初始化网络参数,利用深度学习技术进行基因到表型预测。2.根据权利要求1所述的基于XGBoost特征选择与深度学习结合的基因到表型预测方法,其特征在于,步骤1所述的表型包括株高、油脂含量、蛋白质含量、单株荚数、节数、百粒重。3.根据权利要求1所述的基于XGBoost特征选择与深度学习结合的基因到表型预测方法,其特征在于,所述步骤4具体包括:步骤4.1:将处理后的基因数据按如下方式进行编码:如果位点状态0/0编码为

1,状态0/1编码为0,状态1/1编码为1,表型数据取整,并按照步长为1为单位划分到不同的区间,按照区间顺序赋予相应的0到C

1的分类标签,C为划分的区间个数;步骤4.2:将步骤4.1编码后的基因位点数据输入到随机森林模型(RF model)中得到特征选择数据;步骤4.3:特征选择后作为新的数据输入到XGBoost模型中利用步骤4.1的分类标签计算如下分类损失,其中y
i
是真实的标签,是预测的标签:步骤4.4:采用网格搜索找到最优参数;步骤4.5:得到最优参数后按照如下公式输出基因位点的特征重要度得分:其中是分裂的左叶子节点得分,是分裂的右叶子节点得分,是未经过分裂的节点得分,β是惩罚项。4.根据权利要求1所述的基于XGBoost特征选择与深度学习结合的基因到表型预测方法,其特征在于,所述步骤5所述的基因位点自监督重构预训练包括:步骤5.1:计算步骤4.3特征选择后的基因位点在每个位置的均值μ
i
和方差σ
i2
;步骤5.2:将步骤5.1的均值和方差输入到均值拟合神经网络和方差拟合神经网络中进行均值和方差的学习,方差拟合网络进行logσ
i2
的拟合学习来避免增加激活函数;步骤5.3:利用步骤5.2均值拟合神经网络和方差拟合神经网络得到每个位点的分布p
(z|x
i
),分布的均值和方差由步骤5.2所述的的神经网络得到;步骤5.4:利用步骤5.3的分布进行采样得到每个位点的采样结果,将每个位点的采样结果输入到生成对抗网络GAN中进行位点的重构,通过GAN的生成器得到步骤5.5:计算如下损失调整均值方差拟合网络参数和生成器参数:其中M是总的基因位点数量,KL(p(z|x
i
)||q(z))是均值方差拟合网络输出的分布p(z|x
i
)要接近标...

【专利技术属性】
技术研发人员:吴翠玲章依依王军徐晓刚冯献忠冷建田
申请(专利权)人:中国科学院东北地理与农业生态研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1