【技术实现步骤摘要】
一种基于XGBoost特征选择与深度学习结合的基因到表型预测方法和系统
[0001]本专利技术涉及基因到表型预测技术以及深度学习技术,特别是一种基于XGBoost特征选择与深度学习结合的基因到表型预测方法。
技术介绍
[0002]基因到表型预测是遗传生物学中的核心问题,建立基因到表型的联系对于各种复杂性状及疾病解析具有重要作用。传统的全基因组关联分析通过构建BLUP、LASSO等线性模型对表型进行预测,但由于多基因控制的复杂形状目前的线性模型无法挖掘有效的基因位点信息导致预测能力普遍不高,神经网络深度学习的方法提供了一种非线性的方法解析基因到表型的关系,但由于深度学习的方法需要大量的数据,而以往的基因到表型的数据量都比较少,因此还要自监督的方法解决数据缺乏的问题来提高模型的泛化性能。
[0003]基于此提出本专利技术。
技术实现思路
[0004]本专利技术要克服现有技术的上述缺点,提出一种基于XGBoost特征选择与深度学习结合的基因到表型预测方法,用来提高基因到表型的预测效果,解释基因到表型的非线性关系。
[0005]为了实现该目的,本专利技术采用如下技术方案:
[0006]一种基于XGBoost特征选择与深度学习结合的基因到表型预测方法,包括以下步骤:
[0007]步骤1:基因数据集和表型数据集筛选处理,采用大豆自交到F5世代的基因和对应的表型数据。表型包括株高、油脂含量、蛋白质含量、单株荚数、节数、百粒重等重要表型,根据基因位点缺失率、最小等位基因频率过滤基因位点 ...
【技术保护点】
【技术特征摘要】
1.基于XGBoost特征选择与深度学习结合的基因到表型预测方法,其特征在于,包括以下步骤:步骤1:筛选处理基因数据集和表型数据集;根据基因位点缺失率、最小等位基因频率过滤基因位点以及表型值未知的数据;步骤2:处理基因数据,由于基因测序技术的问题,基因位点会有缺失未知态的情况,利用TASSEL软件中的基因插补技术KNNImputation对缺失基因位点进行插补;步骤3:处理表型数据,将表型数据按照步长1为单位划分为多个区间,每个区间的数据看作一个类别;步骤4:将处理后的基因和表型数据利用XGBoost进行分类,并获取每个基因位点的重要性量度;步骤5:利用步骤4特征选择后的基因位点进行自监督重构预训练;步骤6:根据重要性量度对基因位点进行onehot加权,利用步骤5得到的位点重构参数初始化网络参数,利用深度学习技术进行基因到表型预测。2.根据权利要求1所述的基于XGBoost特征选择与深度学习结合的基因到表型预测方法,其特征在于,步骤1所述的表型包括株高、油脂含量、蛋白质含量、单株荚数、节数、百粒重。3.根据权利要求1所述的基于XGBoost特征选择与深度学习结合的基因到表型预测方法,其特征在于,所述步骤4具体包括:步骤4.1:将处理后的基因数据按如下方式进行编码:如果位点状态0/0编码为
‑
1,状态0/1编码为0,状态1/1编码为1,表型数据取整,并按照步长为1为单位划分到不同的区间,按照区间顺序赋予相应的0到C
‑
1的分类标签,C为划分的区间个数;步骤4.2:将步骤4.1编码后的基因位点数据输入到随机森林模型(RF model)中得到特征选择数据;步骤4.3:特征选择后作为新的数据输入到XGBoost模型中利用步骤4.1的分类标签计算如下分类损失,其中y
i
是真实的标签,是预测的标签:步骤4.4:采用网格搜索找到最优参数;步骤4.5:得到最优参数后按照如下公式输出基因位点的特征重要度得分:其中是分裂的左叶子节点得分,是分裂的右叶子节点得分,是未经过分裂的节点得分,β是惩罚项。4.根据权利要求1所述的基于XGBoost特征选择与深度学习结合的基因到表型预测方法,其特征在于,所述步骤5所述的基因位点自监督重构预训练包括:步骤5.1:计算步骤4.3特征选择后的基因位点在每个位置的均值μ
i
和方差σ
i2
;步骤5.2:将步骤5.1的均值和方差输入到均值拟合神经网络和方差拟合神经网络中进行均值和方差的学习,方差拟合网络进行logσ
i2
的拟合学习来避免增加激活函数;步骤5.3:利用步骤5.2均值拟合神经网络和方差拟合神经网络得到每个位点的分布p
(z|x
i
),分布的均值和方差由步骤5.2所述的的神经网络得到;步骤5.4:利用步骤5.3的分布进行采样得到每个位点的采样结果,将每个位点的采样结果输入到生成对抗网络GAN中进行位点的重构,通过GAN的生成器得到步骤5.5:计算如下损失调整均值方差拟合网络参数和生成器参数:其中M是总的基因位点数量,KL(p(z|x
i
)||q(z))是均值方差拟合网络输出的分布p(z|x
i
)要接近标...
【专利技术属性】
技术研发人员:吴翠玲,章依依,王军,徐晓刚,冯献忠,冷建田,
申请(专利权)人:中国科学院东北地理与农业生态研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。