当前位置: 首页 > 专利查询>之江实验室专利>正文

一种基于图聚类的基因编码育种预测方法和装置制造方法及图纸

技术编号:36602876 阅读:17 留言:0更新日期:2023-02-04 18:20
本发明专利技术提供了一种基于图聚类的基因编码育种预测方法及装置,本发明专利技术基于基因间相关性强弱构建基因图谱;对基因图谱进行聚类求解,得到共同调控基因组个数和每个基因的基因组聚类编号信息;融合基因等位信息和基因组聚类编号信息,得到样本的基因聚类编码;基于基因聚类编码信息和待预测生物表型信息,构建深度卷积神经网络,以优化基因育种预测性能。本发明专利技术充分利用基因图谱蕴含的基因间相互作用关系网络,能够有效提取用于控制生物表型输出的调控基因特征,解决经典模型输入编码层对基因图谱间基因相互作用关系编码不足的问题,保障生物表型的基因育种预测精准性,进而提高基因育种的速度、效率和质量,尤其产量的提高。尤其产量的提高。尤其产量的提高。

【技术实现步骤摘要】
一种基于图聚类的基因编码育种预测方法和装置


[0001]本专利技术主要涉及作物精准分子育种的基因育种预测领域,主要涉及一种基于图聚类的基因编码育种预测方法和装置。

技术介绍

[0002]随着基因测序技术的发展,实验技术人员通过样本采集、文库制备和测序等湿实验过程,基于测序、PCR(聚合酶链式反应)、基因芯片、光学图谱等可获得大规模、具有数据挖掘应用价值的多样本基因数据信息。全基因组测序后,基因组预测模型准确率很低。以大豆为例,大豆含有约6万基因,其中4万对基因发现8000万突变。而基因型预测表型,只能定性描述,不能定量分析。这极大限制了作物育种的数量、速度、质量,尤其产量的提高。
[0003]为了提高分子育种的准确率,当前面向作物表型的基因预测方法主要包括贝叶斯方法、线性回归、岭回归等传统统计分析方法。而当前在语音、图像和自然语言领域获得极大成功的深度学习方法却因为作物育种领域样本少的缺点无法获得很好的效果。另一方面,基因数据的维度很高,传统的统计分析方法也很难利用特征选择方法在如此高维的基因特征数据中快速提取有效的特征。可见,已有流行方法均无法满足作物分子育种的这种高维小样本问题。
[0004]为了应对作物分子育种的这种高维小样本问题,需要提出创新的基因育种预测方法,以同时解决高维度特征的特征选择提取问题和复杂模型样本基因图谱特征编码不足的问题。

技术实现思路

[0005]本专利技术的目的在于针对现有技术的不足,提出了一种基于图聚类的基因编码育种预测方法和装置,利用基因图谱蕴含的基因间相互作用关系网络,通过图聚类提取共同调控基因组聚类信息,以及新提出融合基因等位信息和基因图谱聚类信息的基因聚类编码方式,并利用深度卷积神经网络的权值共享,有效提取用于控制生物表型输出的调控基因特征,解决经典模型输入编码层对基因图谱间基因相互作用关系编码不足的问题,保障生物表型的基因育种预测精准性。
[0006]为实现上述目的,本专利技术提供如下技术方案:
[0007]本专利技术公开了一种基于图聚类的基因编码育种预测方法,包括如下步骤:
[0008]获取待预测的子代的基因型数据和基因位置信息;
[0009]基于基因型数据中基因间相关性强弱构建无向图作为基因图谱;
[0010]对基因图谱进行聚类求解,得到共同调控基因组个数和每个基因的基因组聚类编号;
[0011]融合基因型数据中每个基因对应的等位基因信息和基因组聚类编号信息,串接得到样本的基因聚类编码;
[0012]将基因聚类编码、基因位置信息输入至基因编码育种预测模型,获得待预测的子
代的生物表型信息;基于预测的子代的生物表型信息,筛选优质种子集合。
[0013]其中,所述基因编码育种预测模型是基于收集的数据集训练获得的,所述数据集的每一样本数据包括样本的基因聚类编码、基因位置信息和生物表型信息。
[0014]作为优选,生物表型信息包括目标表型相关的数量、质量、百分比、分类等可测量信息,待编码的等位基因信息包括SNP等位基因,如纯合0/0、1/1和杂合0/1等。
[0015]作为优选,对基因图谱进行聚类求解,得到共同调控基因组个数和每个基因的基因组聚类编号信息,具体如下:
[0016]基于基因图谱空间分布特征估算共同调控基因组个数,即基因聚类簇数;
[0017]根据估算的基因聚类簇数,对每个基因计算类内距离和类间距离,确定该基因归属的聚类;
[0018]聚类完成后,对每个基因聚类簇给予唯一的聚类编号信息,作为对应基因聚类簇中每个基因的基因组聚类编号。
[0019]作为优选,所述基因间相关性强弱一般通过计算每两条基因的多样本SNP位点串的相似度得到,常用方法包括Pearson相关系数、Spearman相关系数、欧式距离、余弦相似度、曼哈顿距离、汉明距离、编辑距离等;邻接边权重一般通过基因间相关性强弱或其归一化值表示。
[0020]作为优选,基因聚类方法包括空间聚类(Kmeans等)、密度聚类(DBSCAN等)、层次聚类(自底向上法和自顶向下法)、谱聚类等。
[0021]作为优选,确定基因聚类数的估算方法包括统计法、随机法、穷举法、迭代法等,其中迭代法主要指层次聚类中自底向上方或自顶向下迭代聚类确定的聚类数方法。
[0022]作为优选,其中的谱聚类法主要利用拉普拉斯矩阵等计算图的连通分量进行聚类;类内距离和类间距离的计算方法包括如前所述优选所述的基因相似度计算方法,及图连通性和邻域特征定义的类内和类间距离。
[0023]作为优选,基因聚类编号信息可由聚类方法本身给出,或通过随机方式、顺序方式给出。
[0024]作为优选基因等位信息和基因组聚类编号信息的融合方式为字符串串接方式。
[0025]作为优选,基因编码育种预测模型的结构包括基因聚类编码输入层、嵌入层、卷积层、池化层、全连接层、输出层等模块,以及提高神经网络泛化能力的策略,包括L1/L2正则化、Dropout等,优化学习算法包括Adam等。
[0026]作为优选,输入层包括步骤4中得到的基因聚类编码信息,或基因聚类编码信息附加基因位置信息,输出层包括目标任务相关的分类层或回归层,或者作为预训练的多任务分类和回归层。
[0027]作为优选,所述基因编码育种预测模型是两阶段学习训练获得,其中第一阶段学习中作为预训练的双胞胎网络,接受来自两个基因串的编码输入,并在输出层同时学习差分任务和加和任务;第二阶段学习中作为继续训练的前置固定权重网络层,参与目标任务的精调学习。
[0028]作为优选,筛选优质种子集合的方法为通过设置和优化合理阈值得到的优选种子集合及其相应亲本组合。
[0029]本专利技术的有益效果:与现有技术相比,本专利技术一种基于图聚类的基因编码育种预
测方法,先收集精准分子育种所需的待预测生物表型信息、待编码的等位基因信息;然后基于基因间相关性强弱确定基因图谱和邻接边权重;再对基因图谱进行聚类求解,得到共同调控基因组个数和每个基因的基因组聚类编号信息;接着融合基因等位信息和基因组聚类编号信息,得到样本的基因聚类编码;最后基于基因聚类编码信息,或附加基因位置信息和待预测生物表型信息,构建深度卷积神经网络,以优化基因育种预测性能;该方法充分利用基因图谱蕴含的基因间相互作用关系网络,通过图聚类提取共同调控基因组聚类信息,以及新提出融合基因等位信息和基因图谱聚类信息的基因聚类编码方式,以及附加基因位置信息,并利用深度卷积神经网络的权值共享,能够有效提取用于控制生物表型输出的调控基因特征,解决经典模型输入编码层对基因图谱间基因相互作用关系编码不足的问题,保障生物表型的基因育种预测精准性。
附图说明
[0030]图1为本专利技术实施例提供的一种基于图聚类的基因编码育种预测方法的流程图;
[0031]图2为本专利技术实施例提供的一种基于图聚类的基因编码育种预测装置的云边端协同部署示意图;
[0032]图3为本专利技术实施例提供的收集基因信息的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图聚类的基因编码育种预测方法,其特征在于,包括如下步骤:获取待预测的子代的基因型数据和基因位置信息;基于基因型数据中基因间相关性强弱构建无向图作为基因图谱;对基因图谱进行聚类求解,得到共同调控基因组个数和每个基因的基因组聚类编号;融合基因型数据中每个基因对应的等位基因信息和基因组聚类编号信息,串接得到样本的基因聚类编码;将基因聚类编码、基因位置信息输入至基因编码育种预测模型,获得待预测的子代的生物表型信息;基于预测的子代的生物表型信息,筛选优质种子集合。其中,所述基因编码育种预测模型是基于收集的数据集训练获得的,所述数据集的每一样本数据包括样本的基因聚类编码、基因位置信息和生物表型信息。2.根据权利要求1所述的方法,其特征在于,所述基因间相关性强弱通过计算基因型数据中两两基因的多SNP位点串的相似度得到,方法包括Pearson相关系数、Jaccard相关系数、Spearman相关系数、欧式距离、夹角余弦相似度、曼哈顿距离、汉明距离、编辑距离、切比雪夫距离、闵可夫斯基距离和信息熵;计算得到的相似度作为邻接边权重构建无向图。3.根据权利要求1所述的方法,其特征在于,对基因图谱进行聚类求解,得到共同调控基因组个数和每个基因的基因组聚类编号信息,具体如下:基于基因图谱空间分布特征估算共同调控基因组个数,即基因聚类簇数;根据估算的基因聚类簇数,对每个基因计算类内距离和类间距离,确定该基因归属的聚类;聚类完成后,对每个基因聚类簇给予唯一的聚类编号信息,作为对应基因聚类簇中每...

【专利技术属性】
技术研发人员:吕劲松陈红阳王浩冯献忠
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1