一种基于混合协同过滤算法的作物育种品种推荐方法技术

技术编号:17780406 阅读:80 留言:0更新日期:2018-04-22 09:16
本发明专利技术公开了一种基于混合协同过滤算法的作物育种品种推荐方法,包括如下步骤:步骤1,将对照品种数据和待审核品种数据进行数据预处理,以得到品种‑性状数据表;步骤2,对品种‑性状数据表进行聚类,从而得到多个聚类簇;步骤3,查找包含对照品种‑性状数据表的第一聚类簇;步骤4,计算第一聚类簇中待审核品种与对照品种的相似度,筛选出相似度高的待审核品种;步骤5,将筛选出的待审核品种作为作物育种的推荐品种。本发明专利技术能够有效降低计算损耗,特别是在商业化育种时,本发明专利技术可提高工作人员的工作效率,大大降低人工成本,能够完成多位育种专家需要进行的工作,从而满足大规模育种数据分析的需求。

【技术实现步骤摘要】
一种基于混合协同过滤算法的作物育种品种推荐方法
本专利技术涉及作物育种
,更为具体来说,本专利技术为一种基于混合协同过滤算法的作物育种品种推荐方法。
技术介绍
自新一代测序技术高速发展以来,作物育种研究产生了海量的数据,整合和最大化利用这些生物学数据,无疑对现代育种研究具有不可估量的重要意义。然而,因为育种行业比较专业、对专业背景需求较高,现有的育种数据分析方法仍局限在基于统计学的方法上,大都依靠专家经验进行数据分析,而且存在主观性较强、分析结果比较局限等问题,不能广泛地适应育种行业领域,更无法满足商业化需求。因此,如何避免育种数据分析方法对专家经验的依赖、并使作物育种品种评价满足商业化需求,成为了本领域技术人员亟待解决的技术问题和始终研究的重点。
技术实现思路
为解决传统育种数据分析方法存在的主观性强、无法满足商业化需求等问题,本专利技术创新地提出了一种基于混合协同过滤算法的作物育种品种推荐方法,将协同过滤算法和K-means算法应用在育种品种评估上,结合育种工作的实际需求,使作物育种品种评估更为有效和可靠,从而解决了现有技术存在的诸多问题。为实现上述技术目的,本专利技术公开了一种基于混合协同过滤算法的作物育种品种推荐方法,该推荐方法包括如下步骤;步骤1,获取对照品种数据和待审核品种数据,对已获取的所有品种数据进行数据预处理,以得到品种-性状数据表,且所述品种-性状数据表包括对照品种-性状数据表和待审核品种-性状数据表;步骤2,对所述品种-性状数据表进行聚类,从而得到多个聚类簇;步骤3,在所述多个聚类簇中,查找包含对照品种-性状数据表的第一聚类簇;步骤4,计算所述第一聚类簇中待审核品种与对照品种的相似度,并按照相似度由高到低的顺序筛选出至少一个待审核品种;步骤5,将筛选出的待审核品种作为作物育种的推荐品种。本专利技术不仅能有效避免对专家经验的依赖、提高了作物育种品种评估的可靠性和有效性,而且极大节省了人力物力,从而满足商业化作物育种品种推荐的需要。进一步地,步骤2中,采用K-means聚类分析方式对所述品种-性状数据表进行聚类。进一步地,步骤2包括如下步骤;步骤21,将每个品种-性状数据表作为一个数据对象,然后随机设置K个中心对象;步骤22,分别计算每个数据对象到各中心对象的欧氏距离;对于任一数据对象,将该数据对象与其欧氏距离最小的中心对象放入一个类集合中,从而形成K个类集合,其中,K≥2;步骤23,对于任一类集合,将该类集合中所有数据对象的均值作为新中心对象;步骤24,判断新中心对象与上次的中心对象是否相同;如果相同,则执行步骤25;如果不同,则返回步骤22;步骤25,将最终确定的K个类集合作为K个聚类簇。基于上述改进的技术方案,本专利技术能够有效减少搜索目标品种所损耗的时间,以避免重复计算、提高搜索效率,从而极大地提高作物育种品种推荐的质量和效率。进一步地,步骤2中,通过如下方式计算欧氏距离:其中,Dab表示欧氏距离,x1表示数据对象,x2表示中心对象,a1…ak表示每个数据对象内的性状数据,b1…bk表示每个中心对象内的数据。进一步地,步骤4中,通过如下方式计算待审核品种与对照品种的相似度:其中,sim(u,t)表示相似度,pi表示待审核品种的性状数据,qi表示对照品种的性状数据,n表示性状个数,u表示待审核品种,t表示对照品种。进一步地,步骤4中,为筛选出的待审核品种进行评分,并根据评分由高到低的顺序对筛选出的待审核品种进行排序;步骤5中,依据排序结果生成包含推荐品种的推荐列表,将所述推荐列表推送给育种人员。进一步地,步骤4中,依据对照品种的评分为筛选出的待审核品种进行评分。进一步地,步骤4中,通过如下方式为筛选出的待审核品种进行评分:其中,Pu,t表示待审核品种的评分,表示对照品种的评分,N={n1,n2,…,nk}表示筛选出的所有待审核品种的集合,sim(t,n)表示对照品种与待审核品种的相似度,Du,t表示当前待审核品种u与对照品种t之间的欧氏距离。基于上述改进的技术方案,本专利技术能得到更为准确和可靠的作物育种品种推荐结果。进一步地,步骤1中,数据预处理过程中,通过如下方式对性状数据进行归一化:其中,X*表示归一化后的性状数据,X表示原始性状数据,min表示样本性状数据中的最小值,max表示样本性状数据中的最大值。基于上述改进的技术方案,本专利技术能够考虑更多有效的性状数据,为后期的数据处理过程做充足的准备,从而使得本专利技术的推荐方法更为准确和可靠。进一步地,所述对照品种为丰产性的品种或抗病性强的品种。与现有针对不同的育种需求而需要不同的育种分析过程相比,本专利技术提供的技术方案不需要重新设计分析过程,只要选择合适的对照品种数据即可;因此,本专利技术能够节省大量的人力成本投入。本专利技术的有益效果为:本专利技术创新地将协同过滤算法和K-means算法的结合应用于作物育种品种推荐上,根据品种的性状数据进行聚类,使得相似的品种能聚集在一个聚类簇内,不同簇间的品种相似度较低,针对性分析某个聚类簇,从而达到降低计算损耗的目的;特别是在商业化育种时,本专利技术可提高工作人员的工作效率,大大降低人工成本,可完成多位育种专家需要进行的工作,从而满足大规模育种数据分析的需求。附图说明图1为一种基于混合协同过滤算法的作物育种品种推荐方法的流程示意图。图2为依据本专利技术生成的混合协同过滤算法推荐模型示意图。具体实施方式下面结合说明书附图对本专利技术的基于混合协同过滤算法的作物育种品种推荐方法进行详细的解释和说明。如图1、图2所示,本专利技术公开了一种基于混合协同过滤算法的作物育种品种推荐方法,本专利技术涉及的品种数据包含大量的育种品种及其性状表型数据,并将协同过滤算法和K-means算法结合后形成混合协同过滤算法,基于此,该推荐方法包括如下步骤。步骤1,获取对照品种数据和待审核品种数据,对已获取的所有品种数据进行数据预处理,以得到品种-性状数据表,且品种-性状数据表包括对照品种-性状数据表和待审核品种-性状数据表,本实施例中,对照品种为丰产性的品种或抗病性强的品种,当然,本专利技术也适用于其他类型的品种,比如,稳产性的品种等。另外,本专利技术还在数据预处理过程中对多种类型或单位的数据进行规范化和归一化的预处理;具体如下。育种家对育种品种的评价结果通常为离散型的描述语言,本专利技术还对性状特征集合中每种性状特征进行规范化处理,包括统一量化方式、统一计量单位以及统一表现形式。如倒折率以百分比表示,数值范围大多徘徊在1%-10%之间,而亩产以KG表示,数值范围在600KG左右。数值差异较大,不利于后期数据处理,为了消除性状数据之间的这种量纲影响,对实验数据进行归一化处理。通过如下方式对性状数据进行归一化处理:其中,X*表示归一化后的性状数据,X表示原始性状数据,min表示样本性状数据中的最小值,max表示样本性状数据中的最大值。步骤2,对品种-性状数据表进行聚类,从而得到多个聚类簇,比如,得到K个聚类簇;本实施例中,采用K-means聚类分析方式对品种-性状数据表进行聚类,具体包括如下子步骤。步骤21,将每个品种-性状数据表作为一个数据对象,然后随机设置K个中心对象(即随机选取K个中心点);步骤22,分别计算每个数据对象到各中心对象的欧氏距离;对于任一数据对象,将该数据对本文档来自技高网...
一种基于混合协同过滤算法的作物育种品种推荐方法

【技术保护点】
一种基于混合协同过滤算法的作物育种品种推荐方法,其特征在于:该推荐方法包括如下步骤;步骤1,获取对照品种数据和待审核品种数据,对已获取的所有品种数据进行数据预处理,以得到品种‑性状数据表,且所述品种‑性状数据表包括对照品种‑性状数据表和待审核品种‑性状数据表;步骤2,对所述品种‑性状数据表进行聚类,从而得到多个聚类簇;步骤3,在所述多个聚类簇中,查找包含对照品种‑性状数据表的第一聚类簇;步骤4,计算所述第一聚类簇中待审核品种与对照品种的相似度,并按照相似度由高到低的顺序筛选出至少一个待审核品种;步骤5,将筛选出的待审核品种作为作物育种的推荐品种。

【技术特征摘要】
1.一种基于混合协同过滤算法的作物育种品种推荐方法,其特征在于:该推荐方法包括如下步骤;步骤1,获取对照品种数据和待审核品种数据,对已获取的所有品种数据进行数据预处理,以得到品种-性状数据表,且所述品种-性状数据表包括对照品种-性状数据表和待审核品种-性状数据表;步骤2,对所述品种-性状数据表进行聚类,从而得到多个聚类簇;步骤3,在所述多个聚类簇中,查找包含对照品种-性状数据表的第一聚类簇;步骤4,计算所述第一聚类簇中待审核品种与对照品种的相似度,并按照相似度由高到低的顺序筛选出至少一个待审核品种;步骤5,将筛选出的待审核品种作为作物育种的推荐品种。2.根据权利要求1所述的基于混合协同过滤算法的作物育种品种推荐方法,其特征在于:步骤2中,采用K-means聚类分析方式对所述品种-性状数据表进行聚类。3.根据权利要求2所述的基于混合协同过滤算法的作物育种品种推荐方法,其特征在于:步骤2包括如下步骤;步骤21,将每个品种-性状数据表作为一个数据对象,然后随机设置K个中心对象;步骤22,分别计算每个数据对象到各中心对象的欧氏距离;对于任一数据对象,将该数据对象与其欧氏距离最小的中心对象放入一个类集合中,从而形成K个类集合,其中,K≥2;步骤23,对于任一类集合,将该类集合中所有数据对象的均值作为新中心对象;步骤24,判断新中心对象与上次的中心对象是否相同;如果相同,则执行步骤25;如果不同,则返回步骤22;步骤25,将最终确定的K个类集合作为K个聚类簇。4.根据权利要求3所述的基于混合协同过滤算法的作物育种品种推荐方法,其特征在于:步骤2中,通过如下方式计算欧氏距离:其中,Dab表示欧氏距离,x1表示数据对象,x2表示中心对象,a1…ak表示每个数据对象内的性状数据,b1…bk表示每个中心对象内的数据。5.根据权利要求4所述的基于混合协同过滤算法的作物育种品种推荐方法,其特征在于:步骤4中,通过如下方式计算待审核品种与对照品种的相似度:

【专利技术属性】
技术研发人员:赵刚王碰毛欣孙若莹
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1