当前位置: 首页 > 专利查询>浙江大学专利>正文

基于机器学习的微生物高维数据处理和关键菌属识别方法技术

技术编号:38876219 阅读:33 留言:0更新日期:2023-09-22 14:09
本申请涉及一种基于机器学习的微生物高维数据处理和关键菌属识别方法,属于数据处理技术领域,数据处理方法包括:获取微生物高维数据;对所述微生物高维数据进行功能划分,得到多个类型功能,其中,每个所述类型功能均包括多个功能因子;从所有功能因子中选取浓缩因子;分别计算每个所述类型功能下各浓缩因子与微生物应用质量的相关性数值,基于所述相关性数值确定各类型功能的提取比例,按照所述提取比例提取各类型功能的微生物菌属;基于提取的微生物菌属对所述微生物高维数据进行筛选,得到微生物降维数据。本申请在有效降低微生物高维数据维度的同时,还能保证后续关键微生物菌属识别的代表性和全面性。属识别的代表性和全面性。属识别的代表性和全面性。

【技术实现步骤摘要】
基于机器学习的微生物高维数据处理和关键菌属识别方法


[0001]本申请涉及数据处理
,尤其是涉及一种基于机器学习的微生物高维数据处理和关键菌属识别方法。

技术介绍

[0002]微生物发酵是指利用微生物,在适宜的条件下,将原料经过特定的代谢途径转化为人类所需要的产物的过程。基于此,微生物可广泛应用于食品、医药、工农业、环保等诸多领域。例如,利用微生物发酵工程降解塑料、处理废水废气、有机固废、生产乙醇、食品及各种酶制剂、防治害虫等。
[0003]对于不同领域的微生物应用环境,其所适用的微生物菌属也是千差万别的,关键微生物菌属的筛选结果会对微生物应用效果会起到关键性作用。因此,针对某种特定应用环境,添加何种外源微生物是微生物应用中很重要的步骤。
[0004]近年来,机器学习技术在微生物应用领域的研究日益广泛,机器学习模型可以实现微生物菌属关键指标的确定。但当前主要集中在理化指标的研究上,缺乏对微生物数据的建模分析。运用机器学习模型识别关键微生物菌属的一个难点在于微生物数据高维的特性,特征数量(属水平的微生物数量)多于样本数将会导本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种微生物高维数据处理方法,其特征在于,包括:获取微生物高维数据;对所述微生物高维数据进行功能划分,得到多个类型功能,其中,每个所述类型功能均包括多个功能因子;从所有功能因子中选取浓缩因子;分别计算每个所述类型功能下各浓缩因子与微生物应用质量的相关性数值,基于所述相关性数值确定各类型功能的提取比例,按照所述提取比例提取各类型功能的微生物菌属;基于提取的微生物菌属对所述微生物高维数据进行筛选,得到微生物降维数据。2.根据权利要求1所述的方法,其特征在于,所述对所述微生物高维数据进行功能划分,得到多个类型功能包括:将所有微生物高维数据汇总成一个文件;保留属水平上的微生物群落,将相同的微生物菌属合并相加,去除OTU 数为预设值的微生物菌属;将所述文件拆分成物种丰度信息文件和物种分类注释文件;在Python环境下运行FAPROTAX 脚本,对所述物种丰度信息文件和所述物种分类注释文件进行功能划分,得到所述多个类型功能。3.根据权利要求1或2所述的方法,其特征在于,所述从所有功能因子中选取浓缩因子包括:利用因子分析方法分别计算每个所述类型功能下各功能因子的特征值,选取大于第一预设阈值的特征值对应的功能因子,作为所述浓缩因子。4.根据权利要求3所述的方法,其特征在于,还包括:若满足预设条件,则执行所述利用因子分析方法分别计算每个所述类型功能下各功能因子的特征值,选取大于第一预设阈值的特征值对应的功能因子,作为所述浓缩因子的步骤;其中,所述预设条件包括通过Bartlett's球状检验检测矩阵不是单位阵,以及通过KMO检测各变量间的相关值均大于第二预设阈值。5.根据权利要求1至4任一项所述的方法,其特征在于,所述基于所述相关性数值确定各类型功能的提取比例包括:分别基于每个所述类型功能下所有浓缩因子与微生物应用质量的相关性数值,计算每个所述类型功能的平均相关性数值;分别基于每个所述类型功能的平均相关性数值,计算每个所述类型功能的相关性占比;对各类型功能的相关性占比进行近似估算,得到所述各类型功能的提取比例;和/或,所述按照所述提取比例提取各类型功能的微生物菌属包括:基于预设的提取总数和所述提取比例,确定每个所述类型功能对应的子提取数量;计算每个所述类型功能下各微生物菌属的相对丰度,并对每个所述类型功能下各微生物菌属的所有相对丰度进行排序,生成每个所述类型功能的相对丰度序列;基于每...

【专利技术属性】
技术研发人员:楼莉萍丁尚胡集源黄吴吉
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1