当前位置: 首页 > 专利查询>暨南大学专利>正文

一种用于评估婴幼儿肠道菌群发育年龄的预测方法技术

技术编号:24097732 阅读:47 留言:0更新日期:2020-05-09 11:15
本发明专利技术公开的一种用于评估婴幼儿肠道菌群发育年龄的预测方法,包括以下步骤:获取婴幼儿的肠道菌群数据;利用所述肠道菌群数据为基础,通过线性判别分析和随机森林构建预测模型,即分类数据模型;将待测样品输入预测模型进行预测,输出分类数据,得到预测结果;根据预测结果得到待测样品的肠道菌群发育年龄段;把得到待测样品的肠道菌群发育年龄段跟实际年龄进行比较,判断婴幼儿的肠道是否出现絮乱或者发育偏差;本发明专利技术采用线性判别分析和随机森林结合,构建预测模型,大大提高了准确率,通过预测模型预测出对应年龄,然后通过预测年龄和实际年龄的比较来评估菌群是否发育失调。

A prediction method for the development age of intestinal flora in infants

【技术实现步骤摘要】
一种用于评估婴幼儿肠道菌群发育年龄的预测方法
本专利技术涉及肠道菌群预测的研究领域,特别涉及一种用于评估婴幼儿肠道菌群发育年龄的预测方法。
技术介绍
现有技术中,对人体肠道微生物的检测方法比较少,如CN109448842A专利,没有使用线性判别,该专利的内容不针对婴儿,也不针对新增单独个体的判断,主要评估人体肠道微生态是否失衡,并不预测年龄,而且并没有使用年龄这个参照,且预测的准确率不足70%,如CN108345768A专利,是预测菌群成熟度的,并不是预测年龄的,且预测的准确率也较低,肠道微生态的失衡既是亚健康的结果,同时也可能加重亚健康,导致疾病的发生。肠道微生态是机体最重要、最庞大,尤为特殊的生态系统。肠道内大量微生物菌时刻处在动态平衡和相对稳定之中。众多因素影响这个平衡。人体亚健康的发生、发展和治疗转归均伴随着肠道微生态正常菌群的变化或失衡,进而影响婴幼儿的生长发育。但是,到目前为止,还没有很好的预测婴幼儿肠道菌群发育年龄的方法。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提供一种用于评估婴幼儿肠道菌群发育年龄的预测方法,建立预测模型,通过预测肠道菌群的年龄,进而判断肠道菌群是否发育失调。本专利技术的目的通过以下的技术方案实现:一种用于评估婴幼儿肠道菌群发育年龄的预测方法,其特征在于,包括以下步骤:获取婴幼儿的肠道菌群数据为原始数据,并存储在数据库的基准数据集中;利用所述肠道菌群数据为基础,通过线性判别分析进行预处理,得到分类数据,通过随机森林训练构建预测模型;将待测样品输入预测模型进行预测,得到预测结果,根据预测结果得到待测样品的肠道菌群发育年龄段;把得到待测样品的肠道菌群发育年龄段跟实际年龄进行比较,判断婴幼儿的肠道是否出现絮乱或者发育偏差。进一步地,所述获取婴幼儿的肠道菌群数据具体如下:通过16S扩增子测序技术进行测序并进行分析,收集1-48个月的健康婴幼儿排泄物进行测试并对婴幼儿状况进行观察和记录在数据库的基准数据集中。进一步地,所述肠道菌群数据为带标签的525维10分类数据,其中,525维是指菌群结构是由525个菌种分类单元构成;10分类数据包括1-48个月的8个分类以及青年和中老年两个分类组成。进一步地,所述构建预测模型具体为:利用肠道菌群数据为基础及对应的采样年龄信息,采用线性判别分析对带标签的525维10分类数据进行预处理,即进行降维,得到低维数据;采用随机森林将低维数据划分训练数据和测试数据,并将基础分类器个数设置为K,进行训练,得到预测模型。进一步地,所述训练数据与测试数据比例为7∶3;所述基础分类器个数K>100。进一步地,所述进行预测,得到预测结果,具体为:根据分类数据确定原始数据集各个原始特征重要性,即原始菌群的特征重要性,并对线性判别分析转换得到的新特征分别进行乱序排列操作,得到乱序排列特征,再次利用随机森林对乱序特征进行分类,根据每一次得到的预测模型精度和原模型精度的差值,判断每一个乱序排列特征的重要性,得到乱序排列重要性;计算每个原始特征和每个乱序排列特征之间的相关系数,确定原始特征和乱序排列特征之间的相关性,得到原始特征和乱序排列特征之间的Pearson相关系数绝对值作为权重,其中,计算原始特征的特征重要性如下:其中,Fi为第i个原始菌种的特征重要性,pi,j为第i个原始菌种和第j个新特征之间的Pearson相关系数,fj为第j个新特征的乱序排列重要性。进一步地,把得到待测样品的肠道菌群发育年龄段跟实际年龄进行比较,判断婴幼儿的肠道是否出现絮乱或者发育偏差,具体为:若预测所得年龄段和测试目标个体采样的实际年龄偏差小于N个月,则为正常;如果偏差大于N个月则为菌群发育失调,需要根据实际情况进一步制定干预方案。进一步地,所述N为12。本专利技术与现有技术相比,具有如下优点和有益效果:本专利技术通过扩增子测序采集数据建立数据集,采用线性判别分析和随机森林建立预测模型,支持这种多年龄段的判别,覆盖范围广,提高预测准确度,关注婴幼儿肠道菌群发育情况,能提早避免因为菌群紊乱导致的后续一系列的免疫、代谢、神经系统等的问题,对优育有着重要意义。附图说明图1为本专利技术所述一种用于评估婴幼儿肠道菌群发育年龄的预测方法流程图。图2为本专利技术所述实施例中预测准确率示意图。具体实施方式下面结合实施例及附图对本专利技术作进一步详细的描述,但本专利技术的实施方式不限于此。实施例一种用于评估婴幼儿肠道菌群发育年龄的预测方法,如图1所示,包括以下步骤:获取婴幼儿的肠道菌群数据;因为粪便中的肠道微生物的组成是实时变化的,且受到许多不同的短期因素的影响(如抗生素使用、益生菌摄入、疾病状态等)。所以,为了建立覆盖健康婴幼儿发育年龄跨度的基准数据集,收集了1、6、12、18、24、30、36、48个月的健康婴幼儿的粪便,这些婴幼儿在收样时并没有肠道相关的病症(如便秘或腹泻),也没有出现免疫激活类疾病(如感冒和发烧),一个月内没有服用抗生素和益生菌、益生元制剂。收样时,采集人员都会对婴儿的状况进行观察并记录。粪便放置到三个采集管内,置于干冰中保存并迅速返回实验室放置于负80度冰箱,如果是有常温保存液的保存管,可以在常温下保存2周;如果是空的保存管,必须放置于干冰或其他低温环境中不超过24小时,并尽快转移到低温冰箱或者进行DNA提取。对样品进行DNA提取,然后进行样品制备;样品制备后上测序仪进行扩增子测序,获得扩增子测序结果。4、进行扩增子测序数据的分析,获取肠道菌群数据。样品提取到的DNA使用Qubit仪器检查浓度以及琼脂糖凝胶电泳观察质量。扩增子测序选用了16SrRNA的V4区(前引物为:515F:5’-GTGCCAGCMGCCGCGGTAA-3’和后引物为:806R:5’-GGACTACHVGGGTWTCTAAT-3’)。引物序列上有Illumina的3’端链接序列和12bp长的样品识别序列.测序使用的是IlluminaMiSeq和HiSeq2500平台。测序下级后数据根据样品识别序列,分别获取到不同样品的具体数据集。数据使用FLASH软件进行双端拼接和祛除低质量的片段。并且使用了USEARCH方法和GreenGene数据库进行了嵌合体的祛除提高数据纯度。最后,整个菌群结构的分析,实用的是QIIME工具包。利用所述肠道菌群数据为基础,通过线性判别分析和随机森林构建预测模型;待处理数据MINdepth-L7是一个带标签的525维的10分类数据,为了处理这个分类问题,并提取出重要的特征,先后采用了线性判别分析(LDA)对分类数据进行有监督地预处理,得到分类数据,并通过随机森林(RandomForest)的多分类方法,训练得到一个可对相关数据进行多分类的预测模型。其中为了将高维的数据集转换得到更容易处理的形式,利用线性判断分析(LDA)有监督地本文档来自技高网...

【技术保护点】
1.一种用于评估婴幼儿肠道菌群发育年龄的预测方法,其特征在于,包括以下步骤:/n获取婴幼儿的肠道菌群数据为原始数据,并存储在数据库的基准数据集中;/n利用所述肠道菌群数据为基础,通过线性判别分析进行预处理,得到分类数据,通过随机森林训练构建预测模型;/n将待测样品输入预测模型进行预测,得到预测结果,根据预测结果得到待测样品的肠道菌群发育年龄段;/n把得到待测样品的肠道菌群发育年龄段跟实际年龄进行比较,判断婴幼儿的肠道是否出现絮乱或者发育偏差。/n

【技术特征摘要】
1.一种用于评估婴幼儿肠道菌群发育年龄的预测方法,其特征在于,包括以下步骤:
获取婴幼儿的肠道菌群数据为原始数据,并存储在数据库的基准数据集中;
利用所述肠道菌群数据为基础,通过线性判别分析进行预处理,得到分类数据,通过随机森林训练构建预测模型;
将待测样品输入预测模型进行预测,得到预测结果,根据预测结果得到待测样品的肠道菌群发育年龄段;
把得到待测样品的肠道菌群发育年龄段跟实际年龄进行比较,判断婴幼儿的肠道是否出现絮乱或者发育偏差。


2.根据权利要求1所述的一种用于评估婴幼儿肠道菌群发育年龄的预测方法,其特征在于,所述获取婴幼儿的肠道菌群数据具体如下:通过16S扩增子测序技术进行测序并进行分析,收集1-48个月的健康婴幼儿排泄物进行测试并对婴幼儿状况进行观察和记录在数据库的基准数据集中。


3.根据权利要求2所述的一种用于评估婴幼儿肠道菌群发育年龄的预测方法,其特征在于,所述肠道菌群数据为带标签的525维10分类数据,其中,525维是指菌群结构是由525个菌种分类单元构成;10分类数据包括1-48个月的8个分类以及青年和中老年两个分类组成。


4.根据权利要求3所述的一种用于评估婴幼儿肠道菌群发育年龄的预测方法,其特征在于,所述构建预测模型具体为:
利用肠道菌群数据为基础及对应的采样年龄信息,采用线性判别分析对带标签的525维10分类数据进行预处理,即进行降维,得到低维数据;采用随机森林将低维数据划分训练数据和测试数据,并将基础分类器个数设置为K,进行训练,得到预测模型。


5.根据权利...

【专利技术属性】
技术研发人员:杨恒文谭宇翔钟竞辉尹芝南
申请(专利权)人:暨南大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1