基于肠道菌群丰度的分类器建模评价校验方法及系统技术方案

技术编号:16819412 阅读:76 留言:0更新日期:2017-12-16 12:57
本发明专利技术涉及基于肠道菌群丰度的分类器建模评价校验方法及系统,该方法包括:分别获取健康人群和结直肠癌患者的年龄、性别、肥胖指数以及肠道菌群的DNA序列,将获取的肠道菌群的DNA序列进行质量控制,并获取肠道菌群的DNA序列中的肠道菌群丰度,构建样本集;将样本集划分为训练样本集和测试样本集,分别运用支持向量机和人工神经网络进行训练和预测,并分别选取支持向量机和人工神经网络的预测结果的部分样本作为训练集,其余作为测试集重新返回到支持向量机模型中得出最后的分类预测结果,构建出分类器模型;根据评价指标评价构建出的分类器模型,并选用检验方法对构建出的分类器模型进行校验,评价指标包括:敏感性、特异性和精确度。

Calibration method and system for classifier modeling based on the abundance of intestinal flora

The invention relates to a method and a system for evaluation of classifier modeling verification based on the abundance of intestinal flora, the method includes: obtaining colorectal cancer patients and healthy subjects of age and sex, obesity index and intestinal flora of the intestinal flora DNA sequences, DNA sequences obtained in quality control, and obtain the abundance of intestinal flora DNA series of intestinal flora in the construction of the sample set; the sample set is divided into training set and test set, respectively, using the training and prediction of support vector machines and artificial neural network, some samples were selected and the prediction results of support vector machines and artificial neural network as training set, the other as the test set return to the final results of the classification and prediction model of support vector machine, construct the classifier model; according to the evaluation to construct the classifier The model is used to verify the classifier model, which includes sensitivity, specificity and accuracy.

【技术实现步骤摘要】
基于肠道菌群丰度的分类器建模评价校验方法及系统
本专利技术属于人工神经网络分类预测的
,尤其涉及一种基于肠道菌群丰度的分类器建模评价校验方法及系统。
技术介绍
随着社会的发展和生活水平的提高,人们的生活方式发生了极大的变化。生活节奏加快使得人们容易忽视自身的身体健康,降低了对于一些发病较慢的“隐性”疾病警惕性,如结直肠癌。结直肠癌是最常见的恶性肿瘤之一,在西方发达国家其发病率位居各种恶性肿瘤的第2位;在中国发病率和死亡率在癌症中均位列第3—5位,而在我国的大城市,其发病率位列第2或3位。全球每年约有120万人罹患结直肠癌,死于该病的患者高达60万人,已经对人类的健康造成严重威胁。结直肠癌具有生物学行为复杂多变、容易复发转移以及抵抗化疗药物等特点,因此,尽可能阐明该疾病发生进展的机制,寻找早期、有效的预测方法是结直肠癌研究的重点。然而,现有的方法需要结合医生的经验得出最终的结果,具有两个局限性:(1)离不开医生的经验,准确性难以保证;(2)在疾病早期预测困难。针对当前结直肠癌诊断手段的局限性,融入机器学习中算法的疾病预测模型成为研究的重点。支持向量机和人工神经网络算法是经典的分类预测算法,被广泛应用于社交、交通等不同方面,并且得到很好的分类预测效果。然而,人工神经网络本身存在缺点:极易陷入局部最小值,且不适合用于小规模数据的训练。支持向量机则是可以获取到全局最优解,但是适合比较小的数据集的预测。大量的工作表明在结直肠癌患病的不同阶段(阶段I-III),肠道中的菌群含量是不同的,肠道菌群的丰度变化是判断是否患病的重要指标。综上所述,在现有技术中如何解决使用机器学习中人工神经网络算法构建基于肠道菌群丰度的分类器的准确度与精确度的问题,尚缺乏有效的解决方案。本专利技术涉及到两种机器学习算法:支持向量机算法和人工神经网络算法,针对机器学习中支持向量机算法和人工神经网络算法的缺点,提出基于肠道菌群丰度的支持向量机和人工神经网络相结合的分类器建模方法,并应用到结直肠癌的预测中,并对应用于结直肠癌的分类器进行评价与校验,进而达到提高结直肠癌预测准确率与精确度的效果。
技术实现思路
本专利技术为了解决上述问题,本专利技术提供一种基于肠道菌群丰度的分类器建模评价校验方法及系统,本专利技术将支持向量机和人工神经网络算法进行结合构建分类器模型,从很大程度上避免两个单独模型的缺点,弥补单纯的人工神经网络算法极易陷入局部最小值且不适合用于小规模数据的训练的不足,有效实现提高结直肠癌预测准确率与精确度。本专利技术的第一目的是提供一种基于肠道菌群丰度的分类器建模评价校验方法。为了实现上述目的,本专利技术采用如下一种技术方案:一种基于肠道菌群丰度的分类器建模评价校验方法,该方法包括:(1)分别获取健康人群和结直肠癌患者的年龄、性别、肥胖指数以及肠道菌群的DNA序列,将获取的肠道菌群的DNA序列进行质量控制,并获取肠道菌群的DNA序列中的肠道菌群丰度,构建样本集;(2)将样本集划分为训练样本集和测试样本集,分别运用支持向量机和人工神经网络进行训练和预测,并分别选取支持向量机和人工神经网络的预测结果的部分样本作为训练集,其余作为测试集重新返回到支持向量机模型中得出最后的分类预测结果,构建出分类器模型;(3)根据评价指标评价构建出的分类器模型,并选用检验方法对构建出的分类器模型进行校验,评价指标包括:敏感性、特异性和精确度。作为进一步的优选方案,所述步骤(1)中,将获取的肠道菌群的DNA序列进行质量控制包括:将获取的肠道菌群的DNA序列中质量低于33的碱基去掉。作为进一步的优选方案,所述步骤(1)中,将获取肠道菌群的DNA序列中的肠道菌群丰度包括:分别从界、门、纲、目、科、属、种七种水平上对各种肠道菌群的含量进行分析,获取肠道菌群的DNA序列中的肠道菌群丰度。作为进一步的优选方案,所述步骤(1)中,构建的样本集中每个样本均包括:年龄、性别、肥胖指数、肠道菌群丰度和样本所属人群,所述样本所属人群包括健康人群和结直肠癌患者人群。作为进一步的优选方案,所述步骤(2)的具体步骤为:(2-1)将样本集划分为训练样本集和测试样本集,样本集的三分之二样本数据设置为训练样本集,样本集的剩余三分之一数据设置为测试样本集,训练样本集和测试样本集输入支持向量机模型进行训练和预测得到第一预测结果,同时训练样本集和测试样本集输入人工神经网络模型进行训练和预测得到第二预测结果;(2-2)分别从第一预测结果和第二预测结果中选取部分样本作为训练集,第一预测结果和第二预测结果中剩余样本作为测试集,将训练集和测试集输入人工神经网络模型进行再次训练和预测,得出最后的分类预测结果,构建出分类器模型。作为进一步的优选方案,所述步骤(3)中,评价指标的敏感性为:其中,Sensitivity为敏感性,表示患者被正确预测为患病的百分比,TP为患者被预测为阳性的样本数量,FN为患者被预测为健康的样本数量;评价指标的特异性为:其中,Specificity为特异性,表示健康人被预测为健康的百分比,TN为健康人被正确预测为健康的样本数量,FP为健康人被预测为患者的样本数量;评价指标的准确率为:其中,Accuracy为准确率,表示样本被正确预测的百分比,TP为患者被预测为阳性的样本数量,FN为患者被预测为健康的样本数量,TN为健康人被正确预测为健康的样本数量,FP为健康人被预测为患者的样本数量。作为进一步的优选方案,所述步骤(3)中,具体选用K折交叉验证法作为检验方法对构建出的分类器模型进行校验:将样本集随机平均分成k个子集,1组作为测试样本,其余的K-1组作为训练样本;将训练样本输入分类器模型,并使用测试样本测试分类器模型,得到分类率;重复上述过程,计算k次求得的分类率的平均值,作为分类器模型的真实分类率。本专利技术的第二目的是提供一种基于肠道菌群丰度的分类器模型。为了实现上述目的,本专利技术采用如下一种技术方案:一种基于肠道菌群丰度的分类器模型,该模型基于一种基于肠道菌群丰度的分类器建模评价校验方法构建:(1)分别获取健康人群和结直肠癌患者的年龄、性别、肥胖指数以及肠道菌群的DNA序列,将获取的肠道菌群的DNA序列进行质量控制,并获取肠道菌群的DNA序列中的肠道菌群丰度,构建样本集;(2)将样本集划分为训练样本集和测试样本集,分别运用支持向量机和人工神经网络进行训练和预测,并分别选取支持向量机和人工神经网络的预测结果的部分样本作为训练集,其余作为测试集重新返回到支持向量机模型中得出最后的分类预测结果,构建出分类器模型;(3)根据评价指标评价构建出的分类器模型,并选用检验方法对构建出的分类器模型进行校验,评价指标包括:敏感性、特异性和精确度。本专利技术的第三目的是提供一种计算机可读存储介质。为了实现上述目的,本专利技术采用如下一种技术方案:一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行以下处理:(1)分别获取健康人群和结直肠癌患者的年龄、性别、肥胖指数以及肠道菌群的DNA序列,将获取的肠道菌群的DNA序列进行质量控制,并获取肠道菌群的DNA序列中的肠道菌群丰度,构建样本集;(2)将样本集划分为训练样本集和测试样本集,分别运用支持向量机和人工神经网络进行训练和预测,并分别选取支持向量机和本文档来自技高网
...
基于肠道菌群丰度的分类器建模评价校验方法及系统

【技术保护点】
一种基于肠道菌群丰度的分类器建模评价校验方法,其特征是:该方法包括:(1)分别获取健康人群和结直肠癌患者的年龄、性别、肥胖指数以及肠道菌群的DNA序列,将获取的肠道菌群的DNA序列进行质量控制,并获取肠道菌群的DNA序列中的肠道菌群丰度,构建样本集;(2)将样本集划分为训练样本集和测试样本集,分别运用支持向量机和人工神经网络进行训练和预测,并分别选取支持向量机和人工神经网络的预测结果的部分样本作为训练集,其余作为测试集重新返回到支持向量机模型中得出最后的分类预测结果,构建出分类器模型;(3)根据评价指标评价构建出的分类器模型,并选用检验方法对构建出的分类器模型进行校验,评价指标包括:敏感性、特异性和精确度。

【技术特征摘要】
1.一种基于肠道菌群丰度的分类器建模评价校验方法,其特征是:该方法包括:(1)分别获取健康人群和结直肠癌患者的年龄、性别、肥胖指数以及肠道菌群的DNA序列,将获取的肠道菌群的DNA序列进行质量控制,并获取肠道菌群的DNA序列中的肠道菌群丰度,构建样本集;(2)将样本集划分为训练样本集和测试样本集,分别运用支持向量机和人工神经网络进行训练和预测,并分别选取支持向量机和人工神经网络的预测结果的部分样本作为训练集,其余作为测试集重新返回到支持向量机模型中得出最后的分类预测结果,构建出分类器模型;(3)根据评价指标评价构建出的分类器模型,并选用检验方法对构建出的分类器模型进行校验,评价指标包括:敏感性、特异性和精确度。2.如权利要求1所述的一种基于肠道菌群丰度的分类器建模评价校验方法,其特征是:所述步骤(1)中,将获取的肠道菌群的DNA序列进行质量控制包括:将获取的肠道菌群的DNA序列中质量低于33的碱基去掉。3.如权利要求1所述的一种基于肠道菌群丰度的分类器建模评价校验方法,其特征是:所述步骤(1)中,将获取肠道菌群的DNA序列中的肠道菌群丰度包括:分别从界、门、纲、目、科、属、种七种水平上对各种肠道菌群的含量进行分析,获取肠道菌群的DNA序列中的肠道菌群丰度。4.如权利要求1所述的一种基于肠道菌群丰度的分类器建模评价校验方法,其特征是:所述步骤(1)中,构建的样本集中每个样本均包括:年龄、性别、肥胖指数、肠道菌群丰度和样本所属人群,所述样本所属人群包括健康人群和结直肠癌患者人群。5.如权利要求1所述的一种基于肠道菌群丰度的分类器建模评价校验方法,其特征是:所述步骤(2)的具体步骤为:(2-1)将样本集划分为训练样本集和测试样本集,样本集的三分之二样本数据设置为训练样本集,样本集的剩余三分之一数据设置为测试样本集,训练样本集和测试样本集输入支持向量机模型进行训练和预测得到第一预测结果,同时训练样本集和测试样本集输入人工神经网络模型进行训练和预测得到第二预测结果;(2-2)分别从第一预测结果和第二预测结果中选取部分样本作为训练集,第一预测结果和第二预测结果中剩余样本作为测试集,将训练集和测试集输入人工神经网络模型进行再次训练和预测,得出最后的分类预测结果,构建出分类器模型。6.如权利要求1所述的一种基于肠道菌群丰度的分类器建模评价校验方法,其特征是:所述步骤(3)中,评价指标的敏感性为:其中,Sensitivity为敏感性,表示患者被正确预测为患病的百分比,TP为患者被预测为阳性的样本数量,FN为患者被预测为健康的样本数量;评价指标的特异性为:其中,Specificity为特异性,表示健康人被预测为健康的百分比,TN为健康人被正确预测为健康的样本数量,FP为健康人被预测为患者的样本数量;评价指标的准确率为:其中,Acc...

【专利技术属性】
技术研发人员:刘弘赵丹丹郑元杰何演林陆佃杰吕晨
申请(专利权)人:山东师范大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1