基于多维特征和模型融合的提高预测血尿酸精度的方法技术

技术编号：21852562 阅读：53 留言：0更新日期：2019-08-14 00:48

本发明专利技术公开了一种基于多维特征和模型融合的提高预测血尿酸精度的方法，包括：对清洗后的数据集中的数字特征和文字特征，分别进行相关系数计算筛选出重要特征；对所述重要特征进行扩充，以此获得更加丰富的特征；根据递归消除从更加丰富的特征中删除无用特征，选择出最佳特征，重复迭代，直至遍历所有的特征；对原始语料进行预处理删除其中的异常符号，并删除无用单词；对预处理后的语料进行分词并通过Doc2vec算法提取特征向量，对特征向量进行训练，将训练结果作为新的特征向量加入到原始特征集中，构建完备的特征集；基于Boosting和Stacking的多模型融合，对完备的特征集进行预测，获取血尿酸值的精度。

A Method of Improving the Precision of Predicting Blood Uric Acid Based on Multidimensional Characteristic and Model Fusion

全部详细技术资料下载

【技术实现步骤摘要】
基于多维特征和模型融合的提高预测血尿酸精度的方法
本专利技术涉及数据挖掘和机器学习领域，尤其涉及一种基于多维特征和模型融合的提高预测血尿酸精度的方法。
技术介绍
最近几年关于血尿酸的研究逐渐变多，但是很少有关于用文字特征的血尿酸预测模型计算血尿酸的值。现在的血尿酸计算方法主要是采用单一的Boosting算法[1]，其在一定程度上增强了模型对患病人群的识别能力，提升了模型的准确率。但，采用单一的Boosting算法进行预测存在一些不足，因为Boosting通过训练一个弱学习器不断拟合残差来减小误差，这个过程使得偏差不断减小，同时方差变大，容易导致过拟合。传统的预测血尿酸值的算法主要有基于Boosting的GBDT[2]算法(梯度提升树)和Xgboost算法[3]。GBDT通过构建决策树[4]的一系列组合来进行预测。不管是分类还是回归构建决策树的重点都在于寻找分裂决策点。对于分类树因为标签为不连续的值，因此可以通过信息增益或者基尼指数来寻找最佳分裂点，其实它们都是基于熵的计算方式，信息基尼指数可以看作是熵公式的泰勒展开式。但是对于回归树来说标签值是连续的，那么此时信息...

【技术保护点】
1.一种基于多维特征和模型融合的提高预测血尿酸精度的方法，其特征在于，所述方法包括以下步骤：对清洗后的数据集中的数字特征和文字特征，分别进行相关系数计算筛选出重要特征；对所述重要特征进行扩充，以此获得更加丰富的特征；根据递归消除从更加丰富的特征中删除无用特征，选择出最佳特征，重复迭代，直至遍历所有的特征；对原始语料进行预处理删除其中的异常符号，并删除无用单词；对预处理后的语料进行分词并通过Doc2vec算法提取特征向量，对特征向量进行训练，将训练结果作为新的特征向量加入到原始特征集中，构建完备的特征集；基于Boosting和Stacking的多模型融合，对完备的特征集进行预测，获取血尿酸值的精...

【技术特征摘要】
1.一种基于多维特征和模型融合的提高预测血尿酸精度的方法，其特征在于，所述方法包括以下步骤：对清洗后的数据集中的数字特征和文字特征，分别进行相关系数计算筛选出重要特征；对所述重要特征进行扩充，以此获得更加丰富的特征；根据递归消除从更加丰富的特征中删除无用特征，选择出最佳特征，重复迭代，直至遍历所有的特征；对原始语料进行预处理删除其中的异常符号，并删除无用单词；对预处理后的语料进行分词并通过Doc2vec算法提取特征向量，对特征向量进行训练，将训练结果作为新的特征向量加入到原始特征集中，构建完备的特征集；基于Boosting和Stacking的多模型融合，对完备的特征集进行预测，获取血尿酸值的精度。2.根据权利要求1所述的一种基于多维特征和模型融合的提高预测血尿酸精度的方法，其特征在于，所述对...

【专利技术属性】
技术研发人员：于瑞国，潘丽，赵满坤，高洁，于健，李雪威，喻梅，安永利，
申请(专利权)人：天津大学，
类型：发明
国别省市：天津,12

全部详细技术资料下载我是这个专利的主人