当前位置: 首页 > 专利查询>天津大学专利>正文

基于多维特征和模型融合的提高预测血尿酸精度的方法技术

技术编号:21852562 阅读:39 留言:0更新日期:2019-08-14 00:48
本发明专利技术公开了一种基于多维特征和模型融合的提高预测血尿酸精度的方法,包括:对清洗后的数据集中的数字特征和文字特征,分别进行相关系数计算筛选出重要特征;对所述重要特征进行扩充,以此获得更加丰富的特征;根据递归消除从更加丰富的特征中删除无用特征,选择出最佳特征,重复迭代,直至遍历所有的特征;对原始语料进行预处理删除其中的异常符号,并删除无用单词;对预处理后的语料进行分词并通过Doc2vec算法提取特征向量,对特征向量进行训练,将训练结果作为新的特征向量加入到原始特征集中,构建完备的特征集;基于Boosting和Stacking的多模型融合,对完备的特征集进行预测,获取血尿酸值的精度。

A Method of Improving the Precision of Predicting Blood Uric Acid Based on Multidimensional Characteristic and Model Fusion

【技术实现步骤摘要】
基于多维特征和模型融合的提高预测血尿酸精度的方法
本专利技术涉及数据挖掘和机器学习领域,尤其涉及一种基于多维特征和模型融合的提高预测血尿酸精度的方法。
技术介绍
最近几年关于血尿酸的研究逐渐变多,但是很少有关于用文字特征的血尿酸预测模型计算血尿酸的值。现在的血尿酸计算方法主要是采用单一的Boosting算法[1],其在一定程度上增强了模型对患病人群的识别能力,提升了模型的准确率。但,采用单一的Boosting算法进行预测存在一些不足,因为Boosting通过训练一个弱学习器不断拟合残差来减小误差,这个过程使得偏差不断减小,同时方差变大,容易导致过拟合。传统的预测血尿酸值的算法主要有基于Boosting的GBDT[2]算法(梯度提升树)和Xgboost算法[3]。GBDT通过构建决策树[4]的一系列组合来进行预测。不管是分类还是回归构建决策树的重点都在于寻找分裂决策点。对于分类树因为标签为不连续的值,因此可以通过信息增益或者基尼指数来寻找最佳分裂点,其实它们都是基于熵的计算方式,信息基尼指数可以看作是熵公式的泰勒展开式。但是对于回归树来说标签值是连续的,那么此时信息增益和基尼指数就不再适用,此时可以通过计算平方误差来寻找连续值的最佳分裂点。模型通过划分最佳分裂点,主要是对数据进行分类,使得对于每一类的数据,在类内尽量使得数据的方差变小,这样被分为一类的数据之间的相似度比较大。GBDT算法的优点有很多,其有着较为丰富的非线性变化,不用做很复杂的特征工程就能够具有很强的表达性。但是它的缺点也是很明显的,GBDT作为Boosting算法的成员,它的整个算法过程是串行的,不利于并行化,因此计算过程会比较耗时。同时作为增强的算法通过不断减小偏差、增强容易过度拟合。Xgboost在GBDT基础上进行了一系列的改进。首先,在构建树的过程中Xgboost加入了正则化项,这样可以表达一些线性关系,此时模型相当于一个逻辑回归。同时,Xgboost在计算损失函数时引入二次函数,当不为二次的时候对函数进行二次泰勒展开进行近似计算,二阶函数有着更快的收敛性。其次,Xgboost引入相当于学习率的shrinkage概念。类似于随机森林的列采样,Xgboost引入列抽样来提高计算速度减少过拟合。Xgboost可以自动处理缺失值。现有医学领域成果大多数是基于统计和生理标注,需要对病人进行跟踪检查,耗时比较长,统计人群规模较大、成本较高。
技术实现思路
本专利技术提供了一种基于多维特征和模型融合的提高预测血尿酸精度的方法,本专利技术能够实现较高的精度识别,对进一步研究血尿酸有着重要价值,详见下文描述:一种基于多维特征和模型融合的提高预测血尿酸精度的方法,所述方法包括以下步骤:对清洗后的数据集中的数字特征和文字特征,分别进行相关系数计算筛选出重要特征;对所述重要特征进行扩充,以此获得更加丰富的特征;根据递归消除从更加丰富的特征中删除无用特征,选择出最佳特征,重复迭代,直至遍历所有的特征;对原始语料进行预处理删除其中的异常符号,并删除无用单词;对预处理后的语料进行分词并通过Doc2vec算法提取特征向量,对特征向量进行训练,将训练结果作为新的特征向量加入到原始特征集中,构建完备的特征集;基于Boosting和Stacking的多模型融合,对完备的特征集进行预测,获取血尿酸值的精度。其中,所述对预处理后的语料进行分词并通过Doc2vec算法提取特征向量具体为:通过Doc2vec模型的训练获得若干维文本向量,每一行代表一位体检者的检查信息;所获得的文本向量仅由Lightgbm模型单独训练以获得预测结果,将预测结果作为文本向量特征,合并到数值特征中用于构建完备特征集合。进一步地,所述基于Boosting和Stacking的多模型融合具体为:1)基于Boosting的GBDT算法,对于弱学习器进行初始化;2)GBDT通过迭代不断计算残差rim;3)对叶子区域j=1,2,..J计算最佳拟合值,如下式所示;4)更新学习器,如下式所示:其中,I为满足x∈Rjm条件个数,更新后的学习器输入x,输出f(x)即为预测值。本专利技术提供的技术方案的有益效果是:1、本专利技术基于一个横截面时间进行研究,效率较高,成本较低,且能够达到较高的血尿酸识别精度,对进一步研究血尿酸有着重要价值;2、本专利技术的目标是提高模型预测血尿酸精度的能力:单一的Boosting算法通过训练一个弱学习器不断拟合残差来减小误差,这个过程使得偏差不断减小,同时方差变大,这就容易导致过拟合。因此本专利技术提出Boosting和Stacking相结合的方法通过训练多个弱学习器来减小模型过拟合的风险,从而增加模型的鲁棒性。附图说明图1为一种基于多维特征和模型融合的提高预测血尿酸精度的方法的流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面对本专利技术实施方式作进一步地详细描述。实施例1为了实现上述目的,本专利技术实施例提出一种基于神经网络特征提取和多模型融合的提高预测血尿酸精度的方法,该方法包括两个子算法,分别为:基于Doc2vec的多特征融合方法(DMFA)和基于Boosting和Stacking的多模型融合方法(BSMFA),参见图1,包含以下步骤:101:对原始数据集进行数据清洗,包括:删除异常符号、格式处理、删除无用特征、纠正非法值、归一化和数据变换;其中,数据清洗是数据处理的首要任务,也是关键的一步,数据处理包括:异常符号清洗、空缺值填充、格式化处理、异常值检测、归一化和数据变换,并进行数据不平衡处理。102:对清洗后的数据集中的数字特征和文字特征,分别进行相关系数计算筛选出重要特征;其中,相关性分析是特征工程的基础工作。通过分析特征和预测目标的相关性,初步筛选重要特征,对重要特征进行分析。数据特征主要分为两部分,其中一部分是数字型特征中包含的信息数字型特征包括:连续值和离散值。另一部分为文字型特征,主要是B超的检查诊断,通过分词后对文字型特征使用算法进行提取,常见的算法有One-hot、TF-IDF(术语频率-逆文档频率)等。103:在筛选出重要特征后对特征进行扩充,以此获得更加丰富的特征;其中,本专利技术实施例对特征进行分类然后对每一类的特征进行类内运算。目标是考虑要素的绝对数量和相对数量,从而获取更加丰富的特征。104:根据递归消除从更加丰富的特征中删除无用特征,选择出最佳特征;重复迭代,直至遍历所有的特征;具体实现时,本专利技术实施例通过特征扩充得到了丰富的特征信息,但是同时也加入了无用的特征(即不能提高模型预测精度能力的特征),在初步特征相关性分析的基础上利用递归消除的方法进行特征选择,剔除掉无用特征,同时消除共线性问题,提升模型的准确率。其中,无用特征需要通过特征选择试验得出,本专利技术实施例通过递归特征消除,迭代地构建模型,然后选择出最佳的特征,对剩余特征重复该过程,直到遍历所有特征。105:对原始语料进行预处理,即删除原始语料中的异常符号,并删除无用单词;例如:原始语料为:“超声检查、肝胆、胰腺、脾脏。肝脏的形状仍然规则,左叶是钝的。肝脏表面光滑,肝脏回声更均匀,管道结构清晰,深部组织减弱。肝内、外胆管未见扩张。门脉直径1.2cm。胆囊、胰腺、脾脏未见异常。CDFI:在肝脏和脾脏中未发现异常本文档来自技高网
...

【技术保护点】
1.一种基于多维特征和模型融合的提高预测血尿酸精度的方法,其特征在于,所述方法包括以下步骤:对清洗后的数据集中的数字特征和文字特征,分别进行相关系数计算筛选出重要特征;对所述重要特征进行扩充,以此获得更加丰富的特征;根据递归消除从更加丰富的特征中删除无用特征,选择出最佳特征,重复迭代,直至遍历所有的特征;对原始语料进行预处理删除其中的异常符号,并删除无用单词;对预处理后的语料进行分词并通过Doc2vec算法提取特征向量,对特征向量进行训练,将训练结果作为新的特征向量加入到原始特征集中,构建完备的特征集;基于Boosting和Stacking的多模型融合,对完备的特征集进行预测,获取血尿酸值的精度。

【技术特征摘要】
1.一种基于多维特征和模型融合的提高预测血尿酸精度的方法,其特征在于,所述方法包括以下步骤:对清洗后的数据集中的数字特征和文字特征,分别进行相关系数计算筛选出重要特征;对所述重要特征进行扩充,以此获得更加丰富的特征;根据递归消除从更加丰富的特征中删除无用特征,选择出最佳特征,重复迭代,直至遍历所有的特征;对原始语料进行预处理删除其中的异常符号,并删除无用单词;对预处理后的语料进行分词并通过Doc2vec算法提取特征向量,对特征向量进行训练,将训练结果作为新的特征向量加入到原始特征集中,构建完备的特征集;基于Boosting和Stacking的多模型融合,对完备的特征集进行预测,获取血尿酸值的精度。2.根据权利要求1所述的一种基于多维特征和模型融合的提高预测血尿酸精度的方法,其特征在于,所述对...

【专利技术属性】
技术研发人员:于瑞国潘丽赵满坤高洁于健李雪威喻梅安永利
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1