一种基于医疗数据建模的预测方法及装置制造方法及图纸

技术编号:19124107 阅读:32 留言:0更新日期:2018-10-10 06:11
本发明专利技术提供一种基于医疗数据建模的预测方法及装置,该方法包括:根据源医疗数据的业务类型将源医疗数据划分为多类业务数据;对多类业务数据进行关联处理,构建可供建模的数据集;根据所述数据集进行建模,生成医疗预测模型;根据所述医疗预测模型,对测试集样本进行预测;本发明专利技术实施例提供的方法减小了医疗预测的工作量,提升预测效率。

【技术实现步骤摘要】
一种基于医疗数据建模的预测方法及装置
本专利技术涉及通信
,特别是指一种基于医疗数据建模的预测方法及装置。
技术介绍
医疗技术日新月异,医疗信息急速增长,存储的数据爆发式的增长,医疗大数据相关研究迫在眉睫。现有的医疗数据大都存储在单机版的数据库系统中,如Oracle数据库,MySQL数据库等,这给医疗大数据分析、挖掘带来了诸多问题,在与眼科医院合作进行眼科大数据挖掘的过程中,发现如下问题:(1)在进行医疗大数据分析时,为不影响现有医院信息系统的正常运行,不能在现有的单机版系统中进行,需要把单机版中的医疗数据先导出到新的数据库中;(2)医疗数据具有多源、异构的特点,一家医院的数据常常存储在多个系统中,还有很多多年积累起来的数据。进行医疗大数据分析需要把这些分散、复杂的数据汇总、整合起来;(3)由于医疗大数据的数据量大,在进行数据挖掘、分析时需要使用基于分布式系统的大数据分析算法,如:在进行潜在患者挖掘的过程中,发现当数据量较大时,单机版的挖掘算法效率极低,甚至无法运行,需要应用基于分布式系统的挖掘算法,如:基于Spark的挖掘算法。为解决问题(1)、(2),需要把医疗数据从现有的单机版数据库中迁移出来;进一步为解决问题(3),需要把数据迁移到分布式系统中。因此,研发了从Oracle数据库到hadoop(Hadoop是一个能够对大量数据进行分布式处理的软件框架)批量迁移数据表的数据迁移引擎。然而,当所有的表迁移到hadoop后,需要重新利用Hive去进行抽取和转换,工作量非常大。其中,Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
技术实现思路
本专利技术的目的在于提供一种基于医疗数据建模的预测方法及装置,一些实施例有助于解决现有技术中利用HIVE对医疗数据进行抽取和转换时工作量非常大且不易寻找关联关系的问题。本专利技术实施例提供一种基于医疗数据建模的预测方法,包括:根据源医疗数据的业务类型将源医疗数据划分为多类业务数据;其中,每类业务数据的业务类型不同;对多类业务数据进行关联处理,构建可供建模的数据集;根据所述数据集进行建模,生成医疗预测模型;根据所述医疗预测模型,对测试集样本进行预测。其中,所述对多类业务数据进行关联处理,构建可供建模的数据集的步骤,包括:分别对每一类业务数据进行数据编码,得到每一类业务数据的数字信号;按照主键和外键的关联关系对多类业务数据的数字信号进行关联处理,构建可供建模的数据集。其中,所述根据所述数据集进行建模,生成医疗预测模型的步骤,包括:对所述数据集包含的多个特征进行特征去除处理,确定目标数据集;利用主成分分析的算法对所述目标数据集进行分析,确定目标数据集的主成分特征;利用所述主成分特征生成医疗预测模型。其中,所述根据所述医疗预测模型,对测试集样本进行预测的步骤,包括:按照预设周期周期性从待测试数据库中抽取测试集样本;按照所述医疗预测模型对所述测试集样本的每条数据进行逐条分析,计算每条数据的概率值;根据每条数据的概率值,对所述测试集样本进行预测。其中,所述医疗预测模型为人工晶体费用预测模型;所述对所述数据集包含的多个特征进行特征去除处理,确定目标数据集的步骤,包括:提取所述数据集包含的多个自变量特征;从所述多个自变量特征取出m个自变量特征,并通过逻辑回归算法构建逻辑方程;其中,m为正整数;逐个引入所述多个自变量特征中除所述m个自变量特征之外的其他自变量特征;若当前引入的自变量特征对人工晶体费用的影响度大于所述逻辑方程中的任意一个自变量特征对人工晶体费用的影响度,确定去除所述逻辑方程中对人工晶体费用的影响度小于当前引入的自变量特征对人工晶体费用的影响度的自变量特征,并将当前引入的自变量特征加入所述逻辑方程中;计算逻辑方程中每个自变量特征对人工晶体费用的影响权重,并根据所述影响权重确定目标数据集。其中,m的值大于或者等于80,且小于或者等于200;则所述逻辑方程中的每个自变量特征对人工晶体费用的影响度大于或者等于4%,且小于或者等于6%。其中,所述利用主成分分析的算法对所述目标数据集进行分析,确定目标数据集的主成分特征的步骤,包括:利用主成分分析的算法对所述目标数据集进行分析,将所述目标数据集转换为线性不相关的分析结果;确定线性不相关的分析结果为所述目标数据集的主成分特征;其中,所述目标数据集的主成分特征的数量小于所述目标数据集包含的自变量特征的数量。本专利技术实施例还提供一种基于医疗数据建模的预测装置,包括:划分模块,用于根据源医疗数据的业务类型将源医疗数据划分为多类业务数据;其中,每类业务数据的业务类型不同;关联模块,用于对多类业务数据进行关联处理,构建可供建模的数据集;建模模块,用于根据所述数据集进行建模,生成医疗预测模型;预测模块,用于根据所述医疗预测模型,对测试集样本进行预测。其中,所述关联模块包括:编码子模块,用于分别对每一类业务数据进行数据编码,得到每一类业务数据的数字信号;关联子模块,用于按照主键和外键的关联关系对多类业务数据的数字信号进行关联处理,构建可供建模的数据集。其中,所述建模模块包括:去除子模块,用于对所述数据集包含的多个特征进行特征去除处理,确定目标数据集;确定子模块,用于利用主成分分析的算法对所述目标数据集进行分析,确定目标数据集的主成分特征;建模子模块,用于利用所述主成分特征生成医疗预测模型。其中,所述预测模块包括:抽取子模块,用于按照预设周期周期性从待测试数据库中抽取测试集样本;计算子模块,用于按照所述医疗预测模型对所述测试集样本的每条数据进行逐条分析,计算每条数据的概率值;预测子模块,用于根据每条数据的概率值,对所述测试集样本进行预测。其中,所述医疗预测模型为人工晶体费用预测模型;所述去除子模块包括:提取单元,用于提取所述数据集包含的多个自变量特征;方程构建单元,用于从所述多个自变量特征取出m个自变量特征,并通过逻辑回归算法构建逻辑方程;其中,m为正整数;引入单元,用于逐个引入所述多个自变量特征中除所述m个自变量特征之外的其他自变量特征;去除单元,用于若当前引入的自变量特征对人工晶体费用的影响度大于所述逻辑方程中的任意一个自变量特征对人工晶体费用的影响度,确定去除所述逻辑方程中对人工晶体费用的影响度小于当前引入的自变量特征对人工晶体费用的影响度的自变量特征,并将当前引入的自变量特征加入所述逻辑方程中;确定单元,用于计算逻辑方程中每个自变量特征对人工晶体费用的影响权重,并根据所述影响权重确定目标数据集。其中,m的值大于或者等于80,且小于或者等于200;则所述逻辑方程中的每个自变量特征对人工晶体费用的影响度大于或者等于4%,且小于或者等于6%。其中,所述确定子模块包括:转换单元,用于利用主成分分析的算法对所述目标数据集进行分析,将所述目标数据集转换为线性不相关的分析结果;特征确定单元,用于确定线性不相关的分析结果为所述目标数据集的主成分特征;其中,所述目标数据集的主成分特征的数量小于所述目标数据集包含的自变量特征的数量。本专利技术的上述技术方案至少具有如下有益效果:本专利技术实施例的基于医疗数据建模的预测方法及装置中,根据医疗数据的本文档来自技高网
...
一种基于医疗数据建模的预测方法及装置

【技术保护点】
1.一种基于医疗数据建模的预测方法,其特征在于,包括:根据源医疗数据的业务类型将源医疗数据划分为多类业务数据;其中,每类业务数据的业务类型不同;对多类业务数据进行关联处理,构建可供建模的数据集;根据所述数据集进行建模,生成医疗预测模型;根据所述医疗预测模型,对测试集样本进行预测。

【技术特征摘要】
1.一种基于医疗数据建模的预测方法,其特征在于,包括:根据源医疗数据的业务类型将源医疗数据划分为多类业务数据;其中,每类业务数据的业务类型不同;对多类业务数据进行关联处理,构建可供建模的数据集;根据所述数据集进行建模,生成医疗预测模型;根据所述医疗预测模型,对测试集样本进行预测。2.根据权利要求1所述的方法,其特征在于,所述对多类业务数据进行关联处理,构建可供建模的数据集的步骤,包括:分别对每一类业务数据进行数据编码,得到每一类业务数据的数字信号;按照主键和外键的关联关系对多类业务数据的数字信号进行关联处理,构建可供建模的数据集。3.根据权利要求1所述的方法,其特征在于,所述根据所述数据集进行建模,生成医疗预测模型的步骤,包括:对所述数据集包含的多个特征进行特征去除处理,确定目标数据集;利用主成分分析的算法对所述目标数据集进行分析,确定目标数据集的主成分特征;利用所述主成分特征生成医疗预测模型。4.根据权利要求1所述的方法,其特征在于,所述根据所述医疗预测模型,对测试集样本进行预测的步骤,包括:按照预设周期周期性从待测试数据库中抽取测试集样本;按照所述医疗预测模型对所述测试集样本的每条数据进行逐条分析,计算每条数据的概率值;根据每条数据的概率值,对所述测试集样本进行预测。5.根据权利要求3所述的方法,其特征在于,所述医疗预测模型为人工晶体费用预测模型;所述对所述数据集包含的多个特征进行特征去除处理,确定目标数据集的步骤,包括:提取所述数据集包含的多个自变量特征;从所述多个自变量特征取出m个自变量特征,并通过逻辑回归算法构建逻辑方程;其中,m为正整数;逐个引入所述多个自变量特征中除所述m个自变量特征之外的其他自变量特征;若当前引入的自变量特征对人工晶体费用的影响度大于所述逻辑方程中的任意一个自变量特征对人工晶体费用的影响度,确定去除所述逻辑方程中对人工晶体费用的影响度小于当前引入的自变量特征对人工晶体费用的影响度的自变量特征,并将当前引入的自变量特征加入所述逻辑方程中;计算逻辑方程中每个自变量特征对人工晶体费用的影响权重,并根据所述影响权重确定目标数据集。6.根据权利要求5所述的方法,其特征在于,m的值大于或者等于80,且小于或者等于200;则所述逻辑方程中的每个自变量特征对人工晶体费用的影响度大于或者等于4%,且小于或者等于6%。7.根据权利要求5所述的方法,其特征在于,所述利用主成分分析的算法对所述目标数据集进行分析,确定目标数据集的主成分特征的步骤,包括:利用主成分分析的算法对所述目标数据集进行分析,将所述目标数据集转换为线性不相关的分析结果;确定线性不相关的分析结果为所述目标数据集的主成分特征;其中,所述目标数据集的主成分特征的数量小于所述目标数据集包含的自变量特征的数量。8.一种基于医疗数据建模...

【专利技术属性】
技术研发人员:常耀斌许利群张志鹏
申请(专利权)人:中国移动通信有限公司研究院中国移动通信集团公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1