【技术实现步骤摘要】
一种基于医疗数据建模的预测方法及装置
本专利技术涉及通信
,特别是指一种基于医疗数据建模的预测方法及装置。
技术介绍
医疗技术日新月异,医疗信息急速增长,存储的数据爆发式的增长,医疗大数据相关研究迫在眉睫。现有的医疗数据大都存储在单机版的数据库系统中,如Oracle数据库,MySQL数据库等,这给医疗大数据分析、挖掘带来了诸多问题,在与眼科医院合作进行眼科大数据挖掘的过程中,发现如下问题:(1)在进行医疗大数据分析时,为不影响现有医院信息系统的正常运行,不能在现有的单机版系统中进行,需要把单机版中的医疗数据先导出到新的数据库中;(2)医疗数据具有多源、异构的特点,一家医院的数据常常存储在多个系统中,还有很多多年积累起来的数据。进行医疗大数据分析需要把这些分散、复杂的数据汇总、整合起来;(3)由于医疗大数据的数据量大,在进行数据挖掘、分析时需要使用基于分布式系统的大数据分析算法,如:在进行潜在患者挖掘的过程中,发现当数据量较大时,单机版的挖掘算法效率极低,甚至无法运行,需要应用基于分布式系统的挖掘算法,如:基于Spark的挖掘算法。为解决问题(1)、(2),需要把医疗数据从现有的单机版数据库中迁移出来;进一步为解决问题(3),需要把数据迁移到分布式系统中。因此,研发了从Oracle数据库到hadoop(Hadoop是一个能够对大量数据进行分布式处理的软件框架)批量迁移数据表的数据迁移引擎。然而,当所有的表迁移到hadoop后,需要重新利用Hive去进行抽取和转换,工作量非常大。其中,Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映 ...
【技术保护点】
1.一种基于医疗数据建模的预测方法,其特征在于,包括:根据源医疗数据的业务类型将源医疗数据划分为多类业务数据;其中,每类业务数据的业务类型不同;对多类业务数据进行关联处理,构建可供建模的数据集;根据所述数据集进行建模,生成医疗预测模型;根据所述医疗预测模型,对测试集样本进行预测。
【技术特征摘要】
1.一种基于医疗数据建模的预测方法,其特征在于,包括:根据源医疗数据的业务类型将源医疗数据划分为多类业务数据;其中,每类业务数据的业务类型不同;对多类业务数据进行关联处理,构建可供建模的数据集;根据所述数据集进行建模,生成医疗预测模型;根据所述医疗预测模型,对测试集样本进行预测。2.根据权利要求1所述的方法,其特征在于,所述对多类业务数据进行关联处理,构建可供建模的数据集的步骤,包括:分别对每一类业务数据进行数据编码,得到每一类业务数据的数字信号;按照主键和外键的关联关系对多类业务数据的数字信号进行关联处理,构建可供建模的数据集。3.根据权利要求1所述的方法,其特征在于,所述根据所述数据集进行建模,生成医疗预测模型的步骤,包括:对所述数据集包含的多个特征进行特征去除处理,确定目标数据集;利用主成分分析的算法对所述目标数据集进行分析,确定目标数据集的主成分特征;利用所述主成分特征生成医疗预测模型。4.根据权利要求1所述的方法,其特征在于,所述根据所述医疗预测模型,对测试集样本进行预测的步骤,包括:按照预设周期周期性从待测试数据库中抽取测试集样本;按照所述医疗预测模型对所述测试集样本的每条数据进行逐条分析,计算每条数据的概率值;根据每条数据的概率值,对所述测试集样本进行预测。5.根据权利要求3所述的方法,其特征在于,所述医疗预测模型为人工晶体费用预测模型;所述对所述数据集包含的多个特征进行特征去除处理,确定目标数据集的步骤,包括:提取所述数据集包含的多个自变量特征;从所述多个自变量特征取出m个自变量特征,并通过逻辑回归算法构建逻辑方程;其中,m为正整数;逐个引入所述多个自变量特征中除所述m个自变量特征之外的其他自变量特征;若当前引入的自变量特征对人工晶体费用的影响度大于所述逻辑方程中的任意一个自变量特征对人工晶体费用的影响度,确定去除所述逻辑方程中对人工晶体费用的影响度小于当前引入的自变量特征对人工晶体费用的影响度的自变量特征,并将当前引入的自变量特征加入所述逻辑方程中;计算逻辑方程中每个自变量特征对人工晶体费用的影响权重,并根据所述影响权重确定目标数据集。6.根据权利要求5所述的方法,其特征在于,m的值大于或者等于80,且小于或者等于200;则所述逻辑方程中的每个自变量特征对人工晶体费用的影响度大于或者等于4%,且小于或者等于6%。7.根据权利要求5所述的方法,其特征在于,所述利用主成分分析的算法对所述目标数据集进行分析,确定目标数据集的主成分特征的步骤,包括:利用主成分分析的算法对所述目标数据集进行分析,将所述目标数据集转换为线性不相关的分析结果;确定线性不相关的分析结果为所述目标数据集的主成分特征;其中,所述目标数据集的主成分特征的数量小于所述目标数据集包含的自变量特征的数量。8.一种基于医疗数据建模...
【专利技术属性】
技术研发人员:常耀斌,许利群,张志鹏,
申请(专利权)人:中国移动通信有限公司研究院,中国移动通信集团公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。