一种医疗大数据分析处理系统及方法技术方案

技术编号:15691286 阅读:83 留言:0更新日期:2017-06-24 04:22
本发明专利技术公开了一种医疗大数据分析处理系统及方法。该系统包括:数据采集模块,采集关于需要预测的疾病并发症的原始数据;数据预处理模块,对采集的原始数据进行清洗和集成;数据转换模块,对经预处理后的数据利用熵进行离散化处理;预测模型构建模块,构建用于训练的逻辑回归模型和得到最终的预测模型;预测模型测试模块,利用得到的最终的预测模型进行测试,以得到预测结果;预测结果评估模块,采用多种评估度量对预测结果的准确性进行评估。本发明专利技术对获取的医疗数据进行了过滤清洗处理,并进行了基于熵的离散化处理,保证了最终模型的拟合性,以及使用了多个评估度量来对预测结果进行了评估,从而确保了最终预测结果的准确性。

Medical large data analysis processing system and method

The invention discloses a medical large data analysis and processing system and a method thereof. The system includes a data acquisition module, collecting the raw data about disease complications to be predicted; data preprocessing module, cleaning and integration of the original data acquisition; data conversion module, for after data preprocessing using the entropy discretization; forecast model, for the construction of training logistic regression the model and get the final prediction model; prediction model test module, test using the final prediction model, in order to get the prediction results; the prediction results evaluation module, using a variety of measurement accuracy of the prediction results are evaluated. The invention can filter cleaning treatment of the medical data acquisition, and discretization based on entropy, ensure the fit of the final model, and use a lot of assessment to measure the prediction results are evaluated, so as to ensure the accuracy of the final results.

【技术实现步骤摘要】
一种医疗大数据分析处理系统及方法
本专利技术涉及一种大数据分析处理系统及方法,具体涉及一种医疗大数据分析处理系统及方法。
技术介绍
随着网络的日益普及和高速发展,各个行业的大数据都可以被收集到。针对大数据的挖掘已经在其它行业有了很大程度的应用并也有了很显著的成果,但是与其它行业的应用不同的是,医疗行业由于与病患的生命安全有着紧密的联系,所以其分析结果的准确性和实用性更是需要关注的重点。
技术实现思路
针对上述技术问题,本专利技术的目的是对临床大数据进行分析和处理,以为常见的疾病并发症进行及时和准备的预测,为医疗诊断提供辅助支持。本专利技术采用的技术方案为:本专利技术的一实施例提供一种医疗大数据分析处理系统,包括:数据采集模块,采集关于需要预测的疾病并发症的原始数据,所述原始数据包括病人检验指标信息、病人检验报告信息和病人就诊记录信息;数据预处理模块,对采集的原始数据进行清洗和集成;数据转换模块,对经预处理后的数据利用熵进行离散化处理,以得到为标称型数据的样本集;预测模型构建模块,构建用于训练的逻辑回归模型,从经数据转换的样本集中随机抽取一份数据集作为训练集,并基于该训练集对构建的逻辑回归模型的参数进行求解,以得到最终的预测模型;预测模型测试模块,将样本集中的另一份数据集作为测试集,利用得到的最终的预测模型进行测试,以得到预测结果;预测结果评估模块,采用多种评估度量对预测结果的准确性进行评估。可选地,所述预测模型构建模块包括:矩阵构建单元,将训练集中的m个样本构建为m×n型矩阵,n为训练样本的n个指标;训练模型构建单元,基于构建的m×n型矩阵,构建如下式(1)所示的逻辑回归模型:y=ΘTx=θ0*x0+θ1*x1+...+θn*xn(1)其中,x=[x0,x1,...,xm]为矩阵中的n维向量,表示n种检验指标的结果,y表示诊断结果,在训练集中,当病人患有该种疾病时,取值为1,当病人没有患有该种疾病时,取值为0,ΘT=[θ0,θ1,...,θm]为该n维向量的特征权重向量,为需要求解的模型参数;参数求解单元,利用极大似然函数对构建的逻辑回归模型的参数进行求解,所述极大似然函数如下式(2)所示:L(Θ)=∏g(ΘTx)y(1-g(ΘTx))1-y(2)其中,g(ΘTx)为将回归结果y二分化的激励函数,当g(ΘTx)<T时,y=0,即g(ΘTx)y=1,(1-g(ΘTx))1-y=(1-g(ΘTx)),当g(ΘTx)≧T时,y=1,即g(ΘTx)y=g(ΘTx),(1-g(ΘTx))1-y=1,T为基于期望分类结果所确定的阈值;对上述公式(2)所示的极大似然函数两端求导得到其对数似然函数,如下式(3)所示:l(Θ)=∑y*logg(ΘTx)+(1-y)*log(1-g(ΘTx))(3)通过对上述公式(3)所示的对数似然函数的参数进行求解,可得到用于训练的逻辑回归模型的模型参数,从而得到最终的预测模型。可选地,采用梯度下降法来对所述对数似然函数的参数进行求解,包括如下步骤:(1)选择梯度方向(2)选择下降步长α,对参数进行更新:(3)重复以上步骤直至满足停止条件;其中,xi是投影到[0,1]之间的任意变量,yi是第i个样本的真实值,yi*是该样本的预测值,λ是防止模型过拟合的结构化系数。可选地,所述预测模型测试模块基于最终的预测模型的决策函数来确定预测结果,所述决策函数如下式(4)所示:其中,P(y=1|x;θ)为预测结果为正类的概率。可选地,所述数据转换模块对经预处理后的数据利用熵进行离散化处理包括:将样本集中的指标数据的百分位数作为候选的分割节点,并且设定每个指标数据最多被分成3份:当以某个节点分割后,使得该指标数据分成两个区域,若两个区域的数据样本量之比小于0.5或大于2,则继续对较大的那个区域进行离散化,否则该指标的离散化结束。可选地,所述数据预处理模块采用检测结果指标数据的平均值来对缺失的指标数据进行填补和采用“1-99”分位法来对指标数据中的离群点进行处理。可选地,所述评估度量包括准确率、精度和召回率。本专利技术的另一实施例提供一种医疗大数据分析处理方法,包括:S100:采集关于需要预测的疾病并发症的原始数据,所述原始数据包括病人检验指标信息、病人检验报告信息和病人就诊记录信息;S200:对采集的原始数据进行清洗和集成;S300:对经预处理后的数据利用熵进行离散化处理,以得到为标称型数据的样本集;S400:构建用于训练的逻辑回归模型,从经数据转换的样本集中随机抽取一份数据集作为训练集,并基于该训练集对构建的逻辑回归模型的参数进行求解,以得到最终的预测模型;S500:将样本集中的另一份数据集作为测试集,利用得到的最终的预测模型进行测试,以得到预测结果;S600:采用多种评估度量对预测结果的准确性进行评估。本专利技术首先对获取的医疗数据进行了过滤清洗处理,然后对经过滤清洗后的数据进行了基于熵的离散化处理,保证了最终模型的拟合性,以及使用了多个评估度量来对预测结果进行了评估,从而确保了最终预测结果的准确性。附图说明图1为本专利技术的医疗大数据分析处理系统的结构示意图。图2为本专利技术的医疗大数据分析处理方法的流程示意图。具体实施方式为使本专利技术要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。图1为本专利技术的医疗大数据分析处理系统的结构示意图。图2为本专利技术的医疗大数据分析处理方法的流程示意图。第一实施例首先,参考图1对本专利技术的医疗大数据分析处理系统进行介绍。如图1所示,本专利技术的医疗大数据分析处理系统包括数据采集模块1、数据预处理模块2、数据转换模块3、预测模型构建模块4、预测模型模块5和预测结果评估模块6。以下,对这些模块进行详细介绍。【数据采集模块】数据采集模块1用于从各医院信息平台采集关于需要预测的疾病并发症的原始数据,所述原始数据主要包括病人检验指标信息、病人检验报告信息和病人就诊记录信息等三部分信息。在一示例中,例如甲亢病人的诊断数据,这三部分的主要信息结构可如下表1所示:表1待处理数据信息结构上表中的字段表示的指标数据。【数据预处理模块】数据预处理模块2用于对采集的原始数据进行清洗和集成。<数据清洗>由于病人的检测指标会存在一些指标数据不完整,以上表1的内容为例,使用的数据为甲亢病人的检验指标信息,检验指标为8种,即每个病人每次检验时都会去检验这8种指标,但并不是每个病人每次检验时都会去检验这8种指标,所以会出现一个病人每次检验指标不足8种的情况。对于此种情况,要在逻辑回归模型中加入每种指标作为自变量时,就会造成该部分自变量的缺失;又或者某些指标数据大于正常指标等情况,例如,在实际情况中,可能由于各种各样的原因造成了数据的不准确0此处的一个例子是,在病人检验指标的信息中,某些检验指标的值会出奇的高或者低,例如TPOAb指标的参考范围为“<5.611U/ml”,而某些病人的该项指标检测结果显示为“>1000.00”,对于这种情况,无论是在实际情况中还是模型的准确性上,都有着很大的影响。因此,需要对采集的指标数据进行清洗。本专利技术中使用的指标数据由于涉及的8个字段的检测结果均为数值类型字段,因此可使用指标数据的平均值来对缺失的指标数据进行替换。对于指标数据的离群点本文档来自技高网...
一种医疗大数据分析处理系统及方法

【技术保护点】
一种医疗大数据分析处理系统,其特征在于,包括:数据采集模块,采集关于需要预测的疾病并发症的原始数据,所述原始数据包括病人检验指标信息、病人检验报告信息和病人就诊记录信息;数据预处理模块,对采集的原始数据进行清洗和集成;数据转换模块,对经预处理后的数据利用熵进行离散化处理,以得到为标称型数据的样本集;预测模型构建模块,构建用于训练的逻辑回归模型,从经数据转换的样本集中随机抽取一份数据集作为训练集,并基于该训练集对构建的逻辑回归模型的参数进行求解,以得到最终的预测模型;预测模型测试模块,将样本集中的另一份数据集作为测试集,利用得到的最终的预测模型进行测试,以得到预测结果;预测结果评估模块,采用多种评估度量对预测结果的准确性进行评估。

【技术特征摘要】
1.一种医疗大数据分析处理系统,其特征在于,包括:数据采集模块,采集关于需要预测的疾病并发症的原始数据,所述原始数据包括病人检验指标信息、病人检验报告信息和病人就诊记录信息;数据预处理模块,对采集的原始数据进行清洗和集成;数据转换模块,对经预处理后的数据利用熵进行离散化处理,以得到为标称型数据的样本集;预测模型构建模块,构建用于训练的逻辑回归模型,从经数据转换的样本集中随机抽取一份数据集作为训练集,并基于该训练集对构建的逻辑回归模型的参数进行求解,以得到最终的预测模型;预测模型测试模块,将样本集中的另一份数据集作为测试集,利用得到的最终的预测模型进行测试,以得到预测结果;预测结果评估模块,采用多种评估度量对预测结果的准确性进行评估。2.根据权利要求1所述的医疗大数据分析处理系统,其特征在于,所述预测模型构建模块包括:矩阵构建单元,将训练集中的m个样本构建为m×n型矩阵,n为训练样本的n个指标;训练模型构建单元,基于构建的m×n型矩阵,构建如下式(1)所示的逻辑回归模型:y=ΘTx=θ0*x0+θ1*x1+...+θn*xn(1)其中,x=[x0,x1,...,xm]为矩阵中的n维向量,表示n种检验指标的结果,y表示诊断结果,在训练集中,当病人患有该种疾病时,取值为1,当病人没有患有该种疾病时,取值为0,ΘT=[θ0,θ1,...,θm]为该n维向量的特征权重向量,为需要求解的模型参数;参数求解单元,利用极大似然函数对构建的逻辑回归模型的参数进行求解,所述极大似然函数如下式(2)所示:L(Θ)=∏g(ΘTx)y(1-g(ΘTx))1-y(2)其中,g(ΘTx)为将回归结果y二分化的激励函数,当g(ΘTx)<T时,y=0,即g(ΘTx)y=1,(1-g(ΘTx))1-y=(1-g(ΘTx)),当g(ΘTx)≧T时,y=1,即g(ΘTx)y=g(ΘTx),(1-g(ΘTx))1-y=1,T为基于期望分类结果所确定的阈值;对上述公式(2)所示的极大似然函数两端求导得到其对数似然函数,如下式(3)所示:l(Θ)=∑y*logg(ΘTx)+(1-y)*log(1-g(ΘTx))(3)通过对上述公式(3)所示的对数似然函数的参数进行求解,可得到用于训练的逻辑回归模型的模型参数,从而得到最终的预测模型。3.根据权利要求2所述的医疗大数据分析处理系统,其特征在于,采用梯度下降法来对所述对数似然函数的参数进行求解,包括如下步骤:(1)选择梯度方向(2)选择下降步长α,对参数进行更新:(3)重复以上步骤直至满足停止条件;其中,xi是投影到[0,1]之间的任意变量,yi是第i个样本的真实值,yi*是该样本的预测值,λ是防止模型过拟合的结构化系数。4.根据权利要求2所述的医疗大数据分析处理系统,其特征在于,所述预测模型测试模块基于最终的预测模型的决策函数来确定预测结果,所述决策函数如下式(4)所示:其中,P(y=1|x;θ)为预测结果为正类的概率。5.根据权利要求1所述的医疗大数据分析处理系统,其特征在于,所述数据转换模块对经预处理后的数据利用熵进行离散化处理包括:将样本集中的指标数据的百分位数作为候选的分割节点,并且设定每个指标数据最多被分成3份:当以某个节点分割后,使得该指标数据分成两个区域,若两个区域的数据样本量之比小于0.5或大于2,则继续对较大的那个区域进行离散化,否则该指标的离散化结束。6.根据权利要求1所述的医疗大数据分析处理系统,其特征在于,所述数据预处理模块采用检测结果指标数据的平均值来对缺失的指标数据进行填补和采用“1-99”分位法来对指标数据中的离群点进行处理。7.根据权利要求1至6任一项所述的医疗大数据分析处理系统,其特征在于,所述评估度量包括...

【专利技术属性】
技术研发人员:刘希武洋李建丽
申请(专利权)人:国信优易数据有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1