The invention discloses a medical large data analysis and processing system and a method thereof. The system includes a data acquisition module, collecting the raw data about disease complications to be predicted; data preprocessing module, cleaning and integration of the original data acquisition; data conversion module, for after data preprocessing using the entropy discretization; forecast model, for the construction of training logistic regression the model and get the final prediction model; prediction model test module, test using the final prediction model, in order to get the prediction results; the prediction results evaluation module, using a variety of measurement accuracy of the prediction results are evaluated. The invention can filter cleaning treatment of the medical data acquisition, and discretization based on entropy, ensure the fit of the final model, and use a lot of assessment to measure the prediction results are evaluated, so as to ensure the accuracy of the final results.
【技术实现步骤摘要】
一种医疗大数据分析处理系统及方法
本专利技术涉及一种大数据分析处理系统及方法,具体涉及一种医疗大数据分析处理系统及方法。
技术介绍
随着网络的日益普及和高速发展,各个行业的大数据都可以被收集到。针对大数据的挖掘已经在其它行业有了很大程度的应用并也有了很显著的成果,但是与其它行业的应用不同的是,医疗行业由于与病患的生命安全有着紧密的联系,所以其分析结果的准确性和实用性更是需要关注的重点。
技术实现思路
针对上述技术问题,本专利技术的目的是对临床大数据进行分析和处理,以为常见的疾病并发症进行及时和准备的预测,为医疗诊断提供辅助支持。本专利技术采用的技术方案为:本专利技术的一实施例提供一种医疗大数据分析处理系统,包括:数据采集模块,采集关于需要预测的疾病并发症的原始数据,所述原始数据包括病人检验指标信息、病人检验报告信息和病人就诊记录信息;数据预处理模块,对采集的原始数据进行清洗和集成;数据转换模块,对经预处理后的数据利用熵进行离散化处理,以得到为标称型数据的样本集;预测模型构建模块,构建用于训练的逻辑回归模型,从经数据转换的样本集中随机抽取一份数据集作为训练集,并基于该训练集对构建的逻辑回归模型的参数进行求解,以得到最终的预测模型;预测模型测试模块,将样本集中的另一份数据集作为测试集,利用得到的最终的预测模型进行测试,以得到预测结果;预测结果评估模块,采用多种评估度量对预测结果的准确性进行评估。可选地,所述预测模型构建模块包括:矩阵构建单元,将训练集中的m个样本构建为m×n型矩阵,n为训练样本的n个指标;训练模型构建单元,基于构建的m×n型矩阵,构建如下式(1)所 ...
【技术保护点】
一种医疗大数据分析处理系统,其特征在于,包括:数据采集模块,采集关于需要预测的疾病并发症的原始数据,所述原始数据包括病人检验指标信息、病人检验报告信息和病人就诊记录信息;数据预处理模块,对采集的原始数据进行清洗和集成;数据转换模块,对经预处理后的数据利用熵进行离散化处理,以得到为标称型数据的样本集;预测模型构建模块,构建用于训练的逻辑回归模型,从经数据转换的样本集中随机抽取一份数据集作为训练集,并基于该训练集对构建的逻辑回归模型的参数进行求解,以得到最终的预测模型;预测模型测试模块,将样本集中的另一份数据集作为测试集,利用得到的最终的预测模型进行测试,以得到预测结果;预测结果评估模块,采用多种评估度量对预测结果的准确性进行评估。
【技术特征摘要】
1.一种医疗大数据分析处理系统,其特征在于,包括:数据采集模块,采集关于需要预测的疾病并发症的原始数据,所述原始数据包括病人检验指标信息、病人检验报告信息和病人就诊记录信息;数据预处理模块,对采集的原始数据进行清洗和集成;数据转换模块,对经预处理后的数据利用熵进行离散化处理,以得到为标称型数据的样本集;预测模型构建模块,构建用于训练的逻辑回归模型,从经数据转换的样本集中随机抽取一份数据集作为训练集,并基于该训练集对构建的逻辑回归模型的参数进行求解,以得到最终的预测模型;预测模型测试模块,将样本集中的另一份数据集作为测试集,利用得到的最终的预测模型进行测试,以得到预测结果;预测结果评估模块,采用多种评估度量对预测结果的准确性进行评估。2.根据权利要求1所述的医疗大数据分析处理系统,其特征在于,所述预测模型构建模块包括:矩阵构建单元,将训练集中的m个样本构建为m×n型矩阵,n为训练样本的n个指标;训练模型构建单元,基于构建的m×n型矩阵,构建如下式(1)所示的逻辑回归模型:y=ΘTx=θ0*x0+θ1*x1+...+θn*xn(1)其中,x=[x0,x1,...,xm]为矩阵中的n维向量,表示n种检验指标的结果,y表示诊断结果,在训练集中,当病人患有该种疾病时,取值为1,当病人没有患有该种疾病时,取值为0,ΘT=[θ0,θ1,...,θm]为该n维向量的特征权重向量,为需要求解的模型参数;参数求解单元,利用极大似然函数对构建的逻辑回归模型的参数进行求解,所述极大似然函数如下式(2)所示:L(Θ)=∏g(ΘTx)y(1-g(ΘTx))1-y(2)其中,g(ΘTx)为将回归结果y二分化的激励函数,当g(ΘTx)<T时,y=0,即g(ΘTx)y=1,(1-g(ΘTx))1-y=(1-g(ΘTx)),当g(ΘTx)≧T时,y=1,即g(ΘTx)y=g(ΘTx),(1-g(ΘTx))1-y=1,T为基于期望分类结果所确定的阈值;对上述公式(2)所示的极大似然函数两端求导得到其对数似然函数,如下式(3)所示:l(Θ)=∑y*logg(ΘTx)+(1-y)*log(1-g(ΘTx))(3)通过对上述公式(3)所示的对数似然函数的参数进行求解,可得到用于训练的逻辑回归模型的模型参数,从而得到最终的预测模型。3.根据权利要求2所述的医疗大数据分析处理系统,其特征在于,采用梯度下降法来对所述对数似然函数的参数进行求解,包括如下步骤:(1)选择梯度方向(2)选择下降步长α,对参数进行更新:(3)重复以上步骤直至满足停止条件;其中,xi是投影到[0,1]之间的任意变量,yi是第i个样本的真实值,yi*是该样本的预测值,λ是防止模型过拟合的结构化系数。4.根据权利要求2所述的医疗大数据分析处理系统,其特征在于,所述预测模型测试模块基于最终的预测模型的决策函数来确定预测结果,所述决策函数如下式(4)所示:其中,P(y=1|x;θ)为预测结果为正类的概率。5.根据权利要求1所述的医疗大数据分析处理系统,其特征在于,所述数据转换模块对经预处理后的数据利用熵进行离散化处理包括:将样本集中的指标数据的百分位数作为候选的分割节点,并且设定每个指标数据最多被分成3份:当以某个节点分割后,使得该指标数据分成两个区域,若两个区域的数据样本量之比小于0.5或大于2,则继续对较大的那个区域进行离散化,否则该指标的离散化结束。6.根据权利要求1所述的医疗大数据分析处理系统,其特征在于,所述数据预处理模块采用检测结果指标数据的平均值来对缺失的指标数据进行填补和采用“1-99”分位法来对指标数据中的离群点进行处理。7.根据权利要求1至6任一项所述的医疗大数据分析处理系统,其特征在于,所述评估度量包括...
【专利技术属性】
技术研发人员:刘希,武洋,李建丽,
申请(专利权)人:国信优易数据有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。