医疗数据的分析方法、系统、介质及装置制造方法及图纸

技术编号:26691919 阅读:20 留言:0更新日期:2020-12-12 02:45
本发明专利技术提供一种医疗数据的分析方法、系统、介质及装置,所述医疗数据的分析方法包括:确定医疗数据集的连续变量统计指标和离散变量统计指标;根据所述连续变量统计指标和离散变量统计指标的离群情况,聚类情况,时间变化平稳性进行异常数据检测;结合多个所述医疗数据集的异常数据检测结果,判断不同医疗数据集之间的差异程度,以向用户动态显示不同医疗数据集之间的比对信息。本发明专利技术针对数据探索性分析场景,在不需要专业IT技能和编程技能的情况下,使得业务人员能够自主完成探索性分析和数据异常检测。

【技术实现步骤摘要】
医疗数据的分析方法、系统、介质及装置
本专利技术属于数据分析的
,涉及一种数据分析方法,特别是涉及一种医疗数据的分析方法、系统、介质及装置。
技术介绍
目前,在机器学习模型建立之前,能够充分的了解数据集的内容,并且识别潜在的数据质量问题,对于基于数据集的分析和建模项目的成功至关重要。但现有的解决方案存在一些不足,主要包括以下几个方面:(1)Excel等软件尽管可以让不具备编程技能的业务人员也能进行一些数据分析,但是能够支持的分析的内容有很强的限制,尤其是在不使用vba编程的情况下难以实现批量的处理。(2)Excel以及类似的诸多软件,只能生成静态分析结果图,无法进行交互性探索。例如,对局部的放大,对特定条件的筛选,关闭、打开特定的数据集等。难以支持探索性分析的需要。(3)对于Jupyter等专业的分析工具,必须具备足够的编程技能(例如python)才能熟练应用。因此,如何提供一种医疗数据的分析方法、系统、介质及装置,以解决现有技术无法突破专业技能限制,自动、全面地进行医疗数据分析等缺陷,成为本领域技术人员亟待解决的技术问题。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种医疗数据的分析方法、系统、介质及装置,用于解决现有技术无法突破专业技能限制,自动、全面地进行医疗数据分析的问题。为实现上述目的及其他相关目的,本专利技术一方面提供一种医疗数据的分析方法,所述医疗数据的分析方法包括:确定医疗数据集的连续变量统计指标和离散变量统计指标;根据所述连续变量统计指标和离散变量统计指标的分布趋势进行异常数据检测;结合多个所述医疗数据集的异常数据检测结果,判断不同医疗数据集之间的差异程度,以向用户动态显示不同医疗数据集之间的比对信息。于本专利技术的一实施例中,确定医疗数据集的连续变量统计指标和离散变量统计指标的步骤包括:分别确定所述医疗数据集中连续变量和离散变量的缺失率;对所述医疗数据集中连续变量和离散变量的数值进行去重处理,并统计各数值的个数;根据各数值的个数确定出现个数最多的数值、出现个数最多的数值占比、出现个数在第二位的数值以及出现个数在第二位的数值占比;确定所述医疗数据集中连续变量的数值型统计指标;确定所述医疗数据集中离散变量取值的占比。于本专利技术的一实施例中,所述医疗数据集包括单变量数据和多元变量组;所述多元变量组是指变量个数大于一个的变量组合;根据所述连续变量统计指标和离散变量统计指标的分布趋势进行异常数据检测的步骤包括:对所述单变量数据进行时序稳定性检测和异常值检测;对所述多元变量组进行聚类分析和/或降维处理。于本专利技术的一实施例中,时序稳定性检测的步骤包括:在业务场景条件未变化时,判断所述连续变量统计指标和离散变量统计指标是否发生变化;若是,判定所述医疗数据集出现异常数据;若否,判定所述医疗数据集的数据稳定。于本专利技术的一实施例中,所述连续变量统计指标包括平均值和标准差;异常值检测的步骤包括:将所述医疗数据集中的连续变量的平均值与标准差整数倍的差值作为第一阈值,将所述连续变量的平均值与标准差整数倍的和作为第二阈值;判断所述医疗数据集中的连续变量是否集中于所述第一阈值与第二阈值确定的范围内;若是,判定所述连续变量未出现异常值;若否,判定所述连续变量出现异常值。于本专利技术的一实施例中,对所述多元变量组进行聚类分析和/或降维处理的步骤包括:对二维或三维的多元变量组进行聚类分析;对超过三维的多元变量组直接进行聚类分析;或对超过三维的多元变量组进行降维处理,通过主成分分析将所述超过三维的多元变量组降为二维或三维的多元变量组,再进行聚类分析;根据聚类分析的结果识别异常聚类样本。于本专利技术的一实施例中,结合多个所述医疗数据集的异常数据检测结果,判断不同医疗数据集之间的差异程度的步骤包括:对多个所述医疗数据集中连续变量和离散变量的通用统计指标进行比较,判断不同医疗数据集之间通用统计指标的差异程度;所述通用统计指标包括:缺失率、去重处理后各数值的个数、出现个数最多的数值、出现个数最多的数值占比、出现个数在第二位的数值以及出现个数在第二位的数值占比;对多个所述医疗数据集中的连续变量统计指标进行比较,判断不同医疗数据集之间连续变量统计指标的差异程度;对多个所述医疗数据集中离散变量取值的占比进行比较,判断不同医疗数据集之间取值分布的差异程度。本专利技术另一方面提供一种医疗数据的分析系统,所述医疗数据的分析系统包括:探索性分析模块,用于确定医疗数据集的连续变量统计指标和离散变量统计指标;异常检测模块,用于根据所述连续变量统计指标和离散变量统计指标的分布趋势进行异常数据检测;差异判断模块,用于结合多个所述医疗数据集的异常数据检测结果,判断不同医疗数据集之间的差异程度,以向用户动态显示不同医疗数据集之间的比对信息。本专利技术又一方面提供一种介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的医疗数据的分析方法。本专利技术最后一方面提供一种装置,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述装置执行所述的医疗数据的分析方法。如上所述,本专利技术所述的医疗数据的分析方法、系统、介质及装置,具有以下有益效果:本专利技术针对不具备专业IT技术和编程技能的业务人员,提供了一种方便可以使用的医疗数据分析工具,使业务人员自动化获取数据集的探索性分析和异常样本检验的结果,并将数据集的探索性分析和异常样本检验的结果以数据图表方式进行可视化呈现,通过呈现结果的交互操作帮助业务人员快速理解数据集的情况和数据异常情况,并考虑对应处理方案。附图说明图1显示为本专利技术的医疗数据的分析方法于一实施例中的原理流程图。图2显示为本专利技术的医疗数据的分析方法于一实施例中的统计指标分析流程图。图3显示为本专利技术的医疗数据的分析方法于一实施例中的异常数值检测流程图。图4显示为本专利技术的医疗数据的分析方法于一实施例中的二维变量聚类分析示意图。图5显示为本专利技术的医疗数据的分析方法于一实施例中的三维变量聚类分析示意图。图6显示为本专利技术的医疗数据的分析方法于一实施例中的模型取值分布对比图。图7显示为本专利技术的医疗数据的分析方法于一实施例中的交互性探索界面图。图8显示为本专利技术的医疗数据的分析系统于一实施例中的结构原理图。图9显示为本专利技术的医疗数据的分析装置于一实施例中的结构连接示意图。元件标号说明8——医疗数据的分析系统;81——探索性分析模块;82——异常检测模块;83——差异判断模块;9——装置;91——处理器;92——存储器;93——通信接口;94——系统总线;S11~S13——步骤。具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式本文档来自技高网...

【技术保护点】
1.一种医疗数据的分析方法,其特征在于,所述医疗数据的分析方法包括:/n确定医疗数据集的连续变量统计指标和离散变量统计指标;/n根据所述连续变量统计指标和离散变量统计指标的分布趋势进行异常数据检测;/n结合多个所述医疗数据集的异常数据检测结果,判断不同医疗数据集之间的差异程度,以向用户动态显示不同医疗数据集之间的比对信息。/n

【技术特征摘要】
1.一种医疗数据的分析方法,其特征在于,所述医疗数据的分析方法包括:
确定医疗数据集的连续变量统计指标和离散变量统计指标;
根据所述连续变量统计指标和离散变量统计指标的分布趋势进行异常数据检测;
结合多个所述医疗数据集的异常数据检测结果,判断不同医疗数据集之间的差异程度,以向用户动态显示不同医疗数据集之间的比对信息。


2.根据权利要求1所述的医疗数据的分析方法,其特征在于,确定医疗数据集的连续变量统计指标和离散变量统计指标的步骤包括:
分别确定所述医疗数据集中连续变量和离散变量的缺失率;
对所述医疗数据集中连续变量和离散变量的数值进行去重处理,并统计各数值的个数;
根据各数值的个数确定出现个数最多的数值、出现个数最多的数值占比、出现个数在第二位的数值以及出现个数在第二位的数值占比;
确定所述医疗数据集中连续变量的数值型统计指标;
确定所述医疗数据集中离散变量取值的占比。


3.根据权利要求1所述的医疗数据的分析方法,其特征在于,所述医疗数据集包括单变量数据和多元变量组;所述多元变量组是指变量个数大于一个的变量组合;根据所述连续变量统计指标和离散变量统计指标的分布趋势进行异常数据检测的步骤包括:
对所述单变量数据进行时序稳定性检测和异常值检测;
对所述多元变量组进行聚类分析和/或降维处理。


4.根据权利要求3所述的医疗数据的分析方法,其特征在于,时序稳定性检测的步骤包括:
在业务场景条件未变化时,判断所述连续变量统计指标和离散变量统计指标是否发生变化;
若是,判定所述医疗数据集出现异常数据;若否,判定所述医疗数据集的数据稳定。


5.根据权利要求3所述的医疗数据的分析方法,其特征在于,所述连续变量统计指标包括平均值和标准差;异常值检测的步骤包括:
将所述医疗数据集中的连续变量的平均值与标准差整数倍的差值作为第一阈值,将所述连续变量的平均值与标准差整数倍的和作为第二阈值;
判断所述医疗数据集中的连续变量是否集中于所述第一阈值与第二阈值确定的范围内;
若是,判定所述连续变量未出现...

【专利技术属性】
技术研发人员:马汉东蔡俊杰
申请(专利权)人:上海森亿医疗科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1