【技术实现步骤摘要】
医疗数据的分析方法、系统、介质及装置
本专利技术属于数据分析的
,涉及一种数据分析方法,特别是涉及一种医疗数据的分析方法、系统、介质及装置。
技术介绍
目前,在机器学习模型建立之前,能够充分的了解数据集的内容,并且识别潜在的数据质量问题,对于基于数据集的分析和建模项目的成功至关重要。但现有的解决方案存在一些不足,主要包括以下几个方面:(1)Excel等软件尽管可以让不具备编程技能的业务人员也能进行一些数据分析,但是能够支持的分析的内容有很强的限制,尤其是在不使用vba编程的情况下难以实现批量的处理。(2)Excel以及类似的诸多软件,只能生成静态分析结果图,无法进行交互性探索。例如,对局部的放大,对特定条件的筛选,关闭、打开特定的数据集等。难以支持探索性分析的需要。(3)对于Jupyter等专业的分析工具,必须具备足够的编程技能(例如python)才能熟练应用。因此,如何提供一种医疗数据的分析方法、系统、介质及装置,以解决现有技术无法突破专业技能限制,自动、全面地进行医疗数据分析等缺陷,成为本领域技术人 ...
【技术保护点】
1.一种医疗数据的分析方法,其特征在于,所述医疗数据的分析方法包括:/n确定医疗数据集的连续变量统计指标和离散变量统计指标;/n根据所述连续变量统计指标和离散变量统计指标的分布趋势进行异常数据检测;/n结合多个所述医疗数据集的异常数据检测结果,判断不同医疗数据集之间的差异程度,以向用户动态显示不同医疗数据集之间的比对信息。/n
【技术特征摘要】
1.一种医疗数据的分析方法,其特征在于,所述医疗数据的分析方法包括:
确定医疗数据集的连续变量统计指标和离散变量统计指标;
根据所述连续变量统计指标和离散变量统计指标的分布趋势进行异常数据检测;
结合多个所述医疗数据集的异常数据检测结果,判断不同医疗数据集之间的差异程度,以向用户动态显示不同医疗数据集之间的比对信息。
2.根据权利要求1所述的医疗数据的分析方法,其特征在于,确定医疗数据集的连续变量统计指标和离散变量统计指标的步骤包括:
分别确定所述医疗数据集中连续变量和离散变量的缺失率;
对所述医疗数据集中连续变量和离散变量的数值进行去重处理,并统计各数值的个数;
根据各数值的个数确定出现个数最多的数值、出现个数最多的数值占比、出现个数在第二位的数值以及出现个数在第二位的数值占比;
确定所述医疗数据集中连续变量的数值型统计指标;
确定所述医疗数据集中离散变量取值的占比。
3.根据权利要求1所述的医疗数据的分析方法,其特征在于,所述医疗数据集包括单变量数据和多元变量组;所述多元变量组是指变量个数大于一个的变量组合;根据所述连续变量统计指标和离散变量统计指标的分布趋势进行异常数据检测的步骤包括:
对所述单变量数据进行时序稳定性检测和异常值检测;
对所述多元变量组进行聚类分析和/或降维处理。
4.根据权利要求3所述的医疗数据的分析方法,其特征在于,时序稳定性检测的步骤包括:
在业务场景条件未变化时,判断所述连续变量统计指标和离散变量统计指标是否发生变化;
若是,判定所述医疗数据集出现异常数据;若否,判定所述医疗数据集的数据稳定。
5.根据权利要求3所述的医疗数据的分析方法,其特征在于,所述连续变量统计指标包括平均值和标准差;异常值检测的步骤包括:
将所述医疗数据集中的连续变量的平均值与标准差整数倍的差值作为第一阈值,将所述连续变量的平均值与标准差整数倍的和作为第二阈值;
判断所述医疗数据集中的连续变量是否集中于所述第一阈值与第二阈值确定的范围内;
若是,判定所述连续变量未出现...
【专利技术属性】
技术研发人员:马汉东,蔡俊杰,
申请(专利权)人:上海森亿医疗科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。