System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种医疗健康大数据优化采集方法技术_技高网

一种医疗健康大数据优化采集方法技术

技术编号:40844794 阅读:4 留言:0更新日期:2024-04-01 15:12
本发明专利技术涉及数据处理技术领域,尤其涉及一种医疗健康大数据优化采集方法,该方法获取初始医疗健康大数据,对初始医疗健康大数据进行预设的数据预处理,得到医疗健康大数据,获取医疗健康大数据中的任一类目标数据;获取目标数据的平滑拟合曲线;将目标数据与平滑拟合曲线上对应的拟合值做差,得到差值集合,根据差值集合构建得到差值直方图,根据差值直方图的正态分布曲线和概率密度曲线,确定正态分布时区间,根据正态分布时区间确定目标数据中的异常目标数据,对目标数据中的异常目标数据进行剔除,得到优化后的医疗健康大数据,提高了对目标数据进行跳点数据清洗的效果,完成了对医疗健康大数据的优化采集。

【技术实现步骤摘要】

本专利技术涉及数据处理,尤其涉及一种医疗健康大数据优化采集方法


技术介绍

1、在当今数字化时代,医疗健康领域积累了大量的数据,包括病患信息、医学影像、实验室结果等。这些大数据的采集、管理和分析对于医疗决策、科学研究以及患者个性化治疗具有重要意义。但医疗健康大数据在采集和传输过程中由于设备老化和噪声影响,往往会产生异常值,因此,在对医疗健康大数据采集时,需要对医疗健康大数据进行数据清洗。

2、传统数据清洗包括跳点数据的去除、缺失数据的填补、重复数据的剔除和漂移数据的对齐,其中缺失数据的填补、重复数据的剔除和漂移数据的对齐可以根据邻域数据的相似性进行处理,而跳点数据主要分为三类,分别为明显超出数据正常波动范围的“野点”、处于数据正常波动范围内但明显偏离整体变化趋势的异常点以及在数据变化趋势周围小范围波动的异常点。跳点去除难以根据邻域数据进行判定,传统跳点去除通常采用阈值法,阈值法对第一类跳点(突变式)效果较好,但对后两类跳点(渐进式)处理效果较差,渐进式跳点较难处理且在实际监测过程中也更为常见。

3、因此,如何提高对医疗健康大数据进行跳点数据清洗的效果,以优化对医疗健康大数据的采集成为亟需解决的问题。


技术实现思路

1、有鉴于此,本专利技术实施例提供了一种医疗健康大数据优化采集方法,以解决如何提高对医疗健康大数据进行跳点数据清洗的效果,以优化对医疗健康大数据的采集的问题。

2、本专利技术实施例中提供了一种医疗健康大数据优化采集方法,该医疗健康大数据优化采集方法包括以下步骤:

3、获取初始医疗健康大数据,对所述初始医疗健康大数据进行预设的数据预处理,得到医疗健康大数据,获取所述医疗健康大数据中的任一类目标数据;

4、对所述目标数据进行数据值统计得到对应的直方图,获取所述直方图的正态分布曲线,将所述直方图中的每个区间的频数转换为概率密度,构建得到概率密度曲线,根据所述正态分布曲线和所述概率密度曲线,获取所述目标数据的平滑拟合曲线;

5、将所述目标数据与所述平滑拟合曲线上对应的拟合值做差,得到差值集合,根据所述差值集合构建得到差值直方图,获取所述差值直方图的正态分布曲线和概率密度曲线,根据所述差值直方图的正态分布曲线和概率密度曲线,确定正态分布时区间,根据所述正态分布时区间确定所述差值集合中的异常差值;

6、根据所述异常差值确定所述目标数据中的异常目标数据,对所述目标数据中的异常目标数据进行剔除,得到优化后的医疗健康大数据。

7、进一步的,所述根据所述正态分布曲线和所述概率密度曲线,获取所述目标数据的平滑拟合曲线,包括:

8、利用dtw算法获取所述正态分布曲线与所述概率密度曲线之间的第一相似度,将所述第一相似度与预设的相似度阈值进行对比,得到对应的对比结果;

9、根据所述对比结果确定所述正态分布曲线上的目标正态分布时区间,将所述目标正态分布时区间内的数据作为所述目标数据的筛选数据,对所述筛选数据进行曲线拟合,得到的拟合曲线作为所述目标数据的平滑拟合曲线。

10、进一步的,所述根据所述对比结果确定所述正态分布曲线上的目标正态分布时区间,包括:

11、若所述对比结果为所述第一相似度大于或等于所述相似度阈值,则所述正态分布曲线上的目标正态分布时区间为三个标准差对应的正态分布时区间;

12、若所述对比结果为所述第一相似度小于所述相似度阈值,计算所述第一相似度和所述相似度阈值之间的乘积,获取所述乘积与常数3之间的比值,将所述比值作为标准差的第一数量,则所述正态分布曲线上的目标正态分布时区间为所述第一数量个标准差对应的正态分布时区间。

13、进一步的,所述根据所述差值直方图的正态分布曲线和概率密度曲线,确定正态分布时区间,包括:

14、利用dtw算法获取所述差值直方图的正态分布曲线和概率密度曲线之间的第二相似度,将所述第二相似度与预设的相似度阈值进行对比,若所述第二相似度大于或等于所述相似度阈值,则所述正态分布时区间为所述差值直方图的正态分布曲线上的三个标准差所对应的正态分布时区间;

15、若所述第二相似度小于所述相似度阈值,根据所述差值集合中的差值类型,获取标准差的第二数量,则所述正态分布时区间为所述差值直方图的正态分布曲线上的第二数量个标准差所对应的正态分布时区间。

16、进一步的,所述根据所述差值集合中的差值类型,获取标准差的第二数量,包括:

17、针对所述差值集合中的任一类差值,根据所述类差值在所述差值集合中的位置,分别获取每两个相邻差值之间的位置距离,得到位置距离序列,统计所述位置距离序列中的每类位置距离的第三数量,得到第三数量的方差,对所述第三数量的方差进行负映射,得到对应的映射值,将常数1与所述映射值之间的差值作为所述类差值的规律性指标;

18、根据所述差值集合中的每类差值的规律性指标,获取规律性指标均值,将所述规律性指标均值与常数3的乘积作为标准差的第二数量。

19、进一步的,所述根据所述正态分布时区间确定所述差值集合中的异常差值,包括:

20、将所述差值直方图的正态分布曲线上的正态分布时区间之外的差值作为所述差值集合中的异常差值。

21、进一步的,所述根据所述异常差值确定所述目标数据中的异常目标数据,包括:

22、在所述目标数据中确定所述异常差值对应的数据,并将所述异常差值对应的数据作为异常目标数据。

23、进一步的,所述对所述目标数据中的异常目标数据进行剔除,得到优化后的医疗健康大数据,包括:

24、根据所述平滑拟合曲线获取所述异常目标数据对应的拟合值,将所述目标数据中的异常目标数据替换为对应的拟合值,得到优化后的医疗健康大数据。

25、进一步的,所述预设的数据预处理包括:缺失数据的填补、重复数据的剔除和漂移数据的对比。

26、进一步的,所述获取所述直方图的正态分布曲线,包括:

27、使用最小二乘法拟合得到所述直方图的正态分布曲线。

28、本专利技术实施例与现有技术相比存在的有益效果是:

29、本专利技术获取初始医疗健康大数据,对所述初始医疗健康大数据进行预设的数据预处理,得到医疗健康大数据,获取所述医疗健康大数据中的任一类目标数据;对所述目标数据进行数据值统计得到对应的直方图,获取所述直方图的正态分布曲线,将所述直方图中的每个区间的频数转换为概率密度,构建得到概率密度曲线,根据所述正态分布曲线和所述概率密度曲线,获取所述目标数据的平滑拟合曲线;将所述目标数据与所述平滑拟合曲线上对应的拟合值做差,得到差值集合,根据所述差值集合构建得到差值直方图,获取所述差值直方图的正态分布曲线和概率密度曲线,根据所述差值直方图的正态分布曲线和概率密度曲线,确定正态分布时区间,根据所述正态分布时区间确定所述差值集合中的异常差值;根据所述异常差值确定所述目标数据中的异常目标数据,对所述目标数据中本文档来自技高网...

【技术保护点】

1.一种医疗健康大数据优化采集方法,其特征在于,所述一种医疗健康大数据优化采集方法包括:

2.根据权利要求1所述的一种医疗健康大数据优化采集方法,其特征在于,所述根据所述正态分布曲线和所述概率密度曲线,获取所述目标数据的平滑拟合曲线,包括:

3.根据权利要求2所述的一种医疗健康大数据优化采集方法,其特征在于,所述根据所述对比结果确定所述正态分布曲线上的目标正态分布时区间,包括:

4.根据权利要求1所述的一种医疗健康大数据优化采集方法,其特征在于,所述根据所述正态分布时区间确定所述差值集合中的异常差值,包括:

5.根据权利要求1所述的一种医疗健康大数据优化采集方法,其特征在于,所述根据所述异常差值确定所述目标数据中的异常目标数据,包括:

6.根据权利要求1所述的一种医疗健康大数据优化采集方法,其特征在于,所述对所述目标数据中的异常目标数据进行剔除,得到优化后的医疗健康大数据,包括:

7.根据权利要求1所述的一种医疗健康大数据优化采集方法,其特征在于,所述预设的数据预处理包括:缺失数据的填补、重复数据的剔除和漂移数据的对比。

8.根据权利要求1所述的一种医疗健康大数据优化采集方法,其特征在于,所述获取所述直方图的正态分布曲线,包括:

...

【技术特征摘要】

1.一种医疗健康大数据优化采集方法,其特征在于,所述一种医疗健康大数据优化采集方法包括:

2.根据权利要求1所述的一种医疗健康大数据优化采集方法,其特征在于,所述根据所述正态分布曲线和所述概率密度曲线,获取所述目标数据的平滑拟合曲线,包括:

3.根据权利要求2所述的一种医疗健康大数据优化采集方法,其特征在于,所述根据所述对比结果确定所述正态分布曲线上的目标正态分布时区间,包括:

4.根据权利要求1所述的一种医疗健康大数据优化采集方法,其特征在于,所述根据所述正态分布时区间确定所述差值集合中的异常差值,包括:

5...

【专利技术属性】
技术研发人员:戈艺
申请(专利权)人:济宁医学院附属医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1