System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及计算机领域,尤其涉及一种基于真实世界研究平台数据的自动化批量统计分析方法及装置。
技术介绍
1、真实世界研究平台收录的数据种类多,数据量大。通过统计学方法对于各类字段统计分析得出的结果,是了解数据整体情况的重要参考,而目前其他数据平台对于数据进行批量统计分析只能下载之后再通过第三方分析应用进行分析得出结果,在带来一定工作量的同时,真实世界数据的安全性难以保证,因此建立基于真实世界研究平台数据的自动化批量数据分析系统,可减少工作量并且提高安全性,对医学科研产出的效率和安全性都有重要意义。
技术实现思路
1、本专利技术旨在提供一种克服上述问题或者至少部分地解决上述问题的基于真实世界研究平台数据的自动化批量统计分析方法及装置。
2、为达到上述目的,本专利技术的技术方案具体是这样实现的:
3、本专利技术的一个方面提供了一种基于真实世界研究平台数据的自动化批量统计分析方法,包括:确定分析目标;通过数据接口获取真实世界研究平台的数据;基于所述数据的数据类型进行对应的数据预处理;确定合适的统计分析工具和算法,对预处理后的数据进行统计分析;将统计分析结果进行可视化展示,并生成分析结果报告;自动化生成优化建议。
4、其中,所述分析目标包括:数据库、模块或字段。
5、其中,所述确定分析目标包括:根据研究者的历史数据,自动识别关键趋势、异常值和模式,并为研究者推荐数据驱动的决策建议。
6、其中,所述数据类型包括:离散型数据、连续型
7、其中,所述数据预处理包括:最值归一化、z-score规范化、类别平衡化、阈值移动、欠采样法easyensemble或过采样法smote。
8、其中,所述统计分析工具和算法包括:k近邻、决策树、朴素贝叶斯、逻辑回归、支持向量机或随机森林。
9、本专利技术的另一个方面提供了一种基于真实世界研究平台数据的自动化批量统计分析装置,包括:确定模块,用于确定分析目标;获取模块,用于通过数据接口获取真实世界研究平台的数据;预处理模块,用于基于所述数据的数据类型进行对应的数据预处理;统计分析模块,用于确定合适的统计分析工具和算法,对预处理后的数据进行统计分析;生成模块,用于将统计分析结果进行可视化展示,并生成分析结果报告;建议模块,用于自动化生成优化建议。
10、其中,所述分析目标包括:数据库、模块或字段。
11、其中,所述确定模块通过如下方式确定分析目标:根据研究者的历史数据,自动识别关键趋势、异常值和模式,并为研究者推荐数据驱动的决策建议。
12、其中,所述数据类型包括:离散型数据、连续型数据或文本类数据;所述数据预处理包括:最值归一化、z-score规范化、类别平衡化、阈值移动、欠采样法easyensemble或过采样法smote;所述统计分析工具和算法包括:k近邻、决策树、朴素贝叶斯、逻辑回归、支持向量机或随机森林。
13、由此可见,通过本专利技术提供的基于真实世界研究平台数据的自动化批量统计分析方法及装置,可以直接对接真实世界研究平台的数据,通过机器学习的分类算法根据数据类型自动识别分类,自动匹配对应的统计分析;直接对真实世界研究平台的数据进行自动化批量数据分析,减少研究人员工作量及学习成本;相对于使用传统第三方数据分析软件,直接内部对接真实世界研究平台进行数据分析减少数据的流出风险,同时使用者无需下载数据集直接得到分析结果。
本文档来自技高网...【技术保护点】
1.一种基于真实世界研究平台数据的自动化批量统计分析方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述分析目标包括:数据库、模块或字段。
3.根据权利要求1或2所述的方法,其特征在于,所述确定分析目标包括:
4.根据权利要求1所述的方法,其特征在于,所述数据类型包括:离散型数据、连续型数据或文本类数据。
5.根据权利要求1所述的方法,其特征在于,所述数据预处理包括:最值归一化、Z-Score规范化、类别平衡化、阈值移动、欠采样法EasyEnsemble或过采样法SMOTE。
6.根据权利要求1所述的方法,其特征在于,所述统计分析工具和算法包括:K近邻、决策树、朴素贝叶斯、逻辑回归、支持向量机或随机森林。
7.一种基于真实世界研究平台数据的自动化批量统计分析装置,其特征在于,包括:
8.根据权利要求7所述的装置,其特征在于,所述分析目标包括:数据库、模块或字段。
9.根据权利要求7或8所述的装置,其特征在于,所述确定模块通过如下方式确定分析目标:
10.
...【技术特征摘要】
1.一种基于真实世界研究平台数据的自动化批量统计分析方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述分析目标包括:数据库、模块或字段。
3.根据权利要求1或2所述的方法,其特征在于,所述确定分析目标包括:
4.根据权利要求1所述的方法,其特征在于,所述数据类型包括:离散型数据、连续型数据或文本类数据。
5.根据权利要求1所述的方法,其特征在于,所述数据预处理包括:最值归一化、z-score规范化、类别平衡化、阈值移动、欠采样法easyensemble或过采样法smot...
【专利技术属性】
技术研发人员:刘婉姮,李建涛,张浩,刘影,马雪琦,赵子欣,王萌,牟昱珅,唐佩福,
申请(专利权)人:中国人民解放军总医院第四医学中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。