一种科研数据相关性质控方法和系统技术方案

技术编号:34563619 阅读:23 留言:0更新日期:2022-08-17 12:52
本发明专利技术属于科研数据预处理技术领域,具体涉及一种科研数据相关性质控方法和系统。本发明专利技术的方法包括如下步骤:步骤1,输入科研数据表,基于预设的相关性质控规则,对所述科研数据表中的相关性数据进行抽样,获得相关性统计样本集;步骤2,对步骤1得到的所述样本集中的样本数据进行相关性统计分析,确定相关性质控规则的置信区域;步骤3,利用步骤2获得的置信区域及预设的相关性质控规则,对所述科研数据表中的相关性数据进行核查,输出核查结果。本发明专利技术能够克服现有技术中方法的逻辑、范围设置固定的问题,对数据的普适性更好,在科研数据的质控中具有很好的应用前景。的质控中具有很好的应用前景。的质控中具有很好的应用前景。

【技术实现步骤摘要】
一种科研数据相关性质控方法和系统


[0001]本专利技术属于科研数据预处理
,具体涉及一种科研数据相关性质控方法和系统。

技术介绍

[0002]医疗相关科研数据通常需要人工从某一地区或者某一人群中采集,并存储到相关的科研数据表中,这类科研数据的样本量和数据类型(如性别、年龄等)通常较多。因此,为了保证人工采集科研数据的质量,进而保证科研结果的准确性,需要对科研数据表中的数据进行质量控制。
[0003]现有技术中通常采用的质控项目包括空值率检测、枚举值检测(如性别不是男就是女不可能包含其他值)、值域检测(如年龄大于0岁小于150岁,体重大于0KG小于1000KG)等,若对科研数据质控结果显示数据异常,则筛选出异常值后进行人工核实确认。
[0004]而除了这些质控项目外,数据表中各列(即各种数据类型)之间的相关性也是很重要的,例如,年龄和体重具有相关性,1岁的孩子不可能100KG,10岁的孩子不可能10KG。而现有技术中数据表各列间的相关性质控分析仅仅是由技术人员编写程序代码,利用固定的逻辑或范围对数据进行质控分析,筛选异常点本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种科研数据相关性质控方法,其特征在于,包括如下步骤:步骤1,输入科研数据表,基于预设的相关性质控规则,对所述科研数据表中的相关性数据进行抽样,获得相关性统计样本集;步骤2,对步骤1得到的所述样本集中的样本数据进行相关性统计分析,确定相关性质控规则的置信区域;步骤3,利用步骤2获得的置信区域及预设的相关性质控规则,对所述科研数据表中的相关性数据进行核查,输出核查结果。2.按照权利要求1所述的科研数据相关性质控方法,其特征在于:所述科研数据表中的相关性数据包括性别、民族、三围、年龄、身高、体重或地区中至少两种的组合。3.按照权利要求1所述的科研数据相关性质控方法,其特征在于:步骤1中,所述抽样的数量的确定方式为:根据所述科研数据表中的相关性数据样本量和/或根据所述相关性质控规则按照绝对数量或比例进行预设。4.按照权利要求1所述的科研数据相关性质控方法,其特征在于:步骤2的具体过程包括如下步骤:步骤2.1,针对每一个待分析相关性数据,绘制其相对于其他待分析相关性数据的分布拟合曲线;步骤2.2,根据预设的置信水平,确定所述分布拟合曲线的置信区间;对...

【专利技术属性】
技术研发人员:夏鑫王洋董碧蓉
申请(专利权)人:四川大学华西医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1