一种针对大样本量流行病学数据的统计分析系统技术方案

技术编号:37442276 阅读:15 留言:0更新日期:2023-05-06 09:14
本发明专利技术公开了一种针对大样本量流行病学调查数据的智能统计分析系统,本发明专利技术涉及信息处理技术领域。所述系统由分类汇总整理子系统、智能纠错统计分析子系统和流行病学数据库筛查子系统三部分组成,其中分类汇总子系统用于将所有流行病学调查资料整理汇总;智能纠错统计分析子系统用于筛查分析变量中错误值、缺失值及离群值,并对分析变量进行统计分析;流行病学数据库筛查子系统用于与已知数据库检索比对,对潜在的密切接触者做出重点筛查,为准确快速地判定感染来源提供依据。该系统具有显著降低人工工作量,结果快速、准确、可靠,适用范围广等特点。用范围广等特点。用范围广等特点。

【技术实现步骤摘要】
一种针对大样本量流行病学数据的统计分析系统


[0001]本专利技术涉及信息处理
,具体涉及一种针对大样本量流行病学调查数据的智能统计分析系统。

技术介绍

[0002]流行病学调查是研究流行病学的主要方法之一。通过调查、收集人群健康状况、环境因素、社会因素,分析病例的分布、变化及其规律,探索和阐明病因。
[0003]传统的流行病学调查方法包括问卷调查、现场调查、询问座谈等,其主要目的是了解疾病分布情况,描述某些危险因素和评价疾病防治措施等。以新型冠状病毒肺炎疫情流行病学调查为例,流行病学调查的主要工作包括:调查疑似病例的基本信息和密切接触者情况;调查确诊病例和无症状感染者的基本信息、发病和就诊情况、临床特征、危险因素和暴露史;判定和管理密切接触者,及时做出流行病学调查结论。这些工作往往需要对大量的流行病学调查数进行汇总整理,并且准确快速地分析判定感染来源。
[0004]目前,针对大样本量流行病学调查收集到的资料缺乏快速汇总和统计分析的工具,大量流行病学问卷调查信息需要人工整理、汇总,而人工整理存在明显缺点和不足,比如,工作量繁巨、效率低、易出错、人力成本高等问题。

技术实现思路

[0005]针对上述问题,本专利技术构建了一种针对大样本量流行病学调查资料进行分类汇总、纠错、筛查的智能统计分析系统,该系统由分类汇总整理子系统、智能纠错统计分析子系统和流行病学数据库筛查子系统三部分组成。该系统具有显著降低人工工作量,结果快速、准确、可靠,适用范围广等特点。
[0006]本专利技术公开了一种针对大样本量流行病学数据的统计分析系统,其特征在,该系统由分类汇总整理子系统、智能纠错统计分析子系统和流行病学数据库筛查子系统三部分组成;其中,(1)所述分类汇总子系统用于将所有流行病学调查资料汇总,并按照分析变量进行分类整理;(2)所述智能纠错统计分析子系统用于对流行病学资料汇总数据的纠错、处理和初步统计分析。以e=sum(isnan(num))、w=find(num~=0&num~=1) 筛查二分类变量中错误值、缺失值,输出缺失值和错误值的数量和比例,错误值和缺失值比例小于5%,采用中位数填充;筛查分析变量中缺失值、离群值,输出缺失值和离群值的数量和比例,并将离群值做删除处理;对分析变量进行统计分析,包括正态分布曲线、散点图及回归直线;(3)所述流行病学数据库筛查子系统用于与已知数据库检索比对,对潜在的密切接触者做出重点筛查。汇总工作表中待筛查列建立矩阵,采用矩阵向量循环对比,实现对潜在风险的快速排查,为准确快速地判定感染来源提供依据。
[0007]进一步地,上述所述统计分析系统具体包括以下步骤:
S1分类汇总整理子系统:S11该子系统包括将流行病学调查资料中基本信息和分析变量汇总,放置在一个工作表内,命名为

总汇总

;其中基本信息是指与分析变量相关的个体信息,可根据统计分析目的有所变动;分析变量为本次统计中所要分析的内容;S12将调查表中各分析变量数据分别进行相关信息的汇总,放置在工作表2,并以分析变量命名工作表;S13上述所有工作表汇总后,分别以各工作表第一列作为序号列,读取各工作表数据行数,简单相加即得到被统计总人数,再将数组转化为元细胞组填充进各汇总表格第一列;S14上述所有工作表存放在一个工作簿中,后续操作在该工作薄中进行,保持原始数据的完整性;S2智能纠错统计分析子系统:S21该子系统读取“总汇总”工作表中二分类变量列数据,检查其是否存在缺失值,若存在缺失数据,以e=sum(isnan(num)) 准确查找识别缺失值数量后输出缺失数量,计算缺失比例后输出;S22读取“总汇总”工作表中二分类变量列数据,筛查其是否存在错误值,由于二分类变量在数据录入时,通常以1和以0表示非此即彼的结果,若出现非1非0数据则为错误值,以w=find(num~=0&num~=1) 进行筛查,输出错误值数量和比例,将所有工作表中错误值删除;S23读取所要分析的分析变量汇总表中的分析变量列数据,同二分类变量缺失值的筛查方式,以sum(isnan(num))计算缺失值的数量,find(isnan(num))查找缺失值具体位置,输出析变量缺失值数量、比例和具体位置;S24在离群值的处理前先绘制分析变量原始折线图,放置在分析变量工作表中;S25读取分析变量汇总表中分析变量列数据,以95%的置信度,根据回归所得残差,具体表现为:[b,bint,r,rint]=regress(y,x,0.05),其中bint为b置信区间,r为残差,同理rint为残差r置信区间;S26进一步计算残差的均值和标准差,继而算法计算每一变量值的标准残差值,若标准残差值大于3或小于

3则表示该值为离群值,同时输出该变量中离群值数量、比例和具体位置;若离群值做删除处理,表现为o=find(yy>3|yy<

3),y(o)=nan;S27在离群值做删除处理后,写入

总汇总

工作表中该分析变量列和分析变量工作表中,将离群值处理后写入上述两个工作表中,绘制经处理后变量的折线图放置在分析变量工作表中,若变量中不存在离群值,将不绘制该图;S28散点图的绘制:虽然读取了分析变量列数据,但是由于该图是在处理完离群值的基础上再进行绘制,因此还需要再次读取分析变量数据作为因变量,自变量与回归分析中的自变量相同;将散点图及回归直线放置在分析变量汇总表中,获得经处理后变量的散点图;S29正态分布曲线的绘制:绘制正态分布曲线放置在分析变量工作表;S3流行病学数据库筛查子系统:该子系统与已知数据库检索对比筛查变量相同内容并标记,对“总汇总”工作表中
待筛查列建立矩阵,采用矩阵向量循环对比,实现对潜在风险的快速排查,为准确快速地判定感染来源提供依据。
[0008]更进一步地,上述所述具体步骤S21和S22中所述二分类变量列缺失值和错误值的筛查和处理中若二分类变量中缺失和错误值比例较低,低于5%,以find(isnan(num))确定具体位置再以中位数进行填充至所有工作表中;若数值完全正确则跳过该步骤进行分析变量中缺失值和离群值的识别和处理。
[0009]更进一步地,上述所述具体步骤S26中标准残差值范围依据:根据最小二乘法计算回归直线,其中b为回归系数,a为截距。再由计算残差值,由计算标准残差,其中为残差标准差。
[0010]更进一步地,上述所述具体步骤S29中正态分布曲线绘制还包括:若S27中数据处理过程中删除了离群值,在读取的分析变量数据中需要删除空缺部分,才可以自动绘制正态分布曲线,否则图片是一片空白,因此,删除空缺的部分后需要将数据从小到大排序,分析变量的均值和标准差,根据均值和标准差绘制正态分布曲线。
[0011]更进一步地,上述所述具体步骤S3筛查表现为模糊和精确筛查,取决于数据库资料类型;所述待筛查列单元格包含数据库的任意内容,在行末以

√√
...

【技术保护点】

【技术特征摘要】
1.一种针对大样本量流行病学数据的统计分析系统,其特征在,该系统由分类汇总整理子系统、智能纠错统计分析子系统和流行病学数据库筛查子系统三部分组成;其中,(1)所述分类汇总子系统用于将所有流行病学调查资料汇总,并按照分析变量进行分类整理;(2)所述智能纠错统计分析子系统用于对流行病学资料汇总数据的纠错、处理和初步统计分析:以e=sum(isnan(num))、w=find(num~=0&num~=1) 筛查二分类变量中错误值、缺失值,输出缺失值和错误值的数量和比例,错误值和缺失值比例小于5%,采用中位数填充;筛查分析变量中缺失值、离群值,输出缺失值和离群值的数量、比例和具体位置,并将离群值做删除处理;对分析变量进行统计分析,包括正态分布曲线、散点图及回归直线;(3)所述流行病学数据库筛查子系统用于与已知数据库检索比对,对潜在的密切接触者做出重点筛查:汇总工作表中待筛查列建立矩阵,采用矩阵向量循环对比,实现对潜在风险的快速排查,为准确快速地判定感染来源提供依据。2.根据权利要求1所述的针对大样本量流行病学数据的统计分析系统,其特征在于,具体包括以下步骤:S1分类汇总子系统:S11该子系统包括将流行病学调查资料中基本信息和分析变量汇总,放置在一个工作表内,命名为

总汇总

;其中基本信息是指与分析变量相关的个体信息,可根据统计分析目的有所变动;分析变量为本次统计中所要分析的内容;S12将调查表中各分析变量数据分别进行相关信息的汇总,放置在工作表2,并以分析变量命名工作表;S13上述所有工作表汇总后,分别以各工作表第一列作为序号列,读取各工作表数据行数,简单相加即得到被统计总人数,再将数组转化为元细胞组填充进各汇总表格第一列;S14上述所有工作表存放在一个工作簿中,后续操作在该工作薄中进行,保持原始数据的完整性;S2智能纠错分析子系统:S21该子系统读取“总汇总”工作表中二分类变量列数据,检查其是否存在缺失值,若存在缺失数据,以e=sum(isnan(num)) 准确查找识别缺失值数量后输出缺失数量,计算缺失比例后输出;S22读取“总汇总”工作表中二分类变量列数据,筛查其是否存在错误值,由于二分类变量在数据录入时,通常以1和以0表示非此即彼的结果,若出现非1非0数据则为错误值,以w=find(num~=0&num~=1) 进行筛查,输出错误值数量和比例,将所有工作表中错误值删除;S23读取所要分析的分析变量汇总表中的分析变量列数据,同二分类变量缺失值的筛查方式,以sum(isnan(num))计算缺失值的数量,find(isnan(num))查找缺失值具体位置,输出析变量缺失值数量、比例和具体位置;S24在离群值的处理前先绘制分析变量原始折线图,放置在分析变量工作表中;S25读取分析变量汇总表中分析变量列数据,以95%的置信度,根据回归所得残差,具体表现为:[b,bint,r,rint]=regress(y,x,0.05),其中bint为b置信区间,r为残差,同理rint为残差r置信区间;S26进一步计算残差的均值和标准差,继而算法计算每一变量值的标准残差值,若标准
残差值大于3或小于

3则表示该值为离群值,同时输出该变量中离群值数量、比例和具体...

【专利技术属性】
技术研发人员:田福林邓宇钟瑞李依冉
申请(专利权)人:中国医科大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1