当前位置: 首页 > 专利查询>四川大学专利>正文

一种评估大型面对面调查中调查员误差的方法技术

技术编号:35764768 阅读:28 留言:0更新日期:2022-12-01 14:00
本发明专利技术公开了一种评估大型面对面调查中调查员误差的方法,包括基线调查获取问卷数据和录音数据;对问卷数据预处理后采用Fast

【技术实现步骤摘要】
一种评估大型面对面调查中调查员误差的方法


[0001]本专利技术涉及数据质量控制
,具体的说,是一种评估大型面对面调查中调查员误差的方法。

技术介绍

[0002]在大型流行病学调查中,常通过面对面调查的方式收集信息。然而,面对面调查这种数据收集方式难免会引入调查员误差,进而影响数据质量和研究结果的可靠性。传统的流行病学调查专注于通过完善调查设计、加强调查员培训等措施进行数据质量控制,然而由于缺乏切实可行的数据质量评估手段以及受制于有限的人力物力,上述常规的数据质量控制措施并不能保证数据质量。

技术实现思路

[0003]本专利技术的目的在于提供一种评估大型面对面调查中调查员误差的方法,用于解决现有技术中的数据质量控制缺乏数据质量评估手段以及受制于有限的人力物力数据质量控制措施得不到质量保证的问题。
[0004]本专利技术通过下述技术方案解决上述问题:
[0005]一种评估大型面对面调查中调查员误差的方法,包括:
[0006]步骤S1:通过电子信息平台采集基线调查的问卷数据和录音数据,并按照调查对象生成问卷数据和录音数据的索引;
[0007]步骤S2:基线调查完成后,导出问卷数据,预处理后采用Fast

MCD算法识别离群调查对象,具体包括:
[0008]步骤S21:问卷数据包含n行p列,表示包含n个调查对象,每个调查对象包含p个变量的信息,则从n个调查对象中抽取h个样本数据,其中h的取值必须满足为兼顾良好的稳健性和计算效率,h取值0.8n;
[0009]步骤S22:计算这h个样本数据的样本均值协方差阵和协方差行列式基于和进一步计算n个调查对象的马氏距离:
[0010][0011]步骤S23:将n个调查对象的马氏距离从小到大排序,选出距离最小的h个调查对象,再计算这h个调查对象的样本均值协方差阵协方差行列式以及h个调查对象的马氏距离;
[0012]步骤S24:按照步骤S21~步骤S23进行迭代计算,若第m次的则以由第m次的样本计算得到的均值和协方差作为最终的均值和协方差的稳健估计量,记作
[0013]步骤S25:基于稳健估计量,计算所有调查对象的马氏距离:
[0014][0015]步骤S26:将马氏距离大于预设值的调查对象判定为离群点;
[0016]步骤S3:根据调查员误差评估规则,对离群调查对象进行录音核查:
[0017]质控员登录电子信息平台,根据唯一索引检索离群点对应的调查对象的问卷数据和录音文件,判断该调查对象的问卷数据与录音是否一致,若不一致则说明调查员未能准确捕捉和记录调查对象的回答,即存在调查员误差;记录核查结果,核查结果归为五类:正确、提问方式错误、未问/未追问、录入错误以及无法核实,其中,提问方式错误、未问/未追问和录入错误均属于存在调查员误差;
[0018]步骤S4:基于录音核查数据,构建误差发生率指标及误差贡献率指标,评估调查员误差的发生情况,得到:
[0019][0020][0021][0022][0023]不同的调查员可能调查一位或者多位调查对象,通过计算不同调查员的调查员误差发生率来评估调查员的调查情况,不同调查员的调查员误差的发生率计算如下:
[0024][0025][0026][0027][0028]其中,存在调查员误差的问题数=存在提问方式错误的问题数+存在未问/未追问的问题数+存在录入错误的问题数。
[0029]还包括步骤S5:基于计算得到的调查员误差发生率,进一步分析调查员误差在不同调查员的流行特征,探究调查员误差的分布模式和聚集模式;分布模式通过概率密度图来反映;聚集模式用于探究调查员误差是否集中出现在部分调查员。
[0030]还包括步骤S6:根据计算得到的不同调查员的调查员误差发生率ER
i
,进一步计算各个调查员的调查员误差贡献率为其中k表示调查员的数量,ER
i
、ER
j
分别表示第i和第j个调查员的调查员误差发生率;取值越大,说明此位调查员发生调查员误差的风险越大。
[0031]本专利技术与现有技术相比,具有以下优点及有益效果:
[0032](1)本专利技术创新性地提出通过录音核查的方式评估数据质量,相比于重复调查并比较调查数据一致性这一常规手段,录音核查节省了二次调查耗费的人力物力,也避免了重复调查中存在的由于两次调查时间不同导致的数据本身差异这一问题。
[0033](2)本专利技术独创性引入离群值检测算法,基于此对异常数据开展录音核查工作,实现了以较低成本发现和纠正尽可能多的调查员误差,在大型流行病学调查中具有深远的应用价值。
[0034](3)本专利技术量化了各调查员对调查员误差的贡献,有利于今后采取措施减少调查员误差的发生,提高数据质量。
附图说明
[0035]图1为本专利技术的流程图。
具体实施方式
[0036]下面结合实施例对本专利技术作进一步地详细说明,但本专利技术的实施方式不限于此。
[0037]实施例1:
[0038]结合图1所示,一种评估大型面对面调查中调查员误差的方法,包括基线调查、离群点检测、录音查核和核查后分析四大步骤,具体如下:
[0039]第一步,基线调查时,采用面对面调查的方式收集数据,并且全程录音。具体而言,搭建电子信息平台,实现调查全流程的信息化,电子信息平台需包括下述功能模块:
[0040]1)数据采集模块(PAD端):通过PAD端采集问卷数据和录音数据,联网情况下同时上传问卷数据和录音数据。
[0041]2)数据管理模块(电脑端):生成每位调查对象的唯一索引,能够通过唯一索引检索调查对象的问卷数据和录音文件;也能通过关键词查询符合条件的调查对象,并实现问卷和录音数据的批量导出。
[0042]3)质量控制模块(电脑端):检索特定调查对象的问卷数据和录音文件,可以一边查看问卷,边听录音,并填写质控报告。
[0043]第二步,基线调查完成后,导出问卷数据。删除重复调查对象、存在缺失值的调查对象后,采用多变量离群点检测算法—最小协方差行列式(MCD)(即Fast

MCD算法)识别问卷数据中的异常调查对象,具体包括:
[0044]步骤S21:问卷数据包含n行p列,表示包含n个调查对象,每个调查对象包含p个变
量的信息,则从n个调查对象中抽取h个样本数据,其中h的取值必须满足h取值越大意味着MCD法运算越高效,但同时意味着估计量的稳健性的降低,为兼顾良好的稳健性和计算效率,h取值0.8n;
[0045]步骤S22:计算这h个样本数据的样本均值协方差阵和协方差行列式基于和进一步计算n个调查对象的马氏距离:
[0046][0047]步骤S23:将n个调查对象的马氏距离从小到大排序,选出距离最小的h个调查对象,再计算这h个调查对象的样本均值协方差阵协方差行列式以及h个调查对象的马氏距离;
[0048]步骤S24:按照步骤S2本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种评估大型面对面调查中调查员误差的方法,其特征在于,包括:步骤S1:通过电子信息平台采集基线调查的问卷数据和录音数据,并按照调查对象生成问卷数据和录音数据的索引;步骤S2:基线调查完成后,导出问卷数据,预处理后采用Fast

MCD算法识别离群调查对象,具体包括:步骤S21:问卷数据包含n行p列,表示包含n个调查对象,每个调查对象包含p个变量的信息,则从n个调查对象中抽取h个样本数据,其中h的取值必须满足h取值0.8n;步骤S22:计算这h个样本数据的样本均值协方差阵和协方差行列式基于和进一步计算n个调查对象的马氏距离:步骤S23:将n个调查对象的马氏距离从小到大排序,选出距离最小的h个调查对象,再计算这h个调查对象的样本均值协方差阵协方差行列式以及h个调查对象的马氏距离;步骤S24:按照步骤S21~步骤S23进行迭代计算,若第m次的则以由第m次的样本计算得到的均值和协方差作为最终的均值和协方差的稳健估计量,记作步骤S25:基于稳健估计量,计算所有调查对象的马氏距离:步骤S26:将马氏距离大于预设值的调查对象判定为离群点;步骤S3:根据调查员误差评估规则,对离群调查对象进行录音核查:质控员登录电子信息平台,根据唯一索引检索离群点对应的调查对象的问卷数据和录音文件,判断该调查对象的问卷数据与录音是否一致,若不一致则说明调查员未能准确捕捉和记录调查对象的回答,即存在调查员误差;记录核查结果,核查结果归为五类:正确、提问方式错误、未问/未追问、录入错误以及无法核实,其中,提问方式错误...

【专利技术属性】
技术研发人员:赵星孙承媛刘祥郭冰肖雄
申请(专利权)人:四川大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1