一种基于调查问卷的数据处理方法及系统技术方案

技术编号:24091131 阅读:68 留言:0更新日期:2020-05-09 08:07
本发明专利技术提出一种基于调查问卷的数据处理方法及系统,包括:步骤1、通过调查问卷中的回答内容,得到原始数据集,并通过属性分解将该原始数据集中多选问题数据转换为单选问题数据,通过线性回归填补该原始数据集中空缺数据,得到第一数据集;步骤2、对该第一数据集进行质量筛查,剔除该第一数据集中错误数据和低质量数据,得到第二数据集,并对该第二数据集中冗余属性进行标记,得到预处理数据集,并将该预处理数据集输入至预设数据分析模型,得到分析结果。本发明专利技术可解决原始数据中的虚假信息难以过滤、属性冗余、难以直接处理原始数据中多选问题数据和漏填内容数据等技术问题。

A data processing method and system based on questionnaire

【技术实现步骤摘要】
一种基于调查问卷的数据处理方法及系统
本专利技术属于数据挖掘领域,特别涉及一种基于调查问卷的数据处理方法及系统。
技术介绍
随着数据科学技术的不断发展,当前的数据挖掘技术的发展水平已经可以满足残疾人事业信息化建设对于数据分析和数据统计的需求。如何借力当前先进的数据挖掘技术助力残疾人事业信息化建设,已成为残疾人事业的一项重要议题。当前,针对残疾人数据的分析及统计工作面临着以下三大挑战:(1)由于很多残疾人数据的收集方式是基于问卷及表格填写的形式,数据受填写者主观因素影响较大,比如被调查者在填写表格时,可能因为种种原因对某些内容进行虚假填写和随意填写。这些被虚假或随意填写的数据往往会对之后的数据分析及统计造成明显的误导,亦即数据的真实性和可信度无法得到很好的保证。(2)通过让被调查个人及机构填写问卷表格,表格中一般包含有单选问题和多选问题两种形式,但现有数据挖掘方法无法对多选问题数据进行直接处理。此外,数据集中往往会出现一些被调查者漏填的项,这些漏填项在某些算法场景下可能需要被填补。(3)由于残疾人大数据普遍是一个高维的数据集,所以总是存在一些与目标类不太相关的冗余数据属性。这些冗余的数据属性不仅降低了数据分析及统计的准确性,而且增加了数据分析的时间和资源消耗。
技术实现思路
针对现有技术的不足,例如原始数据中的虚假信息难以过滤、属性冗余,难以直接处理原始数据中多选问题数据和漏填内容数据等问题。通过对业内先进的数据处理流程进行改进,提出了一种可对残疾人数据进行智能分析管理的方法及系统。本专利技术提出一种基于调查问卷的数据处理方法,其中包括:步骤1、通过调查问卷中的回答内容,得到原始数据集,并通过属性分解将该原始数据集中多选问题数据转换为单选问题数据,通过线性回归填补该原始数据集中空缺数据,得到第一数据集;步骤2、对该第一数据集进行质量筛查,剔除该第一数据集中错误数据和低质量数据,得到第二数据集,并对该第二数据集中冗余属性进行标记,得到预处理数据集,并将该预处理数据集输入至预设数据分析模型,得到分析结果。所述的基于调查问卷的数据处理方法,其中该步骤1中属性分解包括:步骤11、判断该多选问题数据中选项之间是否具有单调的序关系,若是,则将每个选项按序依次使用一个数字表示,否则执行步骤12;步骤12、判断该多选问题数据中选项之间是否具有循环的序关系,若是,则采用二维向量表示每一个选项,否则采用独热编码方式表示每一个选项。所述的基于调查问卷的数据处理方法,其中该步骤1中线性回归填补包括:步骤13、将数据样本中需要填补缺失值的属性作为自变量Y=(y1,y2,…,yn),并将其他属性作为因变量其中T代表矩阵的转置,表示一个m维向量的单个因变量;步骤14、通过线性回归描述自变量与因变量集合之间的关联性,该关联性具体为:yi=θ0+θ1xi1+…+θmxim其中θ0是回归方程的干扰项,θ={θ1,...,θm}是自变量集合的归一化权重。所述的基于调查问卷的数据处理方法,其中该步骤2中质量筛查包括:步骤21、利用主成分分析将该第一数据集降维,得到降维数据集;步骤22、得到降维数据集中每个数据样本与其他数据样本的欧几里得距离;步骤23、给定数据样本,找到降维数据集中与其最靠近的第k个样本,并通过下式得到两样本间的可达距离,对于数据样本p和o,可达距离利用以下公式运算:reach_distk(p,o)=max(k_distance(o),d(p,o)),其中d(p,o)是样本p与样本o的欧几里得距离,k-distance(o)为样本o和与其最靠近的第k个样本的距离;步骤24、根据可达距离,得到数据样本p的局部可达密度lrdk(p):其中Nk(p)是数据样本p的k个最邻近样本,数据样本p的k-邻近样本的个数|Nk(p)|≥k,步骤25、根据局部可达密度,通过下式得到局部异常因子lofk(p):步骤26、为数据集的局部异常因子划定阈值,并将lofk(p)超过该阈值的数据样本p判定为低质量数据,lofk(p)是数据样本p的异常度量。所述的基于调查问卷的数据处理方法,其中该步骤2中冗余属性标记包括:步骤27、利用径向基函数,量化第二数据集中数据样本间的相似性:其中xi,≠c表示不包含属性c的数据样本;步骤28、通过下式得到第二数据集的属性c的熵值:为数据属性划定阈值,并将E(c)小于阈值的数据属性c标记为冗余属性。本专利技术还提出了一种基于调查问卷的数据处理系统,其中包括:模块1、通过调查问卷中的回答内容,得到原始数据集,并通过属性分解将该原始数据集中多选问题数据转换为单选问题数据,通过线性回归填补该原始数据集中空缺数据,得到第一数据集;模块2、对该第一数据集进行质量筛查,剔除该第一数据集中错误数据和低质量数据,得到第二数据集,并对该第二数据集中冗余属性进行标记,得到预处理数据集,并将该预处理数据集输入至预设数据分析模型,得到分析结果。所述的基于调查问卷的数据处理系统,其中该模块1中属性分解包括:模块11、判断该多选问题数据中选项之间是否具有单调的序关系,若是,则将每个选项按序依次使用一个数字表示,否则执行模块12;模块12、判断该多选问题数据中选项之间是否具有循环的序关系,若是,则采用二维向量表示每一个选项,否则采用独热编码方式表示每一个选项。所述的基于调查问卷的数据处理系统,其中该模块1中线性回归填补包括:模块13、将数据样本中需要填补缺失值的属性作为自变量Y=(y1,y2,…,yn),并将其他属性作为因变量其中T代表矩阵的转置,表示一个m维向量的单个因变量;模块14、通过线性回归描述自变量与因变量集合之间的关联性,该关联性具体为:yi=θ0+θ1xi1+…+θmxim其中θ0是回归方程的干扰项,θ={θ1,...,θm}是自变量集合的归一化权重。所述的可疑数据处理系统,其中该模块2中质量筛查包括:模块21、利用主成分分析将该第一数据集降维,得到降维数据集;模块22、得到对降维数据集中每个数据样本与其他数据样本的欧几里得距离;模块23、给定数据样本,找到降维数据集中与其最靠近的第k个样本,并通过下式得到两样本间的可达距离,对于数据样本p和o,可达距离利用以下公式运算:reach_distk(p,o)=max(k_distance(o),d(p,o)),其中d(p,o)是样本p点与样本o的欧几里得距离,k-distance(o)为样本o和与其最靠近的第k个样本的距离;模块24、根据可达距离,得到数据样本p的局部可达密度lrdk(p):其中Nk(p)是数据样本p的k个最邻近样本,数据样本p的k-邻近样本的个数|Nk(p)|≥k,模块25、根据局本文档来自技高网...

【技术保护点】
1.一种基于调查问卷的数据处理方法,其特征在于,包括:/n步骤1、通过调查问卷中的回答内容,得到原始数据集,并通过属性分解将该原始数据集中多选问题数据转换为单选问题数据,通过线性回归填补该原始数据集中空缺数据,得到第一数据集;/n步骤2、对该第一数据集进行质量筛查,剔除该第一数据集中错误数据和低质量数据,得到第二数据集,并对该第二数据集中冗余属性进行标记,得到预处理数据集,并将该预处理数据集输入至预设数据分析模型,得到分析结果。/n

【技术特征摘要】
1.一种基于调查问卷的数据处理方法,其特征在于,包括:
步骤1、通过调查问卷中的回答内容,得到原始数据集,并通过属性分解将该原始数据集中多选问题数据转换为单选问题数据,通过线性回归填补该原始数据集中空缺数据,得到第一数据集;
步骤2、对该第一数据集进行质量筛查,剔除该第一数据集中错误数据和低质量数据,得到第二数据集,并对该第二数据集中冗余属性进行标记,得到预处理数据集,并将该预处理数据集输入至预设数据分析模型,得到分析结果。


2.如权利要求1所述的基于调查问卷的数据处理方法,其特征在于,该步骤1中属性分解包括:
步骤11、判断该多选问题数据中选项之间是否具有单调的序关系,若是,则将每个选项按序依次使用一个数字表示,否则执行步骤12;
步骤12、判断该多选问题数据中选项之间是否具有循环的序关系,若是,则采用二维向量表示每一个选项,否则采用独热编码方式表示每一个选项。


3.如权利要求1所述的基于调查问卷的数据处理方法,其特征在于,该步骤1中线性回归填补包括:
步骤13、将数据样本中需要填补缺失值的属性作为自变量Y=(y1,y2,…,yn),并将其他属性作为因变量其中T代表矩阵的转置,表示一个维向量的单个因变量;
步骤14、通过线性回归描述自变量与因变量集合之间的关联性,该关联性具体为:
yi=θ0+θ1xi1+…+θmxim
其中θ0是回归方程的干扰项,θ={θ1,...,θm}是自变量集合的归一化权重。


4.如权利要求1所述的基于调查问卷的数据处理方法,其特征在于,该步骤2中质量筛查包括:
步骤21、利用主成分分析将该第一数据集降维,得到降维数据集;
步骤22、得到降维数据集中每个数据样本与其他数据样本的欧几里得距离;
步骤23、给定数据样本,找到降维数据集中与其最靠近的第k个样本,并通过下式得到两样本间的可达距离,对于数据样本p和o,可达距离利用以下公式运算:
reach_distk(p,o)=max(k_distance(o),d(p,o)),
其中d(p,o)是样本p与样本o的欧几里得距离,k-distance(o)为样本o和与其最靠近的第k个样本的距离;
步骤24、根据可达距离,得到数据样本p的局部可达密度lrdk(p):



其中Nk(p)是数据样本p的k个最邻近样本,数据样本p的k-邻近样本的个数|Nk(p)|≥k,
步骤25、根据局部可达密度,通过下式得到局部异常因子lofk(p):



步骤26、为数据集的局部异常因子划定阈值,并将lofk(p)超过该阈值的数据样本p判定为低质量数据,lofk(p)是数据样本p的异常度量。


5.如权利要求1所述的基于调查问卷的数据处理方法,其特征在于,该步骤2中冗余属性标记包括:
步骤27、利用径向基函数,量化第二数据集中数据样本间的相似性:



其中xi,≠c表示不包含属性c的数据样本;
步骤28、通过下式得到第二数据集的属性c的熵值:



为数据属性划定阈值,并将E(c)小于阈值的数据属性c标记为冗余属性。

【专利技术属性】
技术研发人员:邢云冰潘志文陈益强戴连君张钧
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1