一种问卷数据分析方法及系统技术方案

技术编号:39735956 阅读:15 留言:0更新日期:2023-12-17 23:38
本发明专利技术公开了一种问卷数据分析方法及系统,属于数据处理技术领域,具体包括以下步骤:采集每个问卷样本的填写结果,生成问卷数据集,对所有问卷数据集进行数据预处理,得到待处理问卷集:提取待处理问卷集中的非数值数据,对非数值数据进行编码得到数值型数据,将编码后的问卷数据转化为若干个特征向量,生成每个问卷的特征集;计算所有特征集之间的欧氏距离

【技术实现步骤摘要】
一种问卷数据分析方法及系统


[0001]本专利技术涉及数据处理
,具体涉及一种问卷数据分析方法及系统


技术介绍

[0002]问卷,又称调查表,是一组与研究目标有关的问题,或者说是一份为进行调查而编制的问题表格

它是人们在社会调查研究活动中用来收集资料的一种常用工具

调研人员借助这一工具对社会活动过程进行准确

具体的测定,并应用社会学统计方法进行量的描述和分析,获取所需要的调查资料

[0003]随着科技的发展,问卷调查也从纸质问卷逐渐向电子问卷转变

电子问卷实现了在问卷调研过程中基于不同场景对问题进行自动筛选,提升了问卷数据处理的效率

然而现有的问卷数据分析中,大多都是对所有问卷样本数据进行逐个分析,工作量大且效率较低,没有对样本之间的相似性进行深入探究,将大量的问卷数据简化为几个代表性的类别,通过对具有代表性的类别群体进行分析,可以大大减少工作量,使数据分析工作更加高效


技术实现思路

[0004]本专利技术的目的在于提供一种问卷数据分析方法及系统,解决以下技术问题:现有的问卷数据分析中,大多都是对所有问卷样本数据进行逐个分析,没有对样本之间的相似性进行深入研究,工作量大且效率较低

[0005]本专利技术的目的可以通过以下技术方案实现:一种问卷数据分析方法,包括以下步骤:采集每个问卷样本的填写结果,生成问卷数据集,对所有问卷数据集进行数据预处理,得到待处理问卷集;提取待处理问卷集中的非数值数据,对非数值数据进行编码得到数值型数据,将编码后的问卷数据转化为若干个特征向量,生成每个问卷的特征集;计算所有特征集之间的欧氏距离,生成欧氏距离集合
U
,设置聚类控制半径
R
,以任一特征集为中心,计算控制半径
R
内的特征集密度
P
,获取所有特征集的控制半径
R
内的特征集密度均值,将特征集密度均值标记为
MinP
;对于任一特征集,若
P
大于
MinP
,则以该特征集为核心点生成类别簇,并将所有位于半径
R
内的相邻特征集归类至该类别簇中;检测该类别簇中的非核心点特征集,若存在非核心点特征集控制半径
R
内的密度
P
同样大于
MinP
,则将该非核心点生成的类别簇与原有类别簇合并,生成若干类别簇;若存在不属于任何类别簇的特征集,则判定该特征集为噪声,将噪声作为异常数据剔除;分别对所有类别簇内的问卷数据进行分析,得到最终分析结果

[0006]作为本专利技术进一步的方案:对问卷数据集进行预处理过程为:确定一个正常问卷数据集的长度并标记为
m
,统计生成的问卷数据集的长度
n
,当
时,则判定该问卷数据集为无效数据,进行剔除,当,则判定该问卷数据集为有效数据,进行保留

[0007]作为本专利技术进一步的方案:对非数值数据进行编码得到数值型数据过程为:移除问卷数据集中的特殊字符和标点符号,将问卷数据集中所有单个词汇通过独热编码映射为对应数值

[0008]作为本专利技术进一步的方案:得到欧氏距离集合
U
的过程为:对特征集进行排序,
n
表示特征集的个数,
k
表示单个特征集中的特征向量个数,对特征集进行特征归一化;分别计算每两个特征集之间的欧氏距离
I
,将其中一个特征集标记为
P
,将另一个特征集标记为
t
,计算公式如下:;其中,
y
P

y
t
分别代表特征集
P
和特征集
t
以及对应的特征向量,将每个特征集到其他特征集的距离数据进行排序,得到他特征集的距离数据进行排序,得到

[0009]作为本专利技术进一步的方案:设置聚类控制半径
R
的过程为:对集合
U
中每一个欧式距离求和得到
u
,基于数值
u
得到控制半径
R
,计算公式如下:
;
;其中,
u
为集合
U
中所有欧氏距离数据值之和

[0010]作为本专利技术进一步的方案:计算控制半径
R
内的特征集密度过程为:
P=i/(
π
R2)
;其中
i
为控制半径
R
内存在的特征集数量

[0011]作为本专利技术进一步的方案:分别对所有类别簇内的问卷数据进行分析的过程为;以每个类别簇中的核心点为中心,
R
为半径生成若干个子簇,计算每个子簇的聚合度并标记为
DP

DP
的计算公式为:;其中
z
为代表簇内的特征集数,
z0为代表簇的核心点,
v0为代表簇内的数据点;在每个类别簇中选取
DP
值最小的子簇作为该类别簇的代表簇,提取
DP
值最高的代表簇的特征集数量并标记为
k
,在每个类别簇中的代表簇中任选
k
个特征集,生成每个类别簇的代表集合,从
k
个特征集中随机选择一个相同位置的特征向量,并标记分析向量,获取所有分析向量的数据值,对于单个代表集合,统计任一数据值占所有分析向量数据值的比例,若所述比例大于预设阈值,则将该数据值作为该类别簇的代表,若所述比例低于预设阈值,则随机采集另一个相同位置的特征向量进行分析

[0012]一种问卷数据分析系统,包括:数据获取模块,用于采集每个样本的问卷填写结果,生成问卷数据集,对所有问卷数据集进行数据预处理,得到待处理问卷集;数据处理模块,用于提取待处理问卷集中的非数值数据,对非数值数据进行编码得到数值型数据,将编码后的问卷数据转化为若干个特征向量,生成每个问卷的特征集;问卷聚类模块,用于计算所有特征集之间的欧氏距离
I
,生成欧氏距离集合
U
,设置聚类控制半径
R
,以任一特征集为中心,计算控制半径
R
内的特征集密度
P
,获取所有特征集的控制半径
R
内的特征集密度均值,将特征集密度均值标记为
MinP
;类别生成模块,用于对于任一特征集,若
P
大于
MinP
,则以该特征集为核心点生成类别簇,并将所有位于半径
R
内的相邻特征集归类至该类别簇中;检测该类别簇中的非核心点特征集,若存在非核心点特征集控制半径
R
内的密本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种问卷数据分析方法,其特征在于,包括以下步骤:采集每个问卷样本的填写结果,生成问卷数据集,对所有问卷数据集进行数据预处理,得到待处理问卷集;提取待处理问卷集中的非数值数据,对非数值数据进行编码得到数值型数据,将编码后的问卷数据转化为若干个特征向量,生成每个问卷的特征集;计算所有特征集之间的欧氏距离
I
,生成欧氏距离集合
U
,设置聚类控制半径
R
,以任一特征集为中心,计算控制半径
R
内的特征集密度
P
,获取所有特征集的控制半径
R
内的特征集密度均值,将特征集密度均值标记为
MinP
;对于任一特征集,若
P
大于
MinP
,则以该特征集为核心点生成类别簇,并将所有位于半径
R
内的相邻特征集归类至该类别簇中;检测该类别簇中的非核心点特征集,若存在非核心点特征集控制半径
R
内的密度
P
同样大于
MinP
,则将该非核心点生成的类别簇与原有类别簇合并,生成若干类别簇;若存在不属于任何类别簇的特征集,则判定该特征集为噪声,将噪声作为异常数据剔除;分别对所有类别簇内的问卷数据进行分析,得到最终分析结果
。2.
根据权利要求1所述的一种问卷数据分析方法,其特征在于,对问卷数据集进行预处理过程为:设定一个标准问卷数据集的长度为
m
,统计生成的问卷数据集的长度
n
,若存在问卷数据集的,则判定该问卷数据集为无效数据,进行剔除,若存在问卷数据集的,则判定该问卷数据集为有效数据,进行保留
。3.
根据权利要求1所述的一种问卷数据分析方法,其特征在于,对非数值数据进行编码得到数值型数据过程为:移除问卷数据集中的特殊字符和标点符号,将问卷数据集中所有单个词汇通过独热编码映射为对应数值
。4.
根据权利要求1所述的一种问卷数据分析方法,其特征在于,得到欧氏距离集合
U
的过程为:对特征集进行排序,
n
表示特征集的个数,
k
表示单个特征集中的特征向量个数,对特征集进行特征归一化;分别计算每两个特征集之间的欧氏距离
I
,将其中一个特征集标记为
P
,将另一个特征集标记为
t
,计算公式如下:;其中,
y
P

y
t
分别代表特征集
P
和特征集
t
以及对应的特征向量,将每个特征集到其他特征集的距离数据进行排序,得到
。5.
根据权利要求1所述的一种问卷数据分析方法,其特征在于,设置聚类控制半径
R
的过程为:
对集合
U
中每一个欧氏距离进行求和得到
u
,基于数值
u
得到控制半径
R

【专利技术属性】
技术研发人员:周俊李章民方博常春王冬悦曹亚男高宏扬
申请(专利权)人:北京青丝科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1