【技术实现步骤摘要】
一种问卷数据分析方法及系统
[0001]本专利技术涉及数据处理
,具体涉及一种问卷数据分析方法及系统
。
技术介绍
[0002]问卷,又称调查表,是一组与研究目标有关的问题,或者说是一份为进行调查而编制的问题表格
。
它是人们在社会调查研究活动中用来收集资料的一种常用工具
。
调研人员借助这一工具对社会活动过程进行准确
、
具体的测定,并应用社会学统计方法进行量的描述和分析,获取所需要的调查资料
。
[0003]随着科技的发展,问卷调查也从纸质问卷逐渐向电子问卷转变
。
电子问卷实现了在问卷调研过程中基于不同场景对问题进行自动筛选,提升了问卷数据处理的效率
。
然而现有的问卷数据分析中,大多都是对所有问卷样本数据进行逐个分析,工作量大且效率较低,没有对样本之间的相似性进行深入探究,将大量的问卷数据简化为几个代表性的类别,通过对具有代表性的类别群体进行分析,可以大大减少工作量,使数据分析工作更加高效
。
技术实现思路
[0004]本专利技术的目的在于提供一种问卷数据分析方法及系统,解决以下技术问题:现有的问卷数据分析中,大多都是对所有问卷样本数据进行逐个分析,没有对样本之间的相似性进行深入研究,工作量大且效率较低
。
[0005]本专利技术的目的可以通过以下技术方案实现:一种问卷数据分析方法,包括以下步骤:采集每个问卷样本的填写结果,生成问卷数据集,对所有问卷数据集进行数 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种问卷数据分析方法,其特征在于,包括以下步骤:采集每个问卷样本的填写结果,生成问卷数据集,对所有问卷数据集进行数据预处理,得到待处理问卷集;提取待处理问卷集中的非数值数据,对非数值数据进行编码得到数值型数据,将编码后的问卷数据转化为若干个特征向量,生成每个问卷的特征集;计算所有特征集之间的欧氏距离
I
,生成欧氏距离集合
U
,设置聚类控制半径
R
,以任一特征集为中心,计算控制半径
R
内的特征集密度
P
,获取所有特征集的控制半径
R
内的特征集密度均值,将特征集密度均值标记为
MinP
;对于任一特征集,若
P
大于
MinP
,则以该特征集为核心点生成类别簇,并将所有位于半径
R
内的相邻特征集归类至该类别簇中;检测该类别簇中的非核心点特征集,若存在非核心点特征集控制半径
R
内的密度
P
同样大于
MinP
,则将该非核心点生成的类别簇与原有类别簇合并,生成若干类别簇;若存在不属于任何类别簇的特征集,则判定该特征集为噪声,将噪声作为异常数据剔除;分别对所有类别簇内的问卷数据进行分析,得到最终分析结果
。2.
根据权利要求1所述的一种问卷数据分析方法,其特征在于,对问卷数据集进行预处理过程为:设定一个标准问卷数据集的长度为
m
,统计生成的问卷数据集的长度
n
,若存在问卷数据集的,则判定该问卷数据集为无效数据,进行剔除,若存在问卷数据集的,则判定该问卷数据集为有效数据,进行保留
。3.
根据权利要求1所述的一种问卷数据分析方法,其特征在于,对非数值数据进行编码得到数值型数据过程为:移除问卷数据集中的特殊字符和标点符号,将问卷数据集中所有单个词汇通过独热编码映射为对应数值
。4.
根据权利要求1所述的一种问卷数据分析方法,其特征在于,得到欧氏距离集合
U
的过程为:对特征集进行排序,
n
表示特征集的个数,
k
表示单个特征集中的特征向量个数,对特征集进行特征归一化;分别计算每两个特征集之间的欧氏距离
I
,将其中一个特征集标记为
P
,将另一个特征集标记为
t
,计算公式如下:;其中,
y
P
,
y
t
分别代表特征集
P
和特征集
t
以及对应的特征向量,将每个特征集到其他特征集的距离数据进行排序,得到
。5.
根据权利要求1所述的一种问卷数据分析方法,其特征在于,设置聚类控制半径
R
的过程为:
对集合
U
中每一个欧氏距离进行求和得到
u
,基于数值
u
得到控制半径
R
技术研发人员:周俊,李章民,方博,常春,王冬悦,曹亚男,高宏扬,
申请(专利权)人:北京青丝科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。