一种面向残疾人大数据的分析方法及系统技术方案

技术编号:25041705 阅读:36 留言:0更新日期:2020-07-29 05:32
本发明专利技术提供一种面向残疾人大数据的分析方法,包括:对残疾人大数据对应数据集进行属性分解,将所有选择属性按照其选项分解为多个断属性,并将连续属性离散化;然后基于分解后的判断属性采用独热编码表示每一条数据,在每条编码中每个判断属性对应一个属性值,其中,判断属性对应的选项被选中的属性值为1,反之为0,将数据集中所有数据转换成独热编码形成数据集矩阵;基于数据集矩阵,为数据集矩阵中属性值为1的判断属性生成规则集合;对数据集矩阵进行回归分析,依次以一个判断属性作为目标属性,基于关联规则集合,计算数据集中其他属性对该目标属性影响力的权重,所有其他属性对目标属性影响力的权重形成该目标属性的权重集合。

【技术实现步骤摘要】
一种面向残疾人大数据的分析方法及系统
本专利技术涉及数据挖掘领域,具体来说涉及大数据智能回归分析领域,更具体地说,涉及一种面向残疾人大数据的分析方法及系统。
技术介绍
残疾人基础大数据是一种政府资助的调查统计数据集,旨在调查和登记全国残疾人当前的经济状况、就业扶贫情况、无障碍社区服务和教育情况以及个人主体的基本信息,这些登记信息每年由非营利专业机构(如残联)进行更新。实施登记调查的过程包括:设计带有一系列系统问题的残疾人登记或调查表格;将表格分发给基层社区;基层社区组织残疾人填报;将调查反馈验证并整合为表格数据集;将数据集发布。由于残疾人基础大数据通常具有很大的行业效应,并且由政府资助,因此被认为是政府和社会组织从业者制定数据驱动政策的权威来源之一。也就是说,通过对残疾人数据集的分析,政府和社会组织的从业人员可以更好地了解残疾人群体的现状和需求,从而制定相应的合理政策。数据回归分析旨在发现影响目标属性值变化的一系列其他属性,并对这些属性的影响力进行量化。通过属性值对演变性进行针对性描述,数据回归分析可以得知哪些属性会对目标属性产生正向或本文档来自技高网...

【技术保护点】
1.一种面向残疾人大数据的分析方法,其特征在于,包括如下步骤:/nS1、对残疾人大数据对应数据集进行属性分解,将所有选择属性按照其选项分解为多个判断属性,并将连续属性离散化;然后基于分解后的判断属性采用独热编码表示每一条数据,在每条编码中每个判断属性对应一个属性值,其中,判断属性对应的选项被选中的属性值为1,反之为0,将数据集中所有数据转换成独热编码形成数据集矩阵;/nS2、基于数据集矩阵,为数据集矩阵中属性值为1的判断属性生成规则集合,其中,每个判断属性与其他属性之间生成一条规则;/nS3、对数据集矩阵进行回归分析,依次以一个判断属性作为目标属性,基于关联规则集合,计算数据集中其他属性对该目...

【技术特征摘要】
1.一种面向残疾人大数据的分析方法,其特征在于,包括如下步骤:
S1、对残疾人大数据对应数据集进行属性分解,将所有选择属性按照其选项分解为多个判断属性,并将连续属性离散化;然后基于分解后的判断属性采用独热编码表示每一条数据,在每条编码中每个判断属性对应一个属性值,其中,判断属性对应的选项被选中的属性值为1,反之为0,将数据集中所有数据转换成独热编码形成数据集矩阵;
S2、基于数据集矩阵,为数据集矩阵中属性值为1的判断属性生成规则集合,其中,每个判断属性与其他属性之间生成一条规则;
S3、对数据集矩阵进行回归分析,依次以一个判断属性作为目标属性,基于关联规则集合,计算数据集中其他属性对该目标属性影响力的权重,所有其他属性对目标属性影响力的权重形成该目标属性的权重集合。


2.根据权利要求1所述的一种面向残疾人大数据的分析方法,其特征在于,还包括:
S4、将步骤S3中的权重集合进行可视化图形操作。


3.根据权利要求1所述的一种面向残疾人大数据的分析方法,其特征在于,采用数据分段的方式将连续属性离散化。


4.根据权利要求1所述的一种面向残疾人大数据的分析方法,其特征在于,所述步骤S2包括:
S21、以一个判断属性为分析对象,以数据集中该判断属性的属性值为1的所有数据组成该分析对象的数据样本矩阵;
S22、对数据样本矩阵中属性值为1的判断属性按照出现频率进行排序,并通过支持度进行量化,其中,分别计算数据样本中分析对象以外的每个判断属性在该数据样本矩阵中的支持度以及在数据集矩阵中的支持度,并计算每个判断属性在该数据样本矩阵中的支持度与其在数据集矩阵中的支持度的比值以获得每个判断属性与分析对象之间规则的置信度,将支持度小于支持度阈值或置信度小于置信度阈值的属性值从数据样本矩阵中移除;
S23、根据步骤S22中数据集样本剩余数据构建分析对象的频繁模式树,以分析对象以及分析对象的属性值为1的数据样本矩阵作为树的顶层,以分析对象的数据样本矩阵中的其他属性及其在数据样本矩阵中属性值为1的数据组成的数据矩阵作为树的第二层,每一个其他属性对应一个节点;以本次分析对象的数据样本作为新的数据集矩阵,以第二层节点对应的属性作为新的分析对象,构建频繁模式树的第三层,然后以第三层节点对应的数据矩阵作为新的数据集矩阵构建频繁模式树的第四层,依此类推,直到满足以下任一条件时停止构建频繁模式树:频繁模式树的高度达到预设要求、所有属性值为1的属性都存储到树中、在某一层属性值的支持度低于支持度阈值或置信度低于置信度阈值;其中,支持度阈值和置信度阈值基于历史数据分析结果预先设置。
S24、基于步骤S23构建的频繁模式树,进行规则合并,使每个判断属性对应一条规则。


5.根据权利要求4所述的一种面向残疾人大数据的分析方法,其特征在于,
采用如下方式计...

【专利技术属性】
技术研发人员:潘志文邢云冰陈益强戴连君张钧
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1