再犯罪风险预警混合属性数据处理方法、介质和设备技术

技术编号:29403915 阅读:50 留言:0更新日期:2021-07-23 22:42
本发明专利技术公开了一种再犯罪风险预警混合属性数据处理方法、介质和设备,首先获取数据样本构成数据集,对数据集中的各样本进行初步的数据预处理,剔除数据集中的冗余项和缺失项,然后将数据集转换为协调的数据集;接着对于协调的数据集中的各条件属性,进行约简处理,删除协调的数据集中的冗余属性,得到属性约简后的数据集,最后对属性约简后的数据集进行聚类。本发明专利技术方法中,通过数据预处理和约简处理,能够将数据集中存在缺失的属性以及冗余的属性进行有效去除,因此可以有效降低数据的维度,实现对预警数据的有效处理分析,基于该方法获取到的数据,能够使得再犯罪风险预警的分类准确度更高以及分类的速度更快。

【技术实现步骤摘要】
再犯罪风险预警混合属性数据处理方法、介质和设备
本专利技术涉及数据预处理领域,特别涉及一种再犯罪风险预警混合属性数据处理方法、介质和设备。
技术介绍
接受过监狱改造的特殊人群,导致其再犯罪的因素各不相同,如糟糕的成长环境、畸形的人生观、出狱后难以适应当今社会等。而不同的再犯罪因素,其犯罪的动机及其对社会带来的危害程度也有不同。因此,根据不同犯人的特征,利用无监督聚类对目标人群进行划分,再分别讨论导致各类人群再犯罪的因素及其危害程度,能够使预测的结果更加精准,较好的降低了预测算法对某一类特定人群的偏见。然而,由于再犯罪风险预警数据规模大,样本维度高,现有模型对较高纬度的数据进行处理具有较高的难度及较低的分析能力。并且,数据即包含连续型属性又包含分类型属性,而目前现有技术对数据进行聚类分析主要是针对连续型属性,而针对分类型属性进行聚类分析的技术较少,极少聚类分析技术能够同时处理连续型属性和分类型属性,并且它们存在对初始聚类中心的选择敏感,易使聚类结果陷入局部最优并造成聚类效果上下起伏较大的情况、难以描述样本和聚类中心之间的相异度以及样本之间本文档来自技高网...

【技术保护点】
1.一种再犯罪风险预警混合属性数据处理方法,其特征在于,包括步骤:/n步骤S1、获取数据样本构成数据集;其中,样本包括有犯罪前科且再犯罪人员及有犯罪前科却不再犯罪人员;/n步骤S2、对数据集中的各样本进行初步的数据预处理,剔除数据集中的冗余项和缺失项,然后将数据集转换为协调的数据集;/n步骤S3、对于协调的数据集中的各条件属性,进行约简处理,删除协调的数据集中的冗余属性,得到属性约简后的数据集;/n步骤S4、针对于属性约简后的数据集,根据其中样本的连续型属性和分类型属性对样本进行聚类,定义获取到的聚类数目为N,N为常量,即属性约简后的数据集中所有样本被聚类为N类。/n

【技术特征摘要】
1.一种再犯罪风险预警混合属性数据处理方法,其特征在于,包括步骤:
步骤S1、获取数据样本构成数据集;其中,样本包括有犯罪前科且再犯罪人员及有犯罪前科却不再犯罪人员;
步骤S2、对数据集中的各样本进行初步的数据预处理,剔除数据集中的冗余项和缺失项,然后将数据集转换为协调的数据集;
步骤S3、对于协调的数据集中的各条件属性,进行约简处理,删除协调的数据集中的冗余属性,得到属性约简后的数据集;
步骤S4、针对于属性约简后的数据集,根据其中样本的连续型属性和分类型属性对样本进行聚类,定义获取到的聚类数目为N,N为常量,即属性约简后的数据集中所有样本被聚类为N类。


2.根据权利要求1所述的再犯罪风险预警混合属性数据处理方法,其特征在于,步骤S2中,对于剔除冗余项和缺失项的数据集,首先判断其是否为协调的数据集,若否,则将其转换成协调的数据集,具体如下:
步骤S21、针对于剔除冗余项和缺失项的数据集,确定是否存在条件属性取值完全相同的样本,若是,则表示数据集为不协调的数据集;
步骤S22、将数据集中,条件属性取值完全相同的样本替换成一个样本,该替换得到的样本决策属性的值取为:上述条件属性取值完全相同的样本中,对应决策属性出现次数最多的值,从而转换得到协调的数据集。


3.根据权利要求1所述的再犯罪风险预警混合属性数据处理方法,其特征在于,步骤S3中对于协调的数据集中的各条件属性,进行约简处理的过程如下:
步骤S31、对于协调的数据集中的每个条件属性,首先逐个判断每个条件属性删除后对决策属性是否满足单点分布以及删除每个条件属性前后数据集的等价类的个数是否相等;
若删除条件属性后满足单点分布或者删除条件属性前后数据集的等价类个数相等,则判断对应条件属性为冗余属性;
否则,则判断对应条件属性为非冗余属性;
步骤S32、根据协调的数据集中的每个条件属性的判定结果,确定协调的数据集中的每个条件属性是否均为非冗余;
若否,则删除被判定为冗余的条件属性,然后进入步骤S33;
若是,则结束约简处理,得到约简处理后的数据集;
步骤S33、针对于协调数据集中所保留的每个条件属性,重新逐个判断每个条件属性删除后对决策属性是否满足单点分布和/或删除每个条件属性前后数据集的等价类的个数是否发生变化,以判定每个条件属性是否为冗余条件属性;然后返回步骤S32。


4.根据权利要求1所述的再犯罪风险预警混合属性数据处理方法,其特征在于,步骤S4中,针对于属性约简后的数据集,根据其中样本的连续型属性和分类型属性,通过改进后的聚类算法对样本进行聚类,具体如下:
步骤S41、首先计算数据集中各属性所含的信息熵,并根据信息熵计算各属性的权值;
步骤S42、从数据集中选取N个样本作为初始聚类中心;
步骤S43、计算所有聚类中心和数据集中的每个样本的距离,并将每个样本划分至与其距离最近的聚类中心中;
步骤S44、根据各样本与其所属类的聚类中心之间的距离,计算目标函数F的值,并判断目标函数F的值是否与上一次结果相同;
若是,则证明聚类结果已经趋于稳定,则聚类结束;
若否,更新各类的聚类中心的值,回到步骤S43。


5.根据权利要求4所述的再犯罪风险预警混合属性数据处理方法,其特征在于,步骤S41中计算数据集中各属性所含的信息熵和权值的公式如下:
对于某一连续型属性j而言,






其中,ej为第j个连续型属性的信息熵,t为数据集中样本的个数,P...

【专利技术属性】
技术研发人员:李康顺王梓铭陈伟林王健聪周威池
申请(专利权)人:华南农业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1