当前位置: 首页 > 专利查询>北京大学专利>正文

数据离散化的方法及装置制造方法及图纸

技术编号:14410242 阅读:87 留言:0更新日期:2017-01-11 20:42
本发明专利技术实施例公开了一种数据离散化方法,包括:接收输入的有序排列的样本集,获取预设的有序排列的初始离散格式;获取预设的类别集合,遍历所述获取到的类别集合中的类别值,获取所述样本集在遍历到的类别值下的在所述初始离散格式中的起始阈值到每个阈值的积分区间的第一样本数,生成积分矩阵;根据所述积分矩阵计算初始离散格式中各个阈值构成的取值区间的区分度;迭代查找区分度最大且不为预设的特征值的取值区间,将所述区分度最大的取值区间对应的阈值添加到目标离散格式中,并将所述区分度最大的取值区间中包含的各个子区间对应的区分度设为所述特征值,直至所有取值区间的区分度均为所述特征值,输出所述目标离散格式。本发明专利技术还公开了一种数据离散化装置。本发明专利技术中数据离散化方法及装置可以减少计算复杂度,提高执行效率。

【技术实现步骤摘要】

本专利技术涉及计算机
,尤其涉及一种数据离散化方法及装置。
技术介绍
数据离散化是一个将连续的特征转换成定类数据(nominaldata)或有序数据的过程。将连续数值的值域划分成多个小区间,每个区间代表了一个有序数值或者定类数据。将定类数据用于分类器(classifier)中,则每个区间可表示一种类别,对应相应的类别标识,将该分类器应用到数据分析应用中,则可根据历史数据或用户输入的数据进行分类。例如,在一个在线广告推广应用中,历史数据构成的样本数据中对点击用户的属性进行了统计,其中在年龄项下,则可能包含8岁至60岁的所有年龄。而在查找与用户属性匹配的在线广告时,往往是将用户属性的年龄与在线广告对应的年龄段进行匹配,则需要预先对在线广告对应的8岁至60岁的所有年龄数据进行离散化处理,若经过离散化处理得到了8至16、16至30、30至49、49至60这4个区间,则该在线广告对应的年龄属性被离散化为了4个定类数据,分别对应少年,青年,中年,老年四个类别标识。当待推送的用户的年龄为24时,则可在数据库中查找所有对应的年龄段为青年的在线广告进行筛选。现有的离散化算法有多种多样,较常见的包括FUSINTER、ChiMerge、CAIM、Chi2等。其中FUSINTER、ChiMerge和ModifiedChi2都是合并式离散化算法,从一个预定的离散化模式开始,逐步地通过删除候选断点来合并两个相邻的子区间,直到满足某一终止条件。CAIM是分割式离散化算法,从整个特征值域开始,逐步地通过添加分割点来将一个区间划分为两个子区间,直至满足停止条件。合并式离散化算法在进行离散化时主要关注于局部信息,每次合并时只考虑两个相邻的子区间而忽略了附近其它子区间所包含的信息。分割式算法在进行离散化时主要关注于被分割区间的全局信息而忽略局部的上下文信息。合并式离散化算法普遍表现好于分割式离散化算法。传统技术中的离散化算法通常基于量化矩阵进行推演,在推演过程中,每将两两相邻的取值区间合并,则重新计算一次区分度,然后再重新生成量化矩阵,如此反复,因此计算复杂度较高,导致执行效率较低下。
技术实现思路
基于此,为解决上述提到的传统技术中的数据离散化方法执行效率较低的技术问题,提供了一种数据离散化方法。一种数据离散化方法,包括:接收输入的有序排列的样本集,获取预设的有序排列的初始离散格式;获取预设的类别集合,遍历所述获取到的类别集合中的类别值,获取所述样本集在遍历到的类别值下的在所述初始离散格式中的起始阈值到每个阈值的积分区间的第一样本数,生成积分矩阵;根据所述积分矩阵计算初始离散格式中各个阈值构成的取值区间的区分度;迭代查找区分度最大且不为预设的特征值的取值区间,将所述区分度最大的取值区间对应的阈值添加到目标离散格式中,并将所述区分度最大的取值区间中包含的各个子区间对应的区分度设为所述特征值,直至所有取值区间的区分度均为所述特征值,输出所述目标离散格式。此外,为解决上述提到的传统技术中的数据离散化方法执行效率较低的技术问题,提供了一种数据离散化装置。一种数据离散化装置,包括:样本集输入模块,用于接收输入的有序排列的样本集,获取预设的有序排列的初始离散格式;积分矩阵生成模块,用于获取预设的类别集合,遍历所述获取到的类别集合中的类别值,获取所述样本集在遍历到的类别值下的在所述初始离散格式中的起始阈值到每个阈值的积分区间的第一样本数,生成积分矩阵;区分度计算模块,用于根据所述积分矩阵计算初始离散格式中各个阈值构成的取值区间的区分度;迭代查找模块,用于迭代查找区分度最大且不为预设的特征值的取值区间,将所述区分度最大的取值区间对应的阈值添加到目标离散格式中,并将所述区分度最大的取值区间中包含的各个子区间对应的区分度设为所述特征值,直至所有取值区间的区分度均为所述特征值,输出所述目标离散格式。实施本专利技术实施例,将具有如下有益效果:采用了上述数据离散化方法及装置之后,整个对数据处理的过程中,仅需要初始进行统计,生成积分矩阵,即可根据积分矩阵反复对筛选掉了部分阈值之后的目标阈值序列(即合并了通过初始阈值序列划分的多个两两相邻的取值区间之后合并后的取值区间两端的阈值构成的阈值序列)计算评价值。而在传统技术中通过量化矩阵进行迭代的方案中,则需要在每次移除了初始阈值序列中的部分阈值,在即合并了部分取值区间之后,重新统计样本集在目标阈值序列划分的各个取值区间中的样本数,即在每次迭代过程中均需要重新生成量化矩阵。因此,和传统技术相比,该数据离散化方法的计算量较小,从而执行效率更高。另外,数据离散化方法及装置中的迭代过程中,可先根据区分度的大小,将多个连续的两两相邻的取值区间合并。而现有的合并式离散化算法在合并时只考虑相邻两个子区间的信息,而忽略了其它邻近的子区间或是全局的信息。因此上述数据离散化方法及装置的准确度和执行效率均得到了提高。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:图1为一个实施例中一种数据离散化方法的流程图;图2为一个实施例中计算各个阈值构成的取值区间的区分度的流程图;图3为一个实施例中迭代查找区分度最大的取值区间的流程图;图4为一个实施例中一种数据离散化装置的示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。传统技术中的数据离散化方法在迭代过程中采用的量化矩阵如表1所示,其中,阈值序列D将有序排列的样本集的值域划分成n个有界区间D={[d0,d1],(d1,d2],…,(dn-1,dn]本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201510271647.html" title="数据离散化的方法及装置原文来自X技术">数据离散化的方法及装置</a>

【技术保护点】
一种数据离散化方法,其特征在于,包括:接收输入的有序排列的样本集,获取预设的有序排列的初始离散格式;获取预设的类别集合,遍历所述获取到的类别集合中的类别值,获取所述样本集在遍历到的类别值下的在所述初始离散格式中的起始阈值到每个阈值的积分区间的第一样本数,生成积分矩阵;根据所述积分矩阵计算初始离散格式中各个阈值构成的取值区间的区分度;迭代查找区分度最大且不为预设的特征值的取值区间,将所述区分度最大的取值区间对应的阈值添加到目标离散格式中,并将所述区分度最大的取值区间中包含的各个子区间对应的区分度设为所述特征值,直至所有取值区间的区分度均为所述特征值,输出所述目标离散格式。

【技术特征摘要】
1.一种数据离散化方法,其特征在于,包括:接收输入的有序排列的样本集,获取预设的有序排列的初始离散格式;获取预设的类别集合,遍历所述获取到的类别集合中的类别值,获取所述样本集在遍历到的类别值下的在所述初始离散格式中的起始阈值到每个阈值的积分区间的第一样本数,生成积分矩阵;根据所述积分矩阵计算初始离散格式中各个阈值构成的取值区间的区分度;迭代查找区分度最大且不为预设的特征值的取值区间,将所述区分度最大的取值区间对应的阈值添加到目标离散格式中,并将所述区分度最大的取值区间中包含的各个子区间对应的区分度设为所述特征值,直至所有取值区间的区分度均为所述特征值,输出所述目标离散格式。2.根据权利要求1所述的数据离散化方法,其特征在于,所述接收输入的有序排列的样本集的步骤之后还包括:在所述有序排列的样本集中包含的数据为离散数据时,通过计算相邻两个离散数据的平均值得到有序排列的初始离散格式。3.根据权利要求1所述的数据离散化方法,其特征在于,所述根据所述积分...

【专利技术属性】
技术研发人员:刘宏志蒋杰王巨宏吴中海张兴
申请(专利权)人:北京大学深圳市腾讯计算机系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1