数据离散化的方法及装置制造方法及图纸

技术编号：14410242 阅读：87 留言：0更新日期：2017-01-11 20:42

本发明专利技术实施例公开了一种数据离散化方法，包括：接收输入的有序排列的样本集，获取预设的有序排列的初始离散格式；获取预设的类别集合，遍历所述获取到的类别集合中的类别值，获取所述样本集在遍历到的类别值下的在所述初始离散格式中的起始阈值到每个阈值的积分区间的第一样本数，生成积分矩阵；根据所述积分矩阵计算初始离散格式中各个阈值构成的取值区间的区分度；迭代查找区分度最大且不为预设的特征值的取值区间，将所述区分度最大的取值区间对应的阈值添加到目标离散格式中，并将所述区分度最大的取值区间中包含的各个子区间对应的区分度设为所述特征值，直至所有取值区间的区分度均为所述特征值，输出所述目标离散格式。本发明专利技术还公开了一种数据离散化装置。本发明专利技术中数据离散化方法及装置可以减少计算复杂度，提高执行效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机
，尤其涉及一种数据离散化方法及装置。
技术介绍
数据离散化是一个将连续的特征转换成定类数据(nominaldata)或有序数据的过程。将连续数值的值域划分成多个小区间，每个区间代表了一个有序数值或者定类数据。将定类数据用于分类器(classifier)中，则每个区间可表示一种类别，对应相应的类别标识，将该分类器应用到数据分析应用中，则可根据历史数据或用户输入的数据进行分类。例如，在一个在线广告推广应用中，历史数据构成的样本数据中对点击用户的属性进行了统计，其中在年龄项下，则可能包含8岁至60岁的所有年龄。而在查找与用户属性匹配的在线广告时，往往是将用户属性的年龄与在线广告对应的年龄段进行匹配，则需要预先对在线广告对应的8岁至60岁的所有年龄数据进行离散化处理，若经过离散化处理得到了8至16、16至30、30至49、49至60这4个区间，则该在线广告对应的年龄属性被离散化为了4个定类数据，分别对应少年，青年，中年，老年四个类别标识。当待推送的用户的年龄为24时，则可在数据库中查找所有对应的年龄段为青年的在线广告进行筛选。现有的离散化算法有多种多样，较常见的包括FUSINTER、ChiMerge、CAIM、Chi2等。其中FUSINTER、ChiMerge和ModifiedChi2都是合并式离散化算法，从一个预定的离散化模式开始，逐步地通过删除候选断点来合并两个相邻的子区间，直到满足某一终止条件。CAIM是分割式离散化算法，从整个特征值域开始，逐步地通过添加分割点来将一个区间划分为两个子区间，直至满足停止条件。合并式离散化算法在进...
<a href="http://www.xjishu.com/zhuanli/55/201510271647.html" title="数据离散化的方法及装置原文来自X技术">数据离散化的方法及装置</a>

【技术保护点】
一种数据离散化方法，其特征在于，包括：接收输入的有序排列的样本集，获取预设的有序排列的初始离散格式；获取预设的类别集合，遍历所述获取到的类别集合中的类别值，获取所述样本集在遍历到的类别值下的在所述初始离散格式中的起始阈值到每个阈值的积分区间的第一样本数，生成积分矩阵；根据所述积分矩阵计算初始离散格式中各个阈值构成的取值区间的区分度；迭代查找区分度最大且不为预设的特征值的取值区间，将所述区分度最大的取值区间对应的阈值添加到目标离散格式中，并将所述区分度最大的取值区间中包含的各个子区间对应的区分度设为所述特征值，直至所有取值区间的区分度均为所述特征值，输出所述目标离散格式。

【技术特征摘要】
1.一种数据离散化方法，其特征在于，包括：接收输入的有序排列的样本集，获取预设的有序排列的初始离散格式；获取预设的类别集合，遍历所述获取到的类别集合中的类别值，获取所述样本集在遍历到的类别值下的在所述初始离散格式中的起始阈值到每个阈值的积分区间的第一样本数，生成积分矩阵；根据所述积分矩阵计算初始离散格式中各个阈值构成的取值区间的区分度；迭代查找区分度最大且不为预设的特征值的取值区间，将所述区分度最大的取值区间对应的阈值添加到目标离散格式中，并将所述区分度最大的取值区间中包含的各个子区间对应的区分度设为所述特征值，直至所有取值区间的区分度均为所述特征值，输出所述目标离散格式。2.根据权利要求1所述的数据离散化方法，其特征在于，所述接收输入的有序排列的样本集的步骤之后还包括：在所述有序排列的样本集中包含的数据为离散数据时，通过计算相邻两个离散数据的平均值得到有序排列的初始离散格式。3.根据权利要求1所述的数据离散化方法，其特征在于，所述根据所述积分...

【专利技术属性】
技术研发人员：刘宏志，蒋杰，王巨宏，吴中海，张兴，
申请(专利权)人：北京大学，深圳市腾讯计算机系统有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人