变量离散化的方法及装置制造方法及图纸

技术编号：16456002 阅读：68 留言：0更新日期：2017-10-25 20:33

本申请实施例提供了一种变量离散化的方法及装置，该方法包括：将每个数据集中的第一变量的取值范围按照相同的边界值划分成多个原始段落；按序将每个原始段落与自身及其后的原始段落进行递增式合并，获得多层合并段落集；将第一层合并段落集中的每个合并段落分别作为一个候选段落组；逐层确定每层合并段落集中的每个合并段落的合法前置段落，并将该合并段落添加至其合法前置段落所属的候选段落组中，在完成更新候选段落组后，从当前的多个候选段落组中选出包含全部原始段落的候选段落组，并将其作为第一变量的离散化结果输出。本申请实施例实现了对同时存在于多个数据集的变量统一进行离散化自动处理，且可保证离散化结果的信息值最大化。

Method and device for discretization of variables

The embodiment of the invention provides a variable discretization method and device, the method includes: the range of the first data set of each variable with the same boundary value is divided into a plurality of original passages; sequence the original paragraph of each original paragraph and its after the incremental merger, merger obtain multilayer paragraph set; each paragraph with the first layer with paragraph concentrated as a candidate group of paragraphs; determine the legal front layer of each layer with each paragraph with paragraph paragraph concentration, and the combined paragraph is added to the candidate paragraph group method belongs to the front end, the update is complete candidate paragraphs group after the selected candidate set contains all the original paragraph paragraph from a plurality of candidate paragraphs in the group, and as a result the first discrete variable output. The application example realizes the automatic processing of the discretization of variables which exist in a plurality of data sets at the same time, and ensures the maximization of the information value of the discretization results.

全部详细技术资料下载

【技术实现步骤摘要】
变量离散化的方法及装置
本申请涉及数据挖掘
，尤其是涉及一种变量离散化的方法及装置。
技术介绍
在系统建模过程中，变量离散化具有重大的意义，其可以优选变量、去除噪声、提高模型性能等等。而在变量离散化过程中，同时保持变量在多个数据集上满足预设的单调性要求，则可以保证系统模型的稳定性和可解释性。在实现本申请的过程中，本申请专利技术人发现：目前现有变量离散化的方法，只能在单个数据集上使用。而对于同时存在于多个数据集上的变量，如果需要同时满足其在多个数据集上的相同单调性(即变量同时满足在多个数据集上同是单调递增或者同是单调递减)，一般需要通过人工操作实现，因此，其效率较低。而当面对的是成百上千个，甚至上万个的变量(即同时存在于多个数据集上的成百上千个，甚至上万个的变量)时，这种人工操作是难以实现的。
技术实现思路
本申请实施例的目的在于提供一种变量离散化的方法及装置，以实现对同时存在于多个数据集的变量统一进行离散化自动处理，从而使其同时在多个数据集上具有相同的单调性。为达到上述目的，一方面本申请实施例提供了一种变量离散化的方法，包括：将每个数据集中的第一变量的取值范围按...
变量离散化的方法及装置

【技术保护点】
一种变量离散化的方法，其特征在于，包括以下步骤：将每个数据集中的第一变量的取值范围按照相同的边界值划分成多个原始段落；从第一个原始段落开始，按序将每个原始段落与自身及其后的原始段落进行递增式合并，获得多层合并段落集，所述每层合并段落集包括至少一个合并段落；将第一层合并段落集中的每个合并段落分别作为一个候选段落组；从第二层合并段落集开始，逐层确定每层合并段落集中的每个合并段落的合法前置段落，并将该合并段落添加至其合法前置段落所属的候选段落组中，以更新候选段落组；其中，一个合并段落的合法前置段落是指该合并段落的满足预设单调性的前置段落，而一个合并段落的前置段落是指在所述多层合并段落集中，以该合并段...

【技术特征摘要】
1.一种变量离散化的方法，其特征在于，包括以下步骤：将每个数据集中的第一变量的取值范围按照相同的边界值划分成多个原始段落；从第一个原始段落开始，按序将每个原始段落与自身及其后的原始段落进行递增式合并，获得多层合并段落集，所述每层合并段落集包括至少一个合并段落；将第一层合并段落集中的每个合并段落分别作为一个候选段落组；从第二层合并段落集开始，逐层确定每层合并段落集中的每个合并段落的合法前置段落，并将该合并段落添加至其合法前置段落所属的候选段落组中，以更新候选段落组；其中，一个合并段落的合法前置段落是指该合并段落的满足预设单调性的前置段落，而一个合并段落的前置段落是指在所述多层合并段落集中，以该合并段落的下边界作为上边界的合并段落；在完成上一步后，从当前的多个候选段落组中选出包含全部原始段落的候选段落组，并将其作为所述第一变量的离散化结果输出。2.根据权利要求1所述的变量离散化的方法，其特征在于，还包括：当包含全部原始段落的候选段落组有多个时，从中选择其信息值IV之和最大的候选段落组作为所述第一变量的离散化结果输出，其中，一个候选段落组的信息值之和是指：该候选段落组中的每个合并段落的信息值的总和。3.根据权利要求1所述的变量离散化的方法，其特征在于，还包括：当一个合并段落同时有多个合法前置段落，并且所述多个合法前置段落不同在一个候选段落组时，将该合并段落添加至其中信息值之和最大的候选段落组中，以更新候选段落组。4.根据权利要求1所述的变量离散化的方法，其特征在于，所述满足预设单调性包括：对于每个所述数据集，一个合并段落的标记权重与该合并段落的前置段落的标记权重的比较结果均满足预设条件。5.根据权利要求1所述的变量离散化的方法，其特征在于，所述边界值以及所述原始段落的数量预先设定。6.一种变量离散化的装置，其特征在于，包括：原始段落划分模块，用于将每个数据集中的第一变量的取值范围按照...

【专利技术属性】
技术研发人员：刘毅捷，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人