一种特征离散化方法和装置制造方法及图纸

技术编号：27464751 阅读：37 留言：0更新日期：2021-03-02 17:26

本发明专利技术公开了一种特征离散化方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：按照特征的取值对样本进行排序；根据所述特征每个取值点的信息增益确定所述特征的各个分界点，以将所述特征离散化为若干个离散区间；对所述若干个离散区间进行聚类融合，得到离散化结果。该实施方式能够既考虑自变量自身取值的分布，也考虑自变量取值和样本标签之间的关系，形成一种半监督的连续特征离散化方法。法。法。

全部详细技术资料下载

【技术实现步骤摘要】
一种特征离散化方法和装置

[0001]本专利技术涉及计算机
，尤其涉及一种特征离散化方法和装置。

技术介绍

[0002]特征离散化的重点在于从自变量连续的取值中探索到若干各区间，使得同区间内的取值状态相近。目前，用来进行特征离散化的方法分为三种：1.根据分位数将连续的特征值进行离散化。这种方法将自变量按照取值的大小进行平均划分，每个区间所包含的样本数量相同。2.使用聚类方法对特征值进行离散化。这种方法使用无监督的聚类方法，如Kmeans将自变量的取值划分成若干个区间。3.根据决策树的分割对特征进行离散化。这种方法根据决策树中信息增益的定义，寻找能够带来最大信息增益的点，将自变量的取值划分成若干个区间。
[0003]在实现本专利技术过程中，专利技术人发现现有技术中至少存在如下问题：
[0004]第一种和第二种方法为统计和无监督学习方法，只考虑了自变量取值的分布情况，而并没有考虑自变量的取值和样本标签之间的关系，而一个取值区间所对应的样本标签实际上很大程度上代表了这个取值区间的特性。同时，前两种方法也必须人为指定要将自变量的取值离散化成多少个区间。第三种方法虽然考虑了自变量取值和样本标签之间的关系，但寻找分割点的过程是基于多个自变量，不能够充分挖掘单个自变量取值中能够分割的点。同时，在寻找分割点时也需要人为规定停止条件。

技术实现思路

[0005]有鉴于此，本专利技术实施例提供一种离散化方法和装置，能够既考虑自变量自身取值的分布，也考虑自变量取值和样本标签之间的关系，形成一种半监督的...

【技术保护点】

【技术特征摘要】
1.一种特征离散化方法，其特征在于，包括：按照特征的取值对样本进行排序；根据所述特征每个取值点的信息增益确定所述特征的各个分界点，以将所述特征离散化为若干个离散区间；对所述若干个离散区间进行聚类融合，得到离散化结果。2.如权利要求1所述的特征离散化方法，其特征在于，根据所述特征每个取值点的信息增益确定所述特征的各个分界点包括：根据每个特征点的样本标签，查找具有不同样本标签的相邻取值点对；将所述相邻取值点对的取值的中间值作为所述分界点。3.如权利要求1所述的特征离散化方法，其特征在于，对所述若干个离散区间进行聚类融合包括：比较每两个相邻的离散区间的距离，将具有最小距离的两个相邻离散区间融合为一个区间，得到更新后的离散区间；比较更新后的离散区间中每两个相邻离散区间的距离，将具有最小距离的两个相邻离散区间融合为一个区间，如此循环，直至更新后的离散区间的数量等于预设区间数量。4.如权利要求3所述的特征离散化方法，其特征在于，按照如下步骤确定所述预设区间数量：比较每两个相邻的离散区间的距离，将具有最小距离的两个相邻离散区间融合为一个区间，得到更新后的离散区间；比较更新后的离散区间中每两个相邻离散区间的距离，将具有最小距离的两个相邻离散区间融合为一个区间，如此循环，直至所有的离散区间融合为一个区间，得到融合数据；所述融合数据包括：每次融合的两个相邻离散区间的距离以及更新后的离散区间的数量；根据所述融合数据拟合距离关于离散区间数量的曲线，然后采用肘方法确定所述预设区间数量。5.一种特征离散化装置，其特征在于，包括：预处理模块，按照特征的取值对样本进行排序；离散模块，根据所述特征每个取值点的信息增益确定所述特征的各个分界点，以将所述特征离散化为若干个离散区间；融合模块，对所述若干个离散区...

【专利技术属性】
技术研发人员：刘洋，
申请(专利权)人：北京京东振世信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人