一种特征离散化方法和装置制造方法及图纸

技术编号:27464751 阅读:37 留言:0更新日期:2021-03-02 17:26
本发明专利技术公开了一种特征离散化方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:按照特征的取值对样本进行排序;根据所述特征每个取值点的信息增益确定所述特征的各个分界点,以将所述特征离散化为若干个离散区间;对所述若干个离散区间进行聚类融合,得到离散化结果。该实施方式能够既考虑自变量自身取值的分布,也考虑自变量取值和样本标签之间的关系,形成一种半监督的连续特征离散化方法。法。法。

【技术实现步骤摘要】
一种特征离散化方法和装置


[0001]本专利技术涉及计算机
,尤其涉及一种特征离散化方法和装置。

技术介绍

[0002]特征离散化的重点在于从自变量连续的取值中探索到若干各区间,使得同区间内的取值状态相近。目前,用来进行特征离散化的方法分为三种:1.根据分位数将连续的特征值进行离散化。这种方法将自变量按照取值的大小进行平均划分,每个区间所包含的样本数量相同。2.使用聚类方法对特征值进行离散化。这种方法使用无监督的聚类方法,如Kmeans将自变量的取值划分成若干个区间。3.根据决策树的分割对特征进行离散化。这种方法根据决策树中信息增益的定义,寻找能够带来最大信息增益的点,将自变量的取值划分成若干个区间。
[0003]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:
[0004]第一种和第二种方法为统计和无监督学习方法,只考虑了自变量取值的分布情况,而并没有考虑自变量的取值和样本标签之间的关系,而一个取值区间所对应的样本标签实际上很大程度上代表了这个取值区间的特性。同时,前两种方法也必须人为指定要将自变量的取值离散化成多少个区间。第三种方法虽然考虑了自变量取值和样本标签之间的关系,但寻找分割点的过程是基于多个自变量,不能够充分挖掘单个自变量取值中能够分割的点。同时,在寻找分割点时也需要人为规定停止条件。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供一种离散化方法和装置,能够既考虑自变量自身取值的分布,也考虑自变量取值和样本标签之间的关系,形成一种半监督的连续特征离散化方法。
[0006]为实现上述目的,根据本专利技术实施例的一个方面,提供了一种特征离散化方法,包括:
[0007]按照特征的取值对样本进行排序;
[0008]根据所述特征每个取值点的信息增益确定所述特征的各个分界点,以将所述特征离散化为若干个离散区间;
[0009]对所述若干个离散区间进行聚类融合,得到离散化结果。
[0010]可选地,根据所述特征每个取值点的信息增益确定所述特征的各个分界点包括:
[0011]根据每个特征点的样本标签,查找具有不同样本标签的相邻取值点对;将所述相邻取值点对的取值的中间值作为所述分界点。
[0012]可选地,对所述若干个离散区间进行聚类融合包括:
[0013]比较每两个相邻的离散区间的距离,将具有最小距离的两个相邻离散区间融合为一个区间,得到更新后的离散区间;
[0014]比较更新后的离散区间中每两个相邻离散区间的距离,将具有最小距离的两个相
邻离散区间融合为一个区间,如此循环,直至更新后的离散区间的数量等于预设区间数量。
[0015]可选地,按照如下步骤确定所述预设区间数量:
[0016]比较每两个相邻的离散区间的距离,将具有最小距离的两个相邻离散区间融合为一个区间,得到更新后的离散区间;比较更新后的离散区间中每两个相邻离散区间的距离,将具有最小距离的两个相邻离散区间融合为一个区间,如此循环,直至所有的离散区间融合为一个区间,得到融合数据;所述融合数据包括:每次融合的两个相邻离散区间的距离以及更新后的离散区间的数量;
[0017]根据所述融合数据拟合距离关于离散区间数量的曲线,然后采用肘方法确定所述预设区间数量。
[0018]根据本专利技术实施例的第二方面,提供一种特征离散化装置,包括:
[0019]预处理模块,按照特征的取值对样本进行排序;
[0020]离散模块,根据所述特征每个取值点的信息增益确定所述特征的各个分界点,以将所述特征离散化为若干个离散区间;
[0021]融合模块,对所述若干个离散区间进行聚类融合,得到离散化结果。
[0022]可选地,所述离散模块根据所述特征每个取值点的信息增益确定所述特征的各个分界点包括:
[0023]根据每个特征点的样本标签,查找具有不同样本标签的相邻取值点对;将所述相邻取值点对的取值的中间值作为所述分界点。
[0024]可选地,所述融合模块对所述若干个离散区间进行聚类融合包括:
[0025]比较每两个相邻的离散区间的距离,将具有最小距离的两个相邻离散区间融合为一个区间,得到更新后的离散区间;
[0026]比较更新后的离散区间中每两个相邻离散区间的距离,将具有最小距离的两个相邻离散区间融合为一个区间,如此循环,直至更新后的离散区间的数量等于预设区间数量。
[0027]可选地,所述融合模块还用于:按照如下步骤确定所述预设区间数量:
[0028]比较每两个相邻的离散区间的距离,将具有最小距离的两个相邻离散区间融合为一个区间,得到更新后的离散区间;比较更新后的离散区间中每两个相邻离散区间的距离,将具有最小距离的两个相邻离散区间融合为一个区间,如此循环,直至所有的离散区间融合为一个区间,得到融合数据;所述融合数据包括:每次融合的两个相邻离散区间的距离以及更新后的离散区间的数量;
[0029]根据所述融合数据拟合距离关于离散区间数量的曲线,然后采用肘方法确定所述预设区间数量。
[0030]根据本专利技术实施例的第三方面,提供一种特征离散化电子设备,包括:
[0031]一个或多个处理器;
[0032]存储装置,用于存储一个或多个程序,
[0033]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术实施例第一方面提供的特征离散化方法。
[0034]根据本专利技术实施例的第四方面,提供一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本专利技术实施例第一方面提供的特征离散化方法。
[0035]上述专利技术中的一个实施例具有如下优点或有益效果:通过根据特征每个取值点的
信息增益将特征离散化为若干个离散区间,能够利用样本标签所携带的有监督信息对自变量的取值进行初始离散化;通过聚类融合,能够结合样本标签携带的无监督信息即特征取值的分布情况对初始离散化的结果进行进一步的调优,形成一种半监督的连续特征离散化方法。
[0036]上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
[0037]附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:
[0038]图1是根据本专利技术实施例的特征离散化方法的主要流程的示意图;
[0039]图2是根据融合数据拟合距离关于离散区间数量的曲线的示意图;
[0040]图3是根据本专利技术实施例的特征离散化装置的主要模块的示意图;
[0041]图4是本专利技术实施例可以应用于其中的示例性系统架构图;
[0042]图5是适于用来实现本专利技术实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
[0043]以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种特征离散化方法,其特征在于,包括:按照特征的取值对样本进行排序;根据所述特征每个取值点的信息增益确定所述特征的各个分界点,以将所述特征离散化为若干个离散区间;对所述若干个离散区间进行聚类融合,得到离散化结果。2.如权利要求1所述的特征离散化方法,其特征在于,根据所述特征每个取值点的信息增益确定所述特征的各个分界点包括:根据每个特征点的样本标签,查找具有不同样本标签的相邻取值点对;将所述相邻取值点对的取值的中间值作为所述分界点。3.如权利要求1所述的特征离散化方法,其特征在于,对所述若干个离散区间进行聚类融合包括:比较每两个相邻的离散区间的距离,将具有最小距离的两个相邻离散区间融合为一个区间,得到更新后的离散区间;比较更新后的离散区间中每两个相邻离散区间的距离,将具有最小距离的两个相邻离散区间融合为一个区间,如此循环,直至更新后的离散区间的数量等于预设区间数量。4.如权利要求3所述的特征离散化方法,其特征在于,按照如下步骤确定所述预设区间数量:比较每两个相邻的离散区间的距离,将具有最小距离的两个相邻离散区间融合为一个区间,得到更新后的离散区间;比较更新后的离散区间中每两个相邻离散区间的距离,将具有最小距离的两个相邻离散区间融合为一个区间,如此循环,直至所有的离散区间融合为一个区间,得到融合数据;所述融合数据包括:每次融合的两个相邻离散区间的距离以及更新后的离散区间的数量;根据所述融合数据拟合距离关于离散区间数量的曲线,然后采用肘方法确定所述预设区间数量。5.一种特征离散化装置,其特征在于,包括:预处理模块,按照特征的取值对样本进行排序;离散模块,根据所述特征每个取值点的信息增益确定所述特征的各个分界点,以将所述特征离散化为若干个离散区间;融合模块,对所述若干个离散区...

【专利技术属性】
技术研发人员:刘洋
申请(专利权)人:北京京东振世信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1