The invention relates to the field of machine learning technology, and provides a training method of a two-classification model, a data classification method and a corresponding device. The training samples in the training set are all structured data, and the structured data includes at least one discrete feature. The training method of binary classification model includes: counting the number of different eigenvalues of the discrete feature appearing in the positive sample of the training set; calculating the characteristics of the discrete feature based on the ratio of the number of eigenvalues appearing in the discrete feature to the total number of positive samples. The coding values corresponding to the eigenvalues; the eigenvalues of the discrete features in the training samples are replaced by the corresponding coding values; and the binary classification model is trained by the updated training samples. After the discrete features in structured data are encoded by the above methods, their eigenvalues are converted into continuous values, which can be correctly processed by existing machine learning algorithms and used to train the binary classification model. At the same time, the encoding process is simple and efficient, and will not lead to dimension disaster.
【技术实现步骤摘要】
二分类模型训练方法、数据分类方法及对应装置
本专利技术涉及机器学习
,具体而言,涉及一种二分类模型训练方法、数据分类方法及对应装置。
技术介绍
随着大数据的兴起与人工智能的发展,越来越多的企业开始重视企业自身数据的利用与挖掘。企业的数据来源广泛,有人力资源数据、财务数据、产品设计数据、产品生产数据、库存数据、设备维护数据、市场数据等,这些数据中有些是连续型的,有一些则离散型的。在一些业务系统中直接用字符表示离散型特征,比如性别特征,用M表示男,F表示女,这些离散特征在数据进行机器学习算法前必须进行处理,将字符转换成数值,一些常用的机器学习算法才能正确处理。另一些业务系统用整型数字表示离散型特征,比如性别特征,用1表示男,0表示女,但与上面采用字符表示的方式没有本质区别,在很多机器学习算法中仍然要谨慎对待这样的离散型特征。针对离散型特征,已有一些技术可将其转换成大部分机器学习算法可以接受的数值型特征,比如哑变量编码与One-hot编码,但这些编码技术只适合在离散型特征是低势特征的情况下使用。其中,特征的势是指离散型特征可取的不同的特征值数量,例如性别特征只有男女两个特征值可取,因此属于低势特征,邮政编码有大量的值可取,因此属于高势特征。如果离散型特征是高势特征,采用这些编码技术后获得的新特征维度过高,甚至导致维灾难问题。另一些编码技术虽然能够处理高势特征,但算法过于复杂,计算资源消耗量极大,实用价值不高。
技术实现思路
有鉴于此,本专利技术实施例提供一种二分类模型训练方法、数据分类方法及对应装置,有效地处理结构化数据中的离散型特征,处理后的结构化数据能够直 ...
【技术保护点】
1.一种二分类模型训练方法,其特征在于,训练集中的训练样本均为结构化数据,所述结构化数据中包括至少一个离散型特征,所述方法包括:统计所述离散型特征的不同的特征值在所述训练集的正样本中出现的次数;基于所述离散型特征的特征值出现的次数与所述正样本的总个数的比值,计算所述离散型特征的特征值对应的编码值;将所述训练样本中的所述离散型特征的特征值替换为对应的所述编码值;在对所述训练样本中的每个离散型特征都完成特征值替换后,利用更新后的所述训练样本训练二分类模型。
【技术特征摘要】
1.一种二分类模型训练方法,其特征在于,训练集中的训练样本均为结构化数据,所述结构化数据中包括至少一个离散型特征,所述方法包括:统计所述离散型特征的不同的特征值在所述训练集的正样本中出现的次数;基于所述离散型特征的特征值出现的次数与所述正样本的总个数的比值,计算所述离散型特征的特征值对应的编码值;将所述训练样本中的所述离散型特征的特征值替换为对应的所述编码值;在对所述训练样本中的每个离散型特征都完成特征值替换后,利用更新后的所述训练样本训练二分类模型。2.根据权利要求1所述的二分类模型训练方法,其特征在于,所述基于所述离散型特征的特征值出现的次数与所述正样本的总个数的比值,计算所述离散型特征的特征值对应的编码值,包括:利用如下公式计算所述离散型特征的特征值对应的所述编码值其中,为所述离散型特征f的特征值vi出现的次数,N+为所述正样本的总个数,a为非零的常数,b为任意常数。3.根据权利要求1所述的二分类模型训练方法,其特征在于,在所述统计所述离散型特征的不同的特征值在所述训练集的正样本中出现的次数之前,所述方法还包括:在确定任一训练样本中的任一离散型特征的特征值为空值时,对所述训练样本中的所述离散型特征进行预处理,以消除空值。4.根据权利要求3所述的二分类模型训练方法,其特征在于,所述在确定任一训练样本中的任一离散型特征的特征值为空值时,对所述训练样本中的所述离散型特征进行预处理,以消除空值,包括:在确定任一训练样本中的任一离散型特征的特征值为空值时,将所述训练样本中的所述离散型特征的特征值设置为第一预设值,其中,所述第一预设值不同于所述离散型特征当前的任一可能的特征值。5.根据权利要求1所述的二分类模型训练方法,其特征在于,在所述统计所述离散型特征的不同的特征值在所述训练集的正样本中出现的次数之后,以及在所述基于所述离散型特征的特征值出现的次数与所述正样本的总个数的比值,计算所述离散型特征的特征值对应的编码值之前,所述方法还包括:将所述离散型特征中出现的次数小于预设次数的特征值替换为第二预设值,所述第二预设值不同于所述离散型特征当前的任一可能的特征值;重新统计所述离散型特征的不同的特征值在所述训练集的正样本中出现的次数。6.根据权利要求5所述的二分类模型训练方...
【专利技术属性】
技术研发人员:赵红军,覃进学,赵神州,王纯斌,
申请(专利权)人:成都四方伟业软件股份有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。