二分类模型训练方法、数据分类方法及对应装置制造方法及图纸

技术编号:20117695 阅读:44 留言:0更新日期:2019-01-16 12:03
本发明专利技术涉及机器学习技术领域,提供一种二分类模型训练方法、数据分类方法及对应装置。其中,训练集中的训练样本均为结构化数据,结构化数据中包括至少一个离散型特征,二分类模型训练方法包括:统计离散型特征的不同的特征值在训练集的正样本中出现的次数;基于离散型特征的特征值出现的次数与正样本的总个数的比值,计算离散型特征的特征值对应的编码值;将训练样本中的离散型特征的特征值替换为对应的编码值;利用更新后的训练样本训练二分类模型。结构化数据中的离散型特征被上述方法编码后,其特征值被转化为连续值,从而可以被现有的机器学习算法正确地处理,正常地用于训练二分类模型。同时,编码过程简单高效,不会导致维灾难问题。

Training Method, Data Classification Method and Corresponding Device of Bi-Classification Model

The invention relates to the field of machine learning technology, and provides a training method of a two-classification model, a data classification method and a corresponding device. The training samples in the training set are all structured data, and the structured data includes at least one discrete feature. The training method of binary classification model includes: counting the number of different eigenvalues of the discrete feature appearing in the positive sample of the training set; calculating the characteristics of the discrete feature based on the ratio of the number of eigenvalues appearing in the discrete feature to the total number of positive samples. The coding values corresponding to the eigenvalues; the eigenvalues of the discrete features in the training samples are replaced by the corresponding coding values; and the binary classification model is trained by the updated training samples. After the discrete features in structured data are encoded by the above methods, their eigenvalues are converted into continuous values, which can be correctly processed by existing machine learning algorithms and used to train the binary classification model. At the same time, the encoding process is simple and efficient, and will not lead to dimension disaster.

【技术实现步骤摘要】
二分类模型训练方法、数据分类方法及对应装置
本专利技术涉及机器学习
,具体而言,涉及一种二分类模型训练方法、数据分类方法及对应装置。
技术介绍
随着大数据的兴起与人工智能的发展,越来越多的企业开始重视企业自身数据的利用与挖掘。企业的数据来源广泛,有人力资源数据、财务数据、产品设计数据、产品生产数据、库存数据、设备维护数据、市场数据等,这些数据中有些是连续型的,有一些则离散型的。在一些业务系统中直接用字符表示离散型特征,比如性别特征,用M表示男,F表示女,这些离散特征在数据进行机器学习算法前必须进行处理,将字符转换成数值,一些常用的机器学习算法才能正确处理。另一些业务系统用整型数字表示离散型特征,比如性别特征,用1表示男,0表示女,但与上面采用字符表示的方式没有本质区别,在很多机器学习算法中仍然要谨慎对待这样的离散型特征。针对离散型特征,已有一些技术可将其转换成大部分机器学习算法可以接受的数值型特征,比如哑变量编码与One-hot编码,但这些编码技术只适合在离散型特征是低势特征的情况下使用。其中,特征的势是指离散型特征可取的不同的特征值数量,例如性别特征只有男女两个特征值可取,因此属于低势特征,邮政编码有大量的值可取,因此属于高势特征。如果离散型特征是高势特征,采用这些编码技术后获得的新特征维度过高,甚至导致维灾难问题。另一些编码技术虽然能够处理高势特征,但算法过于复杂,计算资源消耗量极大,实用价值不高。
技术实现思路
有鉴于此,本专利技术实施例提供一种二分类模型训练方法、数据分类方法及对应装置,有效地处理结构化数据中的离散型特征,处理后的结构化数据能够直接用于二分类模型的训练或者被二分类模型分类。为实现上述目的,本专利技术提供如下技术方案:第一方面,本专利技术实施例提供一种二分类模型训练方法,训练集中的训练样本均为结构化数据,结构化数据中包括至少一个离散型特征,方法包括:统计离散型特征的不同的特征值在训练集的正样本中出现的次数;基于离散型特征的特征值出现的次数与正样本的总个数的比值,计算离散型特征的特征值对应的编码值;将训练样本中的离散型特征的特征值替换为对应的编码值;在对训练样本中的每个离散型特征都完成特征值替换后,利用更新后的训练样本训练二分类模型。第二方面,本专利技术实施例提供一种数据分类方法,用于对数据样本进行分类,数据样本为结构化数据,结构化数据中包括至少一个离散型特征,方法包括:获得利用本专利技术实施例提供的二分类模型训练方法训练出的二分类模型,以及离散型特征的特征值对应的编码值;将数据样本中的离散型特征的特征值替换为对应的编码值;在对数据样本中的每个离散型特征都完成特征值替换后,将更新后的数据样本输入至二分类模型进行分类。第三方面,本专利技术实施例提供一种二分类模型训练装置,训练集中的训练样本均为结构化数据,结构化数据中包括至少一个离散型特征,装置包括:次数统计模块,用于统计离散型特征的不同的特征值在训练集的正样本中出现的次数;编码值计算模块,用于基于离散型特征的特征值出现的次数与正样本的总个数的比值,计算离散型特征的特征值对应的编码值;编码值替换模块,用于将训练样本中的离散型特征的特征值替换为对应的编码值;模型训练模块,用于在对训练样本中的每个离散型特征都完成特征值替换后,利用更新后的训练样本训练二分类模型。第四方面,本专利技术实施例提供一种数据分类装置,用于对数据样本进行分类,数据样本为结构化数据,结构化数据中包括至少一个离散型特征,装置包括:模型获取模块,用于获得利用本专利技术实施例提供的二分类模型训练方法训练出的二分类模型,以及离散型特征的特征值对应的编码值;编码值替换模块,用于将数据样本中的离散型特征的特征值替换为对应的编码值;分类模块,用于在对数据样本中的每个离散型特征都完成特征值替换后,将更新后的数据样本输入至二分类模型进行分类。第五方面,本专利技术实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序指令,计算机程序指令被处理器读取并运行时,执行本专利技术实施例提供的方法的步骤。第六方面,本专利技术实施例提供一种电子设备,包括存储器以及处理器,存储器中存储有计算机程序指令,计算机程序指令被处理器读取并运行时,执行第一方面或第一方面的任意一种可能的实现方式提供的方法的步骤。本专利技术提供的技术方案至少包括如下有益效果:在本专利技术实施例提供二分类模型训练方法以及分类方法中,基于离散型特征的不同的特征值在训练集中的正样本中出现的概率(即特征值出现的次数与正样本的总个数的比值)对离散型特征进行编码,将其特征值由离散型值转化为连续型值。从而编码后的结构化数据可以被现有的机器学习算法正确地处理,即可以正常地用于训练二分类模型或者输入至训练好的二分类模型进行分类。同时,本专利技术实施例中对离散型特征的编码结果与特征的势无关,不会导致维灾难问题。此外,根据方法的步骤描述可知,编码值的计算过程非常简单高效,极大地缩减了对结构化数据进行预处理的时间,有效提升了数据建模的效率。为使本专利技术的上述目的、技术方案和有益效果能更明显易懂,下文特举实施例,并配合所附附图,作详细说明如下。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1示出了一种可应用于本专利技术实施例中的电子设备100的结构框图;图2示出了本专利技术实施例提供的二分类模型训练方法的流程图;图3示出了本专利技术实施例提供的二级哈希映射表的结构示意图;图4示出了本专利技术第实施例提供的数据分类方法的流程图;图5示出了本专利技术实施例提供的二分类模型训练装置的功能模块图;图6示出了本专利技术实施例提供的数据分类装置的功能模块图。具体实施方式下面将结合本专利技术实施例中附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本专利技术的描述中,术语“第一”、“第二”等仅用于将一个实体或者操作与另一个实体或操作区分开来,而不能理解为指示或暗示相对重要性,也不能理解为要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。图1示本文档来自技高网...

【技术保护点】
1.一种二分类模型训练方法,其特征在于,训练集中的训练样本均为结构化数据,所述结构化数据中包括至少一个离散型特征,所述方法包括:统计所述离散型特征的不同的特征值在所述训练集的正样本中出现的次数;基于所述离散型特征的特征值出现的次数与所述正样本的总个数的比值,计算所述离散型特征的特征值对应的编码值;将所述训练样本中的所述离散型特征的特征值替换为对应的所述编码值;在对所述训练样本中的每个离散型特征都完成特征值替换后,利用更新后的所述训练样本训练二分类模型。

【技术特征摘要】
1.一种二分类模型训练方法,其特征在于,训练集中的训练样本均为结构化数据,所述结构化数据中包括至少一个离散型特征,所述方法包括:统计所述离散型特征的不同的特征值在所述训练集的正样本中出现的次数;基于所述离散型特征的特征值出现的次数与所述正样本的总个数的比值,计算所述离散型特征的特征值对应的编码值;将所述训练样本中的所述离散型特征的特征值替换为对应的所述编码值;在对所述训练样本中的每个离散型特征都完成特征值替换后,利用更新后的所述训练样本训练二分类模型。2.根据权利要求1所述的二分类模型训练方法,其特征在于,所述基于所述离散型特征的特征值出现的次数与所述正样本的总个数的比值,计算所述离散型特征的特征值对应的编码值,包括:利用如下公式计算所述离散型特征的特征值对应的所述编码值其中,为所述离散型特征f的特征值vi出现的次数,N+为所述正样本的总个数,a为非零的常数,b为任意常数。3.根据权利要求1所述的二分类模型训练方法,其特征在于,在所述统计所述离散型特征的不同的特征值在所述训练集的正样本中出现的次数之前,所述方法还包括:在确定任一训练样本中的任一离散型特征的特征值为空值时,对所述训练样本中的所述离散型特征进行预处理,以消除空值。4.根据权利要求3所述的二分类模型训练方法,其特征在于,所述在确定任一训练样本中的任一离散型特征的特征值为空值时,对所述训练样本中的所述离散型特征进行预处理,以消除空值,包括:在确定任一训练样本中的任一离散型特征的特征值为空值时,将所述训练样本中的所述离散型特征的特征值设置为第一预设值,其中,所述第一预设值不同于所述离散型特征当前的任一可能的特征值。5.根据权利要求1所述的二分类模型训练方法,其特征在于,在所述统计所述离散型特征的不同的特征值在所述训练集的正样本中出现的次数之后,以及在所述基于所述离散型特征的特征值出现的次数与所述正样本的总个数的比值,计算所述离散型特征的特征值对应的编码值之前,所述方法还包括:将所述离散型特征中出现的次数小于预设次数的特征值替换为第二预设值,所述第二预设值不同于所述离散型特征当前的任一可能的特征值;重新统计所述离散型特征的不同的特征值在所述训练集的正样本中出现的次数。6.根据权利要求5所述的二分类模型训练方...

【专利技术属性】
技术研发人员:赵红军覃进学赵神州王纯斌
申请(专利权)人:成都四方伟业软件股份有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1