【技术实现步骤摘要】
特征构建方法、装置、计算机设备及存储介质
本申请涉及机器学习
,具体而言,涉及一种特征构建方法、装置、计算机设备及存储介质。
技术介绍
特征构建是结构化数据建模流程中重要的组成部分,也是决定数据挖掘或机器学习项目成功与否重要的因素。通常,二分类模型的特征构建过程是从业务经验开始的,即,首先根据业务专家的业务经验,选择业务中产生的对算法所学习模式有重要作用的数据项;再通过各种手段对特征进行单变量或多变量操作构建新的特征,如采用特征聚合、映射、抽取、分箱、计算等单变量操作,或者特征交叉(组合)、多项式计算、分组聚合等多变量操作实现特征构建。但是,上述的特征构建方法都是无监督的方式,特征对算法所学模式的表达能力在模型构建之前是未知的,且从大量建模经验来看,这种无监督方式构建的特征绝大多数是无效或重复的,即特征信息浓度低。同时,上述特征构建过程无法做到有效调整。
技术实现思路
本申请的目的在于提供一种特征构建方法、装置、计算机设备及存储介质,用以解决现有的特征构建方式构建的特征信息浓度低且无 ...
【技术保护点】
1.一种特征构建方法,其特征在于,所述方法包括:/n获取多个样本,并将所述多个样本划分为特征构建集、训练集及测试集;/n利用第一特征构建单元,对所述特征构建集中的所述样本进行特征构建并记录特征构建信息,得到多个第一集合;/n利用第二特征构建单元计算每个所述第一集合的特征值;/n生成特征映射表,其中,所述特征映射表包括多个预设类别、所述多个第一集合和每个所述第一集合的特征值,一个所述预设类别和一个所述第一集合确定一个所述特征值;/n利用所述第一特征构建单元和所述特征构建信息,分别对所述训练集和所述测试集中的所述样本进行特征构建,得到多个第二集合和多个第三集合,所述多个第二集合 ...
【技术特征摘要】
1.一种特征构建方法,其特征在于,所述方法包括:
获取多个样本,并将所述多个样本划分为特征构建集、训练集及测试集;
利用第一特征构建单元,对所述特征构建集中的所述样本进行特征构建并记录特征构建信息,得到多个第一集合;
利用第二特征构建单元计算每个所述第一集合的特征值;
生成特征映射表,其中,所述特征映射表包括多个预设类别、所述多个第一集合和每个所述第一集合的特征值,一个所述预设类别和一个所述第一集合确定一个所述特征值;
利用所述第一特征构建单元和所述特征构建信息,分别对所述训练集和所述测试集中的所述样本进行特征构建,得到多个第二集合和多个第三集合,所述多个第二集合和所述多个第一集合一一对应,所述多个第三集合和所述多个第一集合一一对应;
依据所述多个预设类别查找所述特征映射表,获得每个所述第二集合的特征值和每个所述第三集合的特征值;
利用每个所述第二集合的特征值和每个所述第三集合的特征值,对预先选定的二分类模型进行训练和测试,以迭代修改所述第一特征构建单元和所述第二特征构建单元的超参数,直至所述第一特征构建单元和所述第二特征构建单元达到最优。
2.如权利要求1所述的方法,其特征在于,所述第一特征构建单元包括预设指标,所述特征构建信息包括异常信息及分集信息;
所述利用第一特征构建单元,对所述特征构建集中的所述样本进行特征构建并记录特征构建信息,得到多个第一集合的步骤,包括:
按照所述预设指标分别对所述特征构建集中的每个所述样本进行指标构建,得到第一指标分布,所述第一指标分布包括每个所述样本对应的第一中间指标;
对所述第一指标分布进行异常值处理并记录所述异常信息,得到第一目标指标分布,所述第一目标指标分布包括每个所述样本对应的第一目标指标数据;
对所述第一目标指标分布进行分集处理并记录所述分集信息,得到所述多个第一集合,每个所述第一集合均包括至少一个所述第一目标指标数据。
3.如权利要求2所述的方法,其特征在于,当所述第一指标分布为连续变量时,所述异常信息包括所述第一目标指标分布的最大值和最小值,所述分集信息包括所述第一目标指标分布的分箱点信息;
所述对所述第一指标分布进行异常值处理并记录所述异常信息,得到第一目标指标分布的步骤,包括:
对所述第一指标分布进行截断处理得到所述第一目标指标分布,并记录所述第一目标指标分布的最大值和最小值;
所述对所述第一目标指标分布进行分集处理并记录所述分集信息,得到所述多个第一集合的步骤,包括:
按照预设分箱数对所述第一目标指标分布进行分箱处理,得到所述第一集合,并记录所述第一目标指标分布的分箱点信息,所述预设分箱数为所述第一特征构建单元的超参数。
4.如权利要求2所述的方法,其特征在于,当所述第一指标分布为类别变量时,所述异常信息包括所述第一目标指标分布的替换前类别和替换后类别,所述分集信息包括所述第一目标指标分布的类别合并信息;
所述对所述第一指标分布进行异常值处理并记录所述异常信息,得到第一目标指标分布的步骤,包括:
对所述第一指标分布进行类别替换处理得到所述第一目标指标分布,并记录所述第一目标指标分布的替换前类别和替换后类别;
所述对所述第一目标指标分布进行分集处理并记录所述分集信息,得到所述多个第一集合的步骤,包括:
对所述第一目标指标分布进行类别合并处理,得到所述多个第一集合,并记录所述第一目标指标分布的类别合并信息。
5.如权利要求2所述的方法,其特征在于,应用于交通拥堵情况预测,所述预设指标包括上游平均速度、上游流量、下游平均速度及下游流量;
所述按照所述预设指标分别对所述特征构建集中的每个所述样本进行指标构建,得到第一指标分布的步骤,包括:
获取所述特征构建集中的任意一个目标样本;
依据所述上游平均速度、所述上游流量、所述下游平均速度及所述下游流量,利用预设公式:
生成目标样本对应的第一中间指标,其中,i表示路段标识,Vi1表示路段i的上游平均速度,Vi0表示路段i的下游平均速度,Qi1表示路段i的上游流量,Qi0表示路段i的下游流量,α表示所述第一特征构建单元的超参数,且α∈(0,1];
重复执行上述步骤,直至生成所述特征构建集中的每个所述样本对应的第一中间指标,得到所述第一指标分布。
6.如权利要求5所述的方法,其特征在于,所述多个预设类别包括城市快速路、支路和社区道路。
7.如权利要求1所述的方法,其特征在于,所述利用第二特征构建单元计算每个所述第一集合的特征值的步骤,包括:
在每个所述预设类别下,分别计算每个所述第一集合的后验几率;
计算每个所述第一集合的先验几率;
在每个所述预设类别下,分别计算每个所述第一集合的后验几率接受率;
在每个所述预设类别下,依据所述后验几率、所述先验几率及所述后验几率接受率,计算每个所述第一集合的特征值。
8.如权利要求7所述的方法,其特征在于,所述在每个所述预设类别下,分别计算每个所述第一集合的后验几率的步骤,包括:
在每个所述预设类别下,分别获取每个所述第一集合的正样本量及负样本量;
在每个所述预设类别下,分别利用第一公式计算每个所述第一集合的正样本占比,其中,i表示所述预设类别的标记,j表示所述第一集合的标记,k表示第一集合的总数目,表示第i个预设类别下第j个第一集合的正样本量,表示第i个预设类别下所有k个第一集合的正样本总量,表示第i个预设类别下第j个第一集合的正样本占比;
在每个所述预设类别下,分别利用第二公式计算每个所述第一集合的负样本占比,其中,表示第i个预设类别下第j个第一集合的负样本量,表示第i个预设类别下所有k个第一集合的负样本总量,表示第i个预设类别下第j个第一集合的负样本占比;
在每个所述预设类别下,分别利用后验几率公式计算每个所述第一集合的后验几率,其中,post_oddsij表示第i个预设类别下第j个第一集合的后验几率。
9.如权利要求8所述的方法,其特征在于,所述在每个所述预设类别下,分别计算每个所述第一集合的后验几率的步骤,还包括:
当任意一个所述第一集合的负样本占比为0时,在每个所述预设类别下,分别利用第三公式重新计算每个所述第一集合的负样本占比。
10.如权利要求8或9所述的方法,其特征在于,所述...
【专利技术属性】
技术研发人员:不公告发明人,
申请(专利权)人:重庆紫光华山智安科技有限公司,
类型:发明
国别省市:重庆;50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。