【技术实现步骤摘要】
一种特征构造方法、装置、机器可读介质及设备
本专利技术涉及机器学习
,具体涉及一种特征构造方法、装置、机器可读介质及设备。
技术介绍
大数据表格型数据是机器学习数据挖掘任务的主要输入形式,例如互联网公司、银行、政府数据库、数据仓库中的个人基本信息、人口统计学信息、行为日志、交易流水等等。数据挖掘模型通常是以这些信息为输入,完成分类、回归或排序任务,最终实现推荐、营销、风控等业务目的。大数据表格型数据除了数据规模庞大以外,往往还具有内容丰富、形式复杂的特点。由于应用广泛、各个数据源背后的实际业务不同,不同数据源的大数据表格型数据内容和含义迥异:在人口统计学信息的数据表中,一行记录代表了一个用户的信息;而在行为日志信息类的数据表中,一行记录则可以是代表一次点击/购买行为,也可能代表用户在一天/一个月中点击/购买行为的行为汇总。即使在同一个数据源的同一张数据表中,也往往包含了数值数据、离散类别数据、时间戳数据等多种数据类型的数据。机器学习数据挖掘模型往往是通常是服务于某种特定粒度下的分类、回归或排序任务。例如 ...
【技术保护点】
1.一种特征构造方法,其特征在于,包括:/n获取待处理对象的原始特征;/n对所述原始特征进行特征处理,得到特征处理结果;其中,所述特征处理包括特征扩展或/和编码转换,所述特征处理结果包括扩展特征或/和编码特征;/n基于所述原始特征、所述特征处理结果得到目标特征集。/n
【技术特征摘要】
1.一种特征构造方法,其特征在于,包括:
获取待处理对象的原始特征;
对所述原始特征进行特征处理,得到特征处理结果;其中,所述特征处理包括特征扩展或/和编码转换,所述特征处理结果包括扩展特征或/和编码特征;
基于所述原始特征、所述特征处理结果得到目标特征集。
2.根据权利要求1所述的特征构造方法,其特征在于,对所述原始特征进行特征处理,得到特征处理结果,包括:
识别所述原始特征的特征类型,所述特征类型包括数值型和离散型;
对离散型的原始特征进行编码转换,得到编码特征;
利用所述原始特征、所述编码特征进行特征扩展,得到一个或多个扩展特征。
3.根据权利要求2所述的特征构造方法,其特征在于,根据业务含义对所述原始特征、所述编码特进行特征扩展。
4.根据权利要求2所述的特征构造方法,其特征在于,所述编码转换包括以下至少之一:整数编码、Onehot编码、二进制编码。
5.根据权利要求1所述的特征构造方法,其特征在于,该还包括:
基于所述原始特征、所述特征处理结果构造特征数据全集;
根据条件谓词对所述特征数据全集进行筛选,得到一个或多个特征数据子集;
利用聚合函数对所述一个或多个特征数据子集进行聚合统计,得到一个或多个候选特征集;
对所述一个或多个候选特征集进行关联运算,得到目标特征集。
6.根据权利要求5所述的特征构造方法,其特征在于,所述聚合统计包括以下至少之一:平均值、方差、最大值、最小值、总和、不同值总数、最多取值占比、熵、HHI。
7.一种特征构造装置,其特征在于,包括:
特征获取模块,用于获取待处理对象的原始特征;
特征处理模块,用于对所述原始特征进行特征处理,得到特征处理结果;其中,所...
【专利技术属性】
技术研发人员:周曦,姚志强,陈琳,卢智聪,赵礼悦,翁谦,张博宣,张旭,蒋博劼,曹文飞,
申请(专利权)人:北京云从科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。