一种特征构造方法、装置、机器可读介质及设备制造方法及图纸

技术编号:26479502 阅读:21 留言:0更新日期:2020-11-25 19:24
本发明专利技术提出一种特征构造方法,包括:获取待处理对象的原始特征;对所述原始特征进行特征处理,得到特征处理结果;其中,所述特征处理包括特征扩展或/和编码转换,所述特征处理结果包括扩展特征或/和编码特征;基于所述原始特征、所述特征处理结果得到目标特征集。本发明专利技术通过对原始特征进行特征扩展/编码转换,得到编码特征或扩展特征‑即元信息,通过充分利用这些元信息后,可以忽略具体的数据含义,可实现自动化的特征加工前提下,不牺牲特征加工表达能力,且在更高的抽象层次上定义复杂特征,达到更好的效果。

【技术实现步骤摘要】
一种特征构造方法、装置、机器可读介质及设备
本专利技术涉及机器学习
,具体涉及一种特征构造方法、装置、机器可读介质及设备。
技术介绍
大数据表格型数据是机器学习数据挖掘任务的主要输入形式,例如互联网公司、银行、政府数据库、数据仓库中的个人基本信息、人口统计学信息、行为日志、交易流水等等。数据挖掘模型通常是以这些信息为输入,完成分类、回归或排序任务,最终实现推荐、营销、风控等业务目的。大数据表格型数据除了数据规模庞大以外,往往还具有内容丰富、形式复杂的特点。由于应用广泛、各个数据源背后的实际业务不同,不同数据源的大数据表格型数据内容和含义迥异:在人口统计学信息的数据表中,一行记录代表了一个用户的信息;而在行为日志信息类的数据表中,一行记录则可以是代表一次点击/购买行为,也可能代表用户在一天/一个月中点击/购买行为的行为汇总。即使在同一个数据源的同一张数据表中,也往往包含了数值数据、离散类别数据、时间戳数据等多种数据类型的数据。机器学习数据挖掘模型往往是通常是服务于某种特定粒度下的分类、回归或排序任务。例如,对于信贷风控模型,本文档来自技高网...

【技术保护点】
1.一种特征构造方法,其特征在于,包括:/n获取待处理对象的原始特征;/n对所述原始特征进行特征处理,得到特征处理结果;其中,所述特征处理包括特征扩展或/和编码转换,所述特征处理结果包括扩展特征或/和编码特征;/n基于所述原始特征、所述特征处理结果得到目标特征集。/n

【技术特征摘要】
1.一种特征构造方法,其特征在于,包括:
获取待处理对象的原始特征;
对所述原始特征进行特征处理,得到特征处理结果;其中,所述特征处理包括特征扩展或/和编码转换,所述特征处理结果包括扩展特征或/和编码特征;
基于所述原始特征、所述特征处理结果得到目标特征集。


2.根据权利要求1所述的特征构造方法,其特征在于,对所述原始特征进行特征处理,得到特征处理结果,包括:
识别所述原始特征的特征类型,所述特征类型包括数值型和离散型;
对离散型的原始特征进行编码转换,得到编码特征;
利用所述原始特征、所述编码特征进行特征扩展,得到一个或多个扩展特征。


3.根据权利要求2所述的特征构造方法,其特征在于,根据业务含义对所述原始特征、所述编码特进行特征扩展。


4.根据权利要求2所述的特征构造方法,其特征在于,所述编码转换包括以下至少之一:整数编码、Onehot编码、二进制编码。


5.根据权利要求1所述的特征构造方法,其特征在于,该还包括:
基于所述原始特征、所述特征处理结果构造特征数据全集;
根据条件谓词对所述特征数据全集进行筛选,得到一个或多个特征数据子集;
利用聚合函数对所述一个或多个特征数据子集进行聚合统计,得到一个或多个候选特征集;
对所述一个或多个候选特征集进行关联运算,得到目标特征集。


6.根据权利要求5所述的特征构造方法,其特征在于,所述聚合统计包括以下至少之一:平均值、方差、最大值、最小值、总和、不同值总数、最多取值占比、熵、HHI。


7.一种特征构造装置,其特征在于,包括:
特征获取模块,用于获取待处理对象的原始特征;
特征处理模块,用于对所述原始特征进行特征处理,得到特征处理结果;其中,所...

【专利技术属性】
技术研发人员:周曦姚志强陈琳卢智聪赵礼悦翁谦张博宣张旭蒋博劼曹文飞
申请(专利权)人:北京云从科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1