【技术实现步骤摘要】
特征生成方法及装置、电子设备、存储介质
[0001]本申请涉及计算机
,特别涉及一种特征生成方法及装置、电子设备、计算机可读存储介质。
技术介绍
[0002]企业业务发展积累了大量、多维度的结构化数据。在为企业业务引入机器学习模型时,需要为业务从海量的数据中提取出有效的特征,使得以特征训练出的机器学习模型可以准确的满足业务需求。
[0003]在相关技术中,可以基于关系路径的方法从数据中提取特征。该方法可以从数据集中获取多个实体(entity),依据多个实体生成有向关系集合,并根据有向关系集合和目标实体,生成目标实体的关系路径集合。基于目标实体的关系路径集合,生成目标实体的特征集合。
[0004]然而,基于关系路径的方法由于计算的复杂度和冗余度,通常只能局限于小量的数据集合、小量的字段数量,应用小量的算子,产生低阶的衍生特征,无法推广到大规模数据集合复杂的应用场景中。
技术实现思路
[0005]本申请实施例的目的在于提供一种特征生成方法及装置、电子设备、计算机可读存储介质,用于在基于关系路 ...
【技术保护点】
【技术特征摘要】
1.一种特征生成方法,其特征在于,包括:从多个数据表中确定多个实体和实体之间的关联关系;其中,所述关联关系包含两个实体,两个实体分别作为父实体和子实体;以所有实体分别作为主体实体,通过指定算子并行执行特征衍生,获得每一实体对应的数据特征;其中,特征衍生为依据主体实体的本表特征、主体实体的父实体的父表特征、主体实体的子实体的子表特征,确定主体实体的数据特征的过程;针对每一关联关系中两个实体的数据特征,处理得到所述关联关系中父实体和子实体的高阶特征;对所有实体的高阶特征进行评估,并依据评估结果确定是否返回特征衍生的步骤;如果无需返回特征衍生的步骤,将所有实体的高阶特征作为目标特征。2.根据权利要求1所述的方法,其特征在于,在所述通过指定算子并行执行特征衍生之前,所述方法还包括:根据预设数据筛选策略对所述多个数据表进行筛选,过滤异常数据。3.根据权利要求1所述的方法,其特征在于,在所述通过指定算子并行执行特征衍生之前,所述方法还包括:依据预设算子筛选策略对特征工程算子库进行筛选,得到若干指定算子。4.根据权利要求1所述的方法,其特征在于,所述对所有实体的高阶特征进行评估,并依据评估结果确定是否返回特征衍生的步骤,包括:从所有实体的高阶特征筛选出指定高阶特征;依据所述指定高阶特征对机器学习模型进行训练,获得已训练的业务模型;获取所述业务模型的模型评估指标,作为所述高阶特征的评估结果;比对所述评估结果与前一轮次的评估结果,并依据比对结果确定是否返回特征衍生的步骤。5.根据权利要求4所述的方法,其特征在于,所述从所有实体的高阶特征筛选出指定高阶特征,包括:根据目标业务对应的特征选择策略,从所有实体的高阶特征中确定指定高阶特征;其中,所述目标业务为所述业务模型对应的业务。6.根据权利要求4...
【专利技术属性】
技术研发人员:张发恩,马凡贺,
申请(专利权)人:创新奇智重庆科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。