特征工程变量数据请求处理方法、装置及电子设备制造方法及图纸

技术编号:23343310 阅读:33 留言:0更新日期:2020-02-15 03:52
本公开涉及一种特征工程变量数据请求处理方法、装置、电子设备及计算机可读介质。该方法包括:接收特征工程变量数据请求,所述特征工程变量数据请求中包括特征规则;基于所述特征规则由工程配置数据库获取特征工程参数;根据所述特征工程参数获取目标特征工程变量数据;以及通过所述目标特征工程变量数据响应所述特征工程变量数据请求。本公开涉及的特征工程变量数据请求处理方法、装置、电子设备及计算机可读介质,能够快速获取计算所需的特征工程变量数据,节约数据服务器的计算量,提高机器学习模型的处理效率。

Data request processing method, device and electronic equipment of feature engineering variable

【技术实现步骤摘要】
特征工程变量数据请求处理方法、装置及电子设备
本公开涉及计算机信息处理领域,具体而言,涉及一种特征工程变量数据请求处理方法、装置、电子设备及计算机可读介质。
技术介绍
特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。简而言之,特征工程就是一个把原始数据转变成特征的过程,这些特征可以很好的描述这些数据,并且利用它们建立的模型在未知数据上的表现性能可以达到最优(或者接近最佳性能)。从数学的角度来看,特征工程就是人工地去设计输入变量X。特征通常是建立在原始数据之上的特定表示,它是一个单独的可测量属性,通常用数据集中的列表示。对于一个通用的二维数据集,每个观测值由一行表示,每个特征由一列表示,对于每一个观测具有一个特定的值。特征工程数据提取的过程一般先是获取原始数据;然后利用数据处理技术,从这些数据中获取、处理和提取有意义的特征和属性。特征工程变量数据在提取之后,会输入到机器学期模型中,机器学习模型基于这些数据进行运算,在机器学习模型运算的整个过程中通常会把70%的时间花在特征工程变量数据的准备上。特征工程变量数据的处理时间极大的拖延了整个机器学习模型的计算时间,如果减少特征工程变量数据的处理时间,加快机器学习模型的工作效率,是现在亟待解决的问题。在所述
技术介绍
部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
有鉴于此,本公开提供一种特征工程变量数据请求处理方法、装置、电子设备及计算机可读介质,能够快速获取计算所需的特征工程变量数据,节约数据服务器的计算量,提高机器学习模型的处理效率。本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。根据本公开的一方面,提出一种特征工程变量数据请求处理方法,该方法包括:接收特征工程变量数据请求,所述特征工程变量数据请求中包括特征规则;基于所述特征规则由工程配置数据库获取特征工程参数;根据所述特征工程参数获取目标特征工程变量数据;以及通过所述目标特征工程变量数据响应所述特征工程变量数据请求。可选地,还包括:通过多个特征规则和与其对应的多个特征工程参数生成所述工程配置数据库。可选地,根据所述特征工程参数获取目标特征工程变量数据包括:根据所述特征工程参数对源数据进行处理以获取所述目标特征工程变量数据;和/或根据所述特征工程参数由缓存数据库获取所述目标特征工程变量数据。可选地,所述特征工程参数包括:数据源选择参数和数据加工参数;根据所述特征工程参数对源数据进行处理生成目标特征工程变量数据包括:根据所述数据源选择参数由多个数据源中确定至少一个目标数据源;以及根据所述数据加工参数对所述至少一个目标数据源中的初始特征工程变量数据进行数据加工以生成所述目标特征工程变量参数。可选地,所述数据加工参数中包括:数据清洗参数和格式化参数;根据所述数据加工参数对所述至少一个目标数据源中的初始特征工程变量数据进行数据加工以生成所述目标特征工程变量参数包括:根据所述数据清洗参数对所述至少一个目标数据源中的所述初始特征工程变量数据进行数据清洗生成清洗数据;以及根据所述格式化参数对所述清洗数据进行格式化处理以生成所述目标特征工程变量参数。可选地,还包括:将所述清洗数据与所述目标特征工程变量参数存储在缓存数据库中。可选地,根据所述特征工程参数由缓存数据库获取所述目标特征工程变量数据包括:根据所述数据源选择参数和所述数据清洗参数由所述缓存数据库中提取清洗数据;以及根据所述格式化参数对所述清洗数据进行格式化处理以生成所述目标特征工程变量参数。可选地,根据所述特征工程参数由缓存数据库获取所述目标特征工程变量数据包括:根据所述数据源选择参数、所述数据清洗参数和格式化参数由所述缓存数据库中提取所述目标特征工程变量参数。可选地,接收特征工程变量数据请求包括:接收由规则引擎发送的特征工程变量数据请求。可选地,通过所述目标特征工程变量数据响应所述特征工程变量数据请求包括:将所述目标特征工程变量数据推送至所述规则引擎;以及所述规则引擎基于所述特征工程变量数据进行机器学习模型计算。根据本公开的一方面,提出一种特征工程变量数据请求处理装置,该装置包括:接收模块,用于接收特征工程变量数据请求,所述特征工程变量数据请求中包括特征规则;参数模块,用于基于所述特征规则由工程配置数据库获取特征工程参数;数据模块,用于根据所述特征工程参数获取目标特征工程变量数据;以及响应模块,用于通过所述目标特征工程变量数据响应所述特征工程变量数据请求。可选地,还包括:数据库模块,用于通过多个特征规则和与其对应的多个特征工程参数生成所述工程配置数据库。可选地,所述数据模块包括:处理单元,用于根据所述特征工程参数对源数据进行处理以获取所述目标特征工程变量数据;和/或搜索单元,用于根据所述特征工程参数由缓存数据库获取所述目标特征工程变量数据。可选地,所述特征工程参数包括:数据源选择参数和数据加工参数;所述处理单元包括:数据源子单元,用于根据所述数据源选择参数由多个数据源中确定至少一个目标数据源;以及数据加工子单元,用于根据所述数据加工参数对所述至少一个目标数据源中的初始特征工程变量数据进行数据加工以生成所述目标特征工程变量参数。可选地,所述数据加工参数中包括:数据清洗参数和格式化参数;数据加工子单元,还用于根据所述数据清洗参数对所述至少一个目标数据源中的所述初始特征工程变量数据进行数据清洗生成清洗数据;以及根据所述格式化参数对所述清洗数据进行格式化处理以生成所述目标特征工程变量参数。可选地,还包括:存储单元,用于将所述清洗数据与所述目标特征工程变量参数存储在缓存数据库中。可选地,所述搜索单元包括:清洗子单元,用于根据所述数据源选择参数和所述数据清洗参数由所述缓存数据库中提取清洗数据;以及格式化子单元,用于根据所述格式化参数对所述清洗数据进行格式化处理以生成所述目标特征工程变量参数。可选地,所述搜索单元包括:提取子单元,用于根据所述数据源选择参数、所述数据清洗参数和格式化参数由所述缓存数据库中提取所述目标特征工程变量参数。可选地,所述接收模块,还用于接收由规则引擎发送的特征工程变量数据请求。可选地,所述响应模块包括:推送单元,用于将所述目标特征工程变量数据推送至所述规则引擎;以及计算单元,用于所述规则引擎基于所述特征工程变量数据进行机器学习模型计算。根据本公开的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。根据本公开的一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中的方法。根据本公开的特征工程变量数据请求处理方法、装置、电子设备及计算机可读介质,基于所述特征规则由工程配置数据库获取特征本文档来自技高网...

【技术保护点】
1.一种特征工程变量数据请求处理方法,其特征在于,包括:/n接收特征工程变量数据请求,所述特征工程变量数据请求中包括特征规则;/n基于所述特征规则由工程配置数据库获取特征工程参数;/n根据所述特征工程参数获取目标特征工程变量数据;以及/n通过所述目标特征工程变量数据响应所述特征工程变量数据请求。/n

【技术特征摘要】
1.一种特征工程变量数据请求处理方法,其特征在于,包括:
接收特征工程变量数据请求,所述特征工程变量数据请求中包括特征规则;
基于所述特征规则由工程配置数据库获取特征工程参数;
根据所述特征工程参数获取目标特征工程变量数据;以及
通过所述目标特征工程变量数据响应所述特征工程变量数据请求。


2.如权利要求1所述的方法,其特征在于,还包括:
通过多个特征规则和与其对应的多个特征工程参数生成所述工程配置数据库。


3.如权利要求1-2中任一所述的方法,其特征在于,根据所述特征工程参数获取目标特征工程变量数据包括:
根据所述特征工程参数对源数据进行处理以获取所述目标特征工程变量数据;和/或
根据所述特征工程参数由缓存数据库获取所述目标特征工程变量数据。


4.如权利要求1-3中任一所述的方法,其特征在于,所述特征工程参数包括:数据源选择参数和数据加工参数;
根据所述特征工程参数对源数据进行处理生成目标特征工程变量数据包括:
根据所述数据源选择参数由多个数据源中确定至少一个目标数据源;以及
根据所述数据加工参数对所述至少一个目标数据源中的初始特征工程变量数据进行数据加工以生成所述目标特征工程变量参数。


5.如权利要求1-4中任一所述的方法,其特征在于,所述数据加工参数中包括:数据清洗参数和格式化参数;
根据所述数据加工参数对所述至少一个目标数据源中的初始特征工程变量数据进行数据加工以生成所述目标特征工程变量参数包括:
根据所述数据清洗参数对...

【专利技术属性】
技术研发人员:黄建庭宋荣鑫陈烁煌
申请(专利权)人:北京淇瑀信息科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1