【技术实现步骤摘要】
用于抽取特征的数据处理方法和系统
[0001]本申请是申请日为2019年9月17日、申请号为201910877370.6、题为“用于抽取特征的数据处理方法和系统”的专利申请的分案申请。
[0002]本专利技术总体说来涉及数据处理领域,更具体地说,涉及一种用于抽取特征的数据处理方法、系统及存储介质。
技术介绍
[0003]在数据处理领域,通常需要对数据进行特征抽取,以从数据中抽取出能够表征特定含义的特征。例如,对于由多个字段构成的数据记录,通常需要对特定字段或特定字段组合执行特定的计算操作,以得到符合需求的特征。
[0004]然而现有方案仅支持以一一对应的方式生成特征计算结果,即对于每一个待计算的特征,均需提供一组特征计算要素定义。在需要计算多个特征时,无法复用重复的特征计算要素定义,而是需要提供多组特征计算要素定义。
[0005]例如,假设要计算特征集合“过去一年用户月收入的最小值、最大值、平均值、中位数、标准差”、“过去一年商户月收入的最小值、最大值、平均值、中位数、标准差”,针对每个特征,需要重复 ...
【技术保护点】
【技术特征摘要】
1.一种用于抽取特征的数据处理系统,包括:基础层,包括一个或多个数据处理函数;计算层,包括一个或多个特征计算模块,所述特征计算模块获取数据和特征计算要素定义信息,所述特征计算要素定义信息包括至少一个类别的特征计算要素,每个类别的特征计算要素用于指示特征抽取处理的一种要素,所述特征计算模块从每个类别的特征计算要素中选取一个特征计算要素,以得到由取自不同类别的特征计算要素构成的特征抽取处理策略,所述特征计算模块基于所述特征抽取处理策略,从所述数据中提取出被执行特征抽取处理的数据对象,并确定对所述数据对象执行特征抽取处理的数据处理函数。2.根据权利要求1所述的数据处理系统,其中,所述特征计算模块以笛卡尔积的方式从每个类别的特征计算要素中选取一个特征计算要素,以得到一个或多个所述特征抽取处理策略。3.根据权利要求1所述的数据处理系统,其中,所述特征计算要素定义信息包括多个特征计算要素集合,每个所述特征计算要素集合包括至少一组特征计算要素,不同组中的特征计算要素对应不同的类别,针对每个所述特征计算要素集合,所述特征计算模块以笛卡尔积的方式从每组特征计算要素中选取一个特征计算要素,以得到多个所述特征抽取处理策略。4.根据权利要求1所述的数据处理系统,其中,所述特征计算模块还接收用户提供的数据处理函数,并将该数据处理函数添加到所述基础层。5.根据权利要求1所述的数据处理系统,其中,所述计算层分为实现层和应用层,所述实现层包括一个或多个第一类型特征计算模块,所述第一类型特征计算模块用于抽取与通用业务场景相对应的特征,所述第一类型特征计算模块仅基于从外部获取的特征计算要素定义信息,得到所述特征抽取处理策略,所述应用层包括一个或多个第二类型特征计算模块,所述第二类型特征计算模块用于抽取与特定业务场景相对应的特征,所述第二类型特征计算模块定义了构成所述特征抽取处理策略的至少部分特征计算要素,所述至少部分特征计算要素用于指示与所述特定业...
【专利技术属性】
技术研发人员:姚均霖,王萌,朱晓丹,
申请(专利权)人:第四范式北京技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。