一种可配置的特征计算方法及系统技术方案

技术编号:18444484 阅读:19 留言:0更新日期:2018-07-14 10:12
本发明专利技术涉及一种可配置的特征计算方法,本方法包括:编写特征计算的配置;通过调度器调度特征计算程序;所述特征计算程序根据所述特征计算的配置,完成特征计算和特征维度的转换。本发明专利技术涉及一种可配置的特征计算系统。有效的解决了现有技术中人工编写特征计算代码的有限性,以及实现成本高、难以维护和扩展的问题。

A configurable computing method and system for feature

The present invention relates to a configurable method of feature computing. The method includes: writing the configuration of feature computing; scheduling the feature computing program by the scheduler; the feature computing program completes the feature calculation and the transformation of the feature dimensions according to the configuration calculated by the features described. The invention relates to a configurable feature computing system. It effectively solves the limitation of manual coding of feature computing codes in the existing technology, and realizes the problems of high cost, difficult maintenance and expansion.

【技术实现步骤摘要】
一种可配置的特征计算方法及系统
本专利技术涉及计算机网络
,尤其涉及一种可配置的特征计算方法及系统。
技术介绍
近年来随着互联网的普及,越来越多的人加入到互联网行列,人们在网络上的各种操作行为都会留下数以亿计的网络留痕,称之为网络日志。从如此庞大的日志数据中分析用户行为,进而挖掘出有效信息并用于商业行为,可以极大提升用户体验。信息挖掘中的一个步骤就是特征计算。一般的方法是在一段时间的日志数据中,在一组维度联合上,做数值聚合,从而反映出这组维度上的信息特点。一般的特征计算过程的代码,均为人工编写,所以可处理的维度数量极为有限,甚至为了维护有限的维度,还需要人工把其他维度转换成特定维度,方便开发人员维护和管理。这样的设计不仅实现成本很高,对特征设计有很强的限制,而且很难以维护和扩展,尤其难以满足越来越多的特征计算的需求。
技术实现思路
有鉴于此,本专利技术提供一种可配置的特征计算方法及系统,能够根据编写的特征计算的配置,以及根据调度器调度特征计算程序,在很短的时间内实现了很多个维度的特征计算。进而解决人工编写特征计算代码处理的维度数量有限,以及实现成本高,对特征设计有很强的限制,而且难以维护和扩展的问题。为实现上述目的,根据本专利技术的一个方面,提供了一种可配置的特征计算方法。本专利技术的方法包括:编写特征计算的配置;通过调度器调度特征计算程序;所述特征计算程序根据所述特征计算的配置,完成特征计算和特征维度的转换。可选地,本专利技术的方法还包括:预定义特征计算的集合,进而基于所述集合编写特征计算的配置;并且预定义特征计算的调度配置和预定义特征维度转换的调度配置。可选地,特征计算程序根据所述特征计算的配置,完成特征计算和特征维度的转换包括:读取所述特征计算的配置;根据所述特征计算的配置,以及预定义的特征计算的集合、预定义的特征计算的调度配置和预定义的特征维度转换的调度配置,自动生成特征计算代码、特征计算的调度配置、特征维度转换代码和特征维度转换的调度配置;读取所述特征计算代码和特征计算的调度配置,对基础日志进行处理,获得各个维度的特征数据;读取所述特征维度转换代码和特征维度转换的调度配置,对所述各个维度的特征数据进行维度转换处理,获得统一维度的特征数据。可选地,所述调度器为oozie调度器。根据本专利技术的另一方面,提供了一种可配置的特征计算系统。本专利技术的系统包括:配置编写模块、调度器和特征计算模块;所述配置编写模块用于编写特征计算的配置;所述调度器用于调度所述特征计算模块;所述特征计算模块用于根据所述特征计算的配置,完成特征计算和特征维度的转换。可选地,本专利技术的系统还包括:预定义模块,用于预定义特征计算的集合,进而配置编写模块基于所述集合编写特征计算的配置;以及预定义特征计算的调度配置和预定义特征维度转换的调度配置。可选地,所述特征计算模块包括:配置读取单元,用于读取所述特征计算的配置;生成单元,用于根据所述特征计算的配置,以及根据预定义的特征计算的集合、预定义的特征计算的调度配置和预定义的特征维度转换的调度配置,自动生成特征计算代码、特征计算的调度配置、特征维度转换代码和特征维度转换的调度配置;处理单元,用于读取所述特征计算代码和特征计算的调度配置,对基础日志进行处理,获得各个维度的特征数据;以及读取所述特征维度转换代码和特征维度转换的调度配置,对所述各个维度的特征数据进行维度转换处理,获得统一维度的特征数据。可选地,所述调度器为oozie调度器。根据本专利技术的另一方面,还提供了一种可配置的特征计算系统。本专利技术的系统包括存储器和处理器,其中,所述存储器用于存储指令;所述处理器被配置为根据所述指令执行上述任一项所述的方法。根据本专利技术的技术方案,通过编写出满足用户需求的特征计算配置,并通过调度器调度特征计算程序,就可以依据用户编写的特征计算配置文件,计算出用户期望的特征值和特征维度的转换。因而本专利技术的技术方案,仅仅只需要编写以维度为单位的配置,就可以完成整个特征计算。配置文件相对于代码而言,是非常轻量级的,简洁的文本工作量,能够极大的提升开发人员可以实现的特征计算数量,同时极大的降低开发人员的管理维护成本。并且,本专利技术的技术方案是基于配置文件的,所以这些配置文件的移除和加入互不影响,从而方便开发人员能够快速的增加新的特征计算,或者去除已有的特征计算,能够极大地提升上线的效率。有效的解决了现有技术中人工编写特征计算代码的有限性,以及实现成本高、难以维护和扩展的问题。上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。附图说明附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:图1是根据本专利技术实施例的一种可配置的特征计算方法主要步骤的示意图;图2是根据本专利技术实施例的一种可配置的特征计算方法的流程图;图3是根据本专利技术实施例的一种可配置的特征计算系统的主要模块的示意图;图4是根据本专利技术实施例的一种可配置的特征计算系统的示意图。具体实施方式以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图1是根据本专利技术实施例的一种可配置的特征计算方法主要步骤的示意图。如图1所示,本专利技术实施例的一种可配置的特征计算方法的主要步骤包括:S11:编写特征计算的配置。在此之前,预定义特性计算的集合,则基于该集合编写特征计算的配置。该预定义的集合主要包括过滤、分组、聚合等,基于这个定义,可以满足绝大部分的特征计算的需求。在编写特征计算的配置中,不需要了解特征计算的调度配置,特征计算的调度配置是依据特征计算配置以及预定义的特征计算配置自动生成的。S12:通过调度器调度特征计算程序,特征计算程序依赖于调度器才能运行。启动调度器调度特征计算程序,特征计算程序才会读取特征计算的配置。并且,调度器可为任意调度器,例如为oozie调度器,oozie支持基于XML(可扩展标记语言)配置的任务调度,非常适合做自动化配置。S13:特征计算程序根据特征计算的配置,完成特征计算和特征维度的转换。为了能够自动的生成调度配置,预定义两种调度配置:预定义特征计算的调度配置和预定义特征维度转换的调度配置。特征计算程序根据特征计算的配置,完成特征计算和特征维度的转换包括:读取特征计算的配置;根据特征计算的配置,以及预定义的特征计算的集合、预定义的特征计算的调度配置和预定义的特征维度转换的调度配置,自动生成特征计算代码、特征计算的调度配置、特征维度转换代码和特征维度转换的调度配置;读取特征计算代码和特征计算的调度配置,对基础日志进行处理,获得各个维度的特征数据;读取特征维度转换代码和特征维度转换的调度配置,对各个维度的特征数据进行维度转换处理,获得统一维度的特征数据。图2是根据本专利技术实施例的一种可配置的特征计算方法的流程图。如图2所示,本专利技术实施例的一种可配置的特征计算方法包括:S21:编写特征计算的配置,该过程是基于预定义的特征计算的集合进行的。由于预定义的特征计算的集合内定义了计算符号以及计算法则,例如相乘、相除等的本文档来自技高网...

【技术保护点】
1.一种可配置的特征计算方法,其特征在于,包括:编写特征计算的配置;通过调度器调度特征计算程序;所述特征计算程序根据所述特征计算的配置,完成特征计算和特征维度的转换。

【技术特征摘要】
1.一种可配置的特征计算方法,其特征在于,包括:编写特征计算的配置;通过调度器调度特征计算程序;所述特征计算程序根据所述特征计算的配置,完成特征计算和特征维度的转换。2.根据权利要求1所述的方法,其特征在于,还包括:预定义特征计算的集合,进而基于所述集合编写特征计算的配置;并且预定义特征计算的调度配置和预定义特征维度转换的调度配置。3.根据权利要求2所述的方法,其特征在于,所述特征计算程序根据所述特征计算的配置,完成特征计算和特征维度的转换包括:读取所述特征计算的配置;根据所述特征计算的配置,以及预定义的特征计算的集合、预定义的特征计算的调度配置和预定义的特征维度转换的调度配置,自动生成特征计算代码、特征计算的调度配置、特征维度转换代码和特征维度转换的调度配置;读取所述特征计算代码和特征计算的调度配置,对基础日志进行处理,获得各个维度的特征数据;读取所述特征维度转换代码和特征维度转换的调度配置,对所述各个维度的特征数据进行维度转换处理,获得统一维度的特征数据。4.根据权利要求1所述的方法,其特征在于,所述调度器为oozie调度器。5.一种可配置的特征计算系统,其特征在于,包括:配置编写模块、调度器和特征计算模块;所述配置编写模块用于编写特征计算的配置;所述...

【专利技术属性】
技术研发人员:朱健寿如阳
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1