确定数据处理过程老化状态的方法、装置及可读存储介质制造方法及图纸

技术编号:19593363 阅读:25 留言:0更新日期:2018-11-28 04:52
本申请提供一种确定数据处理过程老化状态的方法、装置及可读存储介质,其中方法包括:确定能够被数据仓库系统调度的数据处理过程;确定所述数据处理过程的老化特征向量;将所述老化特征向量输入至已训练的二项分类模型中,通过所述二项分类模型计算出与所述数据处理过程对应的预测值;基于所述预测值确定所述数据处理过程的老化状态。本申请基于二项分类模型计算得到的预测值能够全面、准确地预测出数据处理过程的老化状态,及时主动发现老化的数据处理过程;还可以实时发现老化的数据处理过程,大大提高了数据处理过程检测的时效性和检测效果。

【技术实现步骤摘要】
确定数据处理过程老化状态的方法、装置及可读存储介质
本申请涉及数据处理
,尤其涉及一种确定数据处理过程老化状态的方法、装置及可读存储介质。
技术介绍
在数据仓库系统中,数据抽取(Extract)、转换(Transform)、加载(Load)(简称为ETL)等数据处理过程随着系统复杂度的提升不断叠加。为了降低系统复杂度,现有技术的一种实现方式是通过在数据处理过程上线前注册该数据处理过程的生命周期,当数据处理过程到达其对应的生命周期时,则对该数据处理过程对应的数据进行存档和销毁。然而,由于基于生命周期的处理方式不能准确地确定数据处理过程的老化状态,若生命周期已到达但数据处理过程仍具有业务价值,数据处理过程由于被销毁导致失去其业务价值,同时会导致部分数据处理过程本身已不具备业务价值,但由于生命周期配置的限制,没有得到及时的销毁。
技术实现思路
有鉴于此,本申请提供一种数据处理过程的检测方法、装置及可读存储介质,通过主动检测数据处理过程的老化状态,确保不具备业务价值的数据处理过程能够得到及时销毁,并避免仍具有业务价值的数据处理过程被销毁。为实现上述目的,本申请提供技术方案如下:根据本申请的第一方面,提出了一种确定数据处理过程老化状态的方法,包括:确定能够被数据仓库系统调度的数据处理过程;确定所述数据处理过程的老化特征向量;将所述老化特征向量输入至已训练的二项分类模型中,通过所述二项分类模型计算出与所述数据处理过程对应的预测值;基于所述预测值确定所述数据处理过程的老化状态。根据本申请的第二方面,提出了一种确定数据处理过程的状态的,包括:第一确定模块,用于确定能够被数据仓库系统调度的数据处理过程;第二确定模块,用于确定所述第一确定模块确定的所述数据处理过程的老化特征向量;计算模块,用于将所述第二确定模块确定的所述老化特征向量输入至已训练的二项分类模型中,通过所述二项分类模型计算出与所述数据处理过程对应的预测值;第三确定模块,用于基于所述计算模块计算得到的所述预测值确定所述数据处理过程的老化状态。根据本申请的第三方面,提出了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述第一方面提出的确定数据处理过程老化状态的方法。由以上技术方案可见,本申请基于二项分类模型计算得到的预测值能够全面、准确地预测出数据处理过程的老化状态,及时主动发现老化的数据处理过程;还可以实时发现老化的数据处理过程,大大提高了数据处理过程检测的时效性和检测效果。附图说明图1是本申请一示例性实施例示出的一种确定数据处理过程老化状态的方法的流程图。图2是本申请另一示例性实施例示出的一种确定数据处理过程老化状态的方法的流程图。图3是本申请一示例性实施例示出的训练二项分类模型的流程图。图4是本申请一示例性实施例示出的一种确定数据处理过程老化状态的装置的结构图。图5是本申请另一示例性实施例示出的一种确定数据处理过程老化状态的装置的结构图。图6是本申请一示例性实施例示出的一种电子设备的结构图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。图1是本申请一示例性实施例示出的一种确定数据处理过程老化状态的方法的流程图;如图1所示,包括如下步骤:步骤101,确定能够被数据仓库系统调度的数据处理过程。在一实施例中,数据处理过程可以为数据仓库系统中的数据抽取、数据转换、数据装载、数据更新等过程。在一实施例中,可以通过数据表记录数据仓库中的各个数据处理过程的状态,通过数据表来确定能够被数据仓库系统调度的数据处理过程。其中,数据处理过程的状态可以包括在线状态和线下状态,在线状态表示数据处理过程在数据仓库中会被数据仓库中的调度系统调度执行,线下状态表示数据处理过程在数据仓库中不会被调度系统调度执行。例如,数据仓库中有100个数据处理过程,其中,80个数据处理过程处于在线状态,表示这80个数据处理过程可以被其他数据处理过程调用或者访问,20个数据处理过程处于线下状态,表示这20个数据处理过程已经不被其他数据处理过程调用或者访问,通过步骤101,可以从这100个数据处理过程中找到能够被数据仓库系统调用的80个数据处理过程。步骤102,确定数据处理过程的老化特征向量。在一实施例中,老化特征向量可以包含多个元素,每一个元素可以为表示数据处理过程特性的参数,例如,数据处理过程的下游依赖数、数据处理过程的逻辑最新更新时间、数据处理过程的查询热度,等等。其中,下游依赖数表示本数据处理过程执行后才能继续执行的下游数据处理过程的个数,例如,对于数据处理过程A1、A2、A3,必须需要数据处理过程A执行完毕后,才能够执行数据处理过程A1、A2、A3,因此数据处理过程A得下游依赖数为3;逻辑最新更新时长表示数据处理过程的逻辑上一次修改的时间点距离当前时间点的时间长度,可以以天或者小时等为单位来衡量,例如,数据处理过程于2018年4月1日24:00修改的,当前时间点为2018年4月3日12:00,则逻辑最新更新时长为36小时;查询热度表示本数据处理过程对应的数据模型在距离当前时间点的预设时长(例如,最近一天或者N天,N为自然数)被查询(或者,自助查询)的次数。步骤103,将老化特征向量输入至已训练的二项分类模型中,通过二项分类模型计算出与数据处理过程对应的预测值。在一实施例中,二项分类模型可以为决策树模型、朴素贝叶斯分类模型、二项逻辑斯蒂回归模型,等等,对于不同的二项分类模型,训练参数也不同,本申请对二项分类模型的具体参数不做限制。在一实施例中,预测值的大小可以由具体的二项分类模型的输出来确定,例如,对于二项逻辑斯蒂回归模型而言,预测值位于0到1之间。步骤104,基于预测值确定数据处理过程的老化状态。在一实施例中,预测值的大小可以表示数据处理过程的老化程度,例如,数据处理过程的老化特征向量输入到二项逻辑斯蒂回归模型中,得到该数据处理过程的预测值,该预测值位于0到1之间,若预测值越接近1,对应的老化状态表示严重老化,数据处理过程已不被数据仓库系统调用,预测值越接近0,对应的老化状态表示未老化,数据处理过程仍被数据仓库系统调用。本实施例中,由于预测值的计算是由数据处理过程的老化特征向量参与计算得到本文档来自技高网...

【技术保护点】
1.一种确定数据处理过程老化状态的方法,其特征在于,所述方法包括:确定能够被数据仓库系统调度的数据处理过程;确定所述数据处理过程的老化特征向量;将所述老化特征向量输入至已训练的二项分类模型中,通过所述二项分类模型计算出与所述数据处理过程对应的预测值;基于所述预测值确定所述数据处理过程的老化状态。

【技术特征摘要】
1.一种确定数据处理过程老化状态的方法,其特征在于,所述方法包括:确定能够被数据仓库系统调度的数据处理过程;确定所述数据处理过程的老化特征向量;将所述老化特征向量输入至已训练的二项分类模型中,通过所述二项分类模型计算出与所述数据处理过程对应的预测值;基于所述预测值确定所述数据处理过程的老化状态。2.根据权利要求1所述的方法,其特征在于,所述基于所述预测值确定所述数据处理过程的老化状态,包括:确定所述预测值与预设阈值的大小关系;基于所述大小关系确定所述数据处理过程的老化状态。3.根据权利要求1所述的方法,其特征在于,所述确定所述数据处理过程的老化特征向量的步骤,包括:确定所述数据处理过程在预设周期内的特征参数;基于所述特征参数确定所述数据处理过程的老化特征向量。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:确定距离预设时间点之前的预设时间段内能够被数据仓库系统调度的数据处理过程;确定所述能够被数据仓库系统调度的数据处理过程对应的老化特征向量以及相应的状态变化;基于所述能够被数据仓库系统调度的数据处理过程对应的老化特征向量和所述相应的状态变化,生成训练样本集;基于所述训练样本集,训练所述二项分类模型。5.根据权利要求1所述的方法,其特征在于,所述二项分类模型为二项逻辑斯蒂回归模型,在所述通过所述二项分类模型计算出与所述数据处理过程对应的预测值的步骤中,通过如下公式计算所述预测值:其中,hθ(X)表示所述预测值,X表示所述老化特征向量,θ表示所述二项逻辑斯蒂回归模型中的参数向量,所述参数向量中的元素通过训练得到,T表示向量倒置。6.一种确定数据处理过程的状态的装置,其特征在于,所述装置包括:第一确定模块,用于确定能够被数据仓库系统调度的数据处理过程;第二确定模块,用于确定所述第一确定模块确定的所述数据处理过程的老化特征向量;计算模...

【专利技术属性】
技术研发人员:喻灿夏睿刘强
申请(专利权)人:北京三快在线科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1