数据处理方法及其设备技术

技术编号:15938782 阅读:28 留言:0更新日期:2017-08-04 21:42
公开了一种数据处理方法及其设备,所述方法包括:从源数据集中提取与算法对应的训练数据集;通过所述算法对训练数据集进行处理,生成结果数据集;根据反馈信息对结果数据集打标签,生成打标数据集;将打标数据集按照源数据集的存储方式存储为验证数据集。所述方法通过利用反馈信息对结果数据集进行打标签并将打标数据集作为验证数据集对算法进行迭代训练,从而能够对算法进行优化,提高算法的性能。

Data processing method and apparatus

The invention discloses a data processing method and device. The method includes: training data extraction and corresponding algorithm from the source dataset set; processed by the algorithm on the training data set, the results generated data set; according to the feedback information of the data set label, a marking data set will be marking; the data set according to the storage of source data set is stored as a validation data set. The method by using the feedback information of the data set and label marking data set as a validation data set of iterative training algorithm, which can optimize, improve the performance of the algorithm.

【技术实现步骤摘要】
数据处理方法及其设备
本申请涉及计算机软件
,特别涉及一种数据处理方法及其设备。
技术介绍
目前,随着互联网的快速发展,各种形式的在线交易不断涌现。为了安全、预测等各种目的,可通过历史交易数据和预定训练模型对交易数据进行处理,基于处理结果对相应算法进行验证。例如,可通过交易数据的异常告警算法对交易数据进行实时监控并基于监控结果生成告警数据,随后,根据商家反馈或数据跟踪,对相应告警数据进行打标签(简称“打标”),若告警正确,则打标为“+”,若告警错误,则打标为“—”,然后对交易数据进行打标。由此可以看出,现有方法中并未对打标后的数据进行利用和管理。
技术实现思路
本专利技术的主要目的在于提供一种,旨在解决以上提到的问题。本申请实施例提供一种数据处理方法,所述方法包括:从源数据集中提取与算法对应的训练数据集;通过所述算法对训练数据集进行处理,生成结果数据集;根据反馈信息对结果数据集打标签,生成打标数据集;将打标数据集按照源数据集的存储方式存储为验证数据集。本申请另一实施例提供一种数据处理设备,所述设备包括:提取模块,从源数据集中提取与算法对应的训练数据集;第一生成模块,通过所述算法对训练数据集进行处理,生成结果数据集;第二生成模块,根据反馈信息对结果数据集打标签,生成打标数据集;存储模块,将打标数据集按照源数据集的存储方式存储为验证数据集。本申请实施例采用的上述至少一个技术方案通过利用反馈信息对结果数据集进行打标签并将打标数据集作为验证数据集对算法进行迭代训练,从而能够对算法进行优化,提高算法的性能。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1示出根据本专利技术的示例性实施例的数据处理方法的流程图;图2示出根据本专利技术的另一示例性实施例的数据处理方法的流程图;图3示出在监控平台下利用根据本专利技术的数据处理方法的监控系统的框架图;图4示出根据本专利技术的示例性实施例的数据处理设备的框图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。下面将参照图1详细说明根据本专利技术的算法评价方法。如图1所示,在步骤S110,从源数据集中提取与算法对应的训练数据集。应注意,所述源数据集是指按照预定存储格式存储在同一路径下的数据集。所述源数据集可能被存储在同一存储器中,也可根据需求以分布式地方式存储在多个存储器中。此外,源数据集包括从多种数据库中获取的数据集。在从多种数据库中获取数据集之后,将数据集按照预定存储格式存储,所述预定存储格式包括将数据集与所述源数据集所在仓库的名称(即,根据算法需要创建的数据仓库的名称)和数据表名称(与所述数据集对应)对应地存储,并且可通过由数据仓库名称和数据表名称构成数据集的URL直接获取数据表并利用该URL快速查询数据集。以上所述的多种数据库可包括mysql数据库、hbase数据库和odps数据库,其中,Mysql数据源是开放源代码的关系型数据库,hbase数据库是非结构化数据的分布式存储系统,ODPS数据库是开放数据处理服务(OpenDataProcessingService),是基于阿里巴巴集团完全自主知识产权的云计算平台构建的数据存储于分析平台,适用于实时性要求不高的海量数据(TB/PB级别)的离线处理。可选地,可根据SQL(StructuredQueryLanguage,结构化查询语言)从mysql数据库、hbase数据库和odps数据库中提取数据集,并将提取的数据集构成源数据集。所述源数据集按照每列与特征对应的数据表形式存储,这种数据格式便于根据需求按列提取对应的特征数据。数据表(table)是一种数据存储单元,它在逻辑上由行和列组成的二维结构,每行代表一条记录,每列代表一种属性,拥有相同数据类型和名称的一个字段;一条记录可以包含一个或多个列,各个列的名称和类型构成这种表的表模式(schema)。一个数据仓库中可包含多个表。具体来说,源数据集中的数据可按照每列的特征生成各种类型的数据表,当根据算法需要特定特征的数据时,可仅提取与各个特征对应的数据。在可选实施例中,在从源数据集中提取数据集之后,对数据集进行数据清洗。数据清洗是一个减少数据错误和不一致的过程,主要任务是检测并删除或改正交易数据。例如,可通过编写SQL从数据库中提取数据集,随后,对该数据集进行数据清洗,保存数据清洗后的数据集。在可选实施例中,可在执行步骤S110之前,确定与应用场景对应的算法。所述应用场景包括监控异常数据、交易预测、数据挖掘等场景,可根据需要预先设置应用场景,并将应用场景与相应算法进行关联,例如,可将应用场景与相应算法对应地存储在关系表中,如此,在确定应用场景的情况下,可启动相应的算法,并且可根据需要添加相应场景及其对应的算法,例如,可根据需要添加数据分析场景以及与数据分析场景对应的分析算法。由于不同的算法对应的训练集不同,所以在确定算法的情况下,根据算法确定与算法对应的训练数据集,例如,在对交易平台进行异常监控或交易预测的算法中,所述训练数据集是指交易数据。然后,在步骤S120,通过所述算法对训练数据集进行处理,生成结果数据集。然后,在步骤S130,根据反馈信息,对结果数据集进行打标签,生成打标数据集,所述反馈信息是指对计算结果进行反馈的信息。例如,在数据异常监控算法的情况下,反馈信息包括商家反馈的信息(例如,交易异常)或者根据异常提示进行数据跟踪获得的信息。对结果数据集打标签的方式有很多,比如,如果根据反馈信息确定算法结果正确,则对结果数据集打“+”标签,如果根据反馈信息确定算法结果不正确,则对结果数据打“-”标签,由此可得到打标数据集,或者可根据需要对算法结果正确的交易数据打标签“ture”,对算法结果错误的交易数据打标签“false”。应注意,对结果数据集进行打标签仅用于对结果数据集中的各种情况进行区别标识。在步骤S140,将打标数据集按照源数据集的存储方式存储为验证数据集。所述验证数据集是用于对算法进行验证的数据集。具体来说,可将打标数据集转换为与源数据集的数据表的形式相同的数据表;将转换后的数据表作为验证数据集存储到所述源数据集所在的数据仓库中。所述验证数据集对应的数据表的名称可不同于与训练数据集对应的数据表的名称,由此,根据本专利技术的方法可根据数据表的名称调用不同的数据集。由于验证数据集是已经过验证的数据集,所以能够通过根据算法对验证数据集进行迭代训练而优化算法。在可选实施例中,可调用验证数据集中的数据对所述算法的性能进行评价。具体来说,可通过验证数据集所在的仓库名称和验证数据集中的数据表格,利用程序指令(例如,ODPS可执行的SQL语句),调用验证数据集中的相关数据,得到评价结果。例如,在通过准确度对算法进行评价的情况下,可将所述验证数据集中的打“+”标签的数据与全部交易数据进行比较,从而达到准确度。应注意,不同的算法评价指标本文档来自技高网...
数据处理方法及其设备

【技术保护点】
一种数据处理方法,其特征在于,包括:从源数据集中提取与算法对应的训练数据集;通过所述算法对训练数据集进行处理,生成结果数据集;根据反馈信息对结果数据集打标签,生成打标数据集;将打标数据集按照源数据集的存储方式存储为验证数据集。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:从源数据集中提取与算法对应的训练数据集;通过所述算法对训练数据集进行处理,生成结果数据集;根据反馈信息对结果数据集打标签,生成打标数据集;将打标数据集按照源数据集的存储方式存储为验证数据集。2.如权利要求1所述的方法,其特征在于,在从源数据集中提取与算法对应的训练数据集之前,还包括:确定与选择的应用场景对应的算法。3.如权利要求2所述的方法,其特征在于,在确定与选择的应用场景对应的算法之前,还包括:预先将应用场景和与应用场景对应的算法进行关联存储。4.如权利要求1至3中的任一权利要求所述的方法,其特征在于,所述源数据集是将从多种数据库中提取的数据集进行数据清洗后的数据集。5.如权利要求1所述的方法,其特征在于,所述源数据集按照每列与特征对应的数据表形式存储。6.如权利要求1所述的方法,其特征在于,在生成打标数据集之后,还包括:调用验证数据集中的数据对所述算法的性能进行评价。7.如权利要求1所述的方法,将打标数据集按照源数据集的存储方式存储为验证数据集的步骤包括:将打标数据集转换为与源数据集的数据表形式相同的数据表;将转换后的数据表作为验证数据集存储到所述源数据集所在的数据仓库中。...

【专利技术属性】
技术研发人员:吴娅
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1