"/>

一种基于"CRISP-DM"方法论的算法开发方法及系统技术方案

技术编号:35693922 阅读:18 留言:0更新日期:2022-11-23 14:43
本发明专利技术公开了一种基于"CRISP

【技术实现步骤摘要】
一种基于

CRISP

DM

方法论的算法开发方法及系统


[0001]本专利技术涉及网络及数据处理
,尤其是涉及一种基于"CRISP

DM"方法论的算法开发方法及系统。

技术介绍

[0002]CRISP

DM(cross

industry standard process for data mining),即为"跨行业数据挖掘标准流程"。CRISP

DM模型为一个KDD工程提供了一个完整的过程描述。该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段。
[0003]商业理解(business understanding)。在这第一个阶段必须从商业的角度了解项目的要求和最终目的是什么,并将这些目的与数据挖掘的定义以及结果结合起来。主要工作包括:确定商业目标,发现影响结果的重要因素,从商业角度描绘客户的首要目标,评估形势,查找所有的资源、局限、设想以及在确定数据分析目标和项目方案时考虑到的各种其他的因素,包括风险和意外、相关术语、成本和收益等等,接下来确定数据挖掘的目标,制定项目计划。
[0004]数据理解(data understanding)。数据理解阶段开始于数据的收集工作。接下来就是熟悉数据的工作,具体如:检测数据的量,对数据有初步的理解,探测数据中比较有趣的数据子集,进而形成对潜在信息的假设。收集原始数据,对数据进行装载,描绘数据,并且探索数据特征,进行简单的特征统计,检验数据的质量,包括数据的完整性和正确性,缺失值的填补等。
[0005]数据准备(data preparation)。数据准备阶段涵盖了从原始粗糙数据中构建最终数据集(将作为建模工具的分析对象)的全部工作。数据准备工作有可能被实施多次,而且其实施顺序并不是预先规定好的。这一阶段的任务主要包括:制表,记录,数据变量的选择和转换,以及为适应建模工具而进行的数据清理等等。根据与挖掘目标的相关性,数据质量以及技术限制,选择作为分析使用的数据,并进一步对数据进行清理转换,构造衍生变量,整合数据,并根据工具的要求,格式化数据。
[0006]建模(modeling)。在这一阶段,各种各样的建模方法将被加以选择和使用,通过建造,评估模型将其参数将被校准为最为理想的值。比较典型的是,对于同一个数据挖掘的问题类型,可以有多种方法选择使用。如果有多重技术要使用,那么在这一任务中,对于每一个要使用的技术要分别对待。一些建模方法对数据的形式有具体的要求,因此,在这一阶段,重新回到数据准备阶段执行某些任务有时是非常必要的。
[0007]评估(evaluation)。从数据分析的角度考虑,在这一阶段中,已经建立了一个或多个高质量的模型。但在进行最终的模型部署之前,更加彻底的评估模型,回顾在构建模型过程中所执行的每一个步骤,是非常重要的,这样可以确保这些模型是否达到了企业的目标。一个关键的评价指标就是看,是否仍然有一些重要的企业问题还没有被充分地加以注意和考虑。在这一阶段结束之时,有关数据挖掘结果的使用应达成一致的决定。
[0008]部署(deployment)。将其发现的结果以及过程组织成为可读文本形式。模型的创
建并不是项目的最终目的。尽管建模是为了增加更多有关于数据的信息,但这些信息仍然需要以一种客户能够使用的方式被组织和呈现。这经常涉及到一个组织在处理某些决策过程中,如在决定有关网页的实时人员或者营销数据库的重复得分时,拥有一个“活”的模型。对于客户而言,预先了解需要执行的活动从而正确的使用已构建的模型是非常重要的。
[0009]事实上,CRISP

DM可贵之处在于其提纲挈领的特性,非常适合工程管理,适合大规模定制,以至CRISP

DM如今已经成为事实上的行业标准,“调查显示,50%以上的数据挖掘工具采用的都是CRISP

DM的数据挖掘流程"。
[0010]但是目前,算法开发人员对于模型的开发大多局限于本地环境,把开发好的模型迁移至需要应用的生产环境,且定期去人为的更换模型以及对模型调参,以此达到生产环境中可应用的最优秀的指标。
[0011]手动维护成本较高,需定期在本地训练脚本,涉及到数据的迁移,本地需要拿到最新的生产数据,才能做相关预测和训练。其次训练好的模型需要手动部署至生产环境的应用中去,这部署的过程中也会涉及相关的环境适配,存在修改源代码的成本。

技术实现思路

[0012]针对现有技术存在的问题,本专利技术的目的在于提供一种基于“CRISP

DM”方法论的算法开发方案来实现一站式模型开发管理平台。基于“CRISP

DM”方法论,从商业理解,数据理解再到数据准备,建模,评估,部署的全流程算法开发集成进web端应用当中,从而实现数据的快速接入,模型自动化训练和部署的全流程管理。
[0013]为实现上述目的,本专利技术提供一种基于"CRISP

DM"方法论的算法开发方法,所述方法包括以下步骤:
[0014]S1.通过集成模块,将模型训练和预测用到的数据同步至算法资源中,或将本地文件上传至算法资源中,完成数据准备;
[0015]S2.在作业开发中创建对应的算法工程文件夹,并在生成的data目录中导入模型训练和预测所需的数据文件,以及在src目录下导入python所需的配置依赖文件;
[0016]S3.导入完成之后,在src中可新建对应的训练作业来编写训练脚本,完成脚本的编写之后,可在任务开发中配置对应的依赖关系,完成数据建模;
[0017]S4.每天生成的模型,在模型管理中做版本管理,完成模型评估,记录下最新的模型或评估指数更高的模型;
[0018]S5.针对实时的场景提供算法API,帮助模型快速部署上线,实现模型的实时推理。
[0019]进一步,步骤S3中,支持配置相应的调度周期,所述调度周期为天、周、月;配置完成之后,点击保存运行提交即可将其提交到任务运维中去,周期运维来定期调度的算法任务,使其产生最新的模型和数据。
[0020]进一步,步骤S4中,对模型做出评估,可以在算法作业的运行日志中查看其结果,也可以在评估任务管理中针对任意一个模型做出对应的评估,可查看到配置评估任务的参数界面,完成了相关的配置之后,可查看到最终得到的评估结果分析。
[0021]进一步,周期任务支持对时间响应要求不超过设定阈值的场景,对于时间响应要求超过设定阈值的场景时,采用算法API。
[0022]进一步,所述实时的场景为购买推荐场景。
[0023]另一方面,本专利技术还提供一种基于"CRISP

DM"方法论的算法开发系统,所述系统用于实现根据本专利技术的基于"CRISP

DM"方法论的算法开发方法。
[0024]本专利技术的技术方案是紧密结合了本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于"CRISP

DM"方法论的算法开发方法,其特征在于,所述方法包括以下步骤:S1.通过集成模块,将模型训练和预测用到的数据同步至算法资源中,或将本地文件上传至算法资源中,完成数据准备;S2.在作业开发中创建对应的算法工程文件夹,并在生成的data目录中导入模型训练和预测所需的数据文件,以及在src目录下导入python所需的配置依赖文件;S3.导入完成之后,在src中可新建对应的训练作业来编写训练脚本,完成脚本的编写之后,可在任务开发中配置对应的依赖关系,完成数据建模;S4.每天生成的模型,在模型管理中做版本管理,完成模型评估,记录下最新的模型或评估指数更高的模型;S5.针对实时的场景提供算法API,帮助模型快速部署上线,实现模型的实时推理。2.根据权利要求1所述的基于"CRISP

DM"方法论的算法开发方法,其特征在于,步骤S3中,支持配置相应的调度周期,所述调度周期为天、周、月;配置完成之后,点击保存运行提交即可将其提交到任务运维中去,周期运维来定期调度的算法任务,使其产生最新的模型和数据。3.根据权利要求2所述的基于"CRISP

DM"方法论的算法开发方法,其特征在于,步骤S4中,对模型做出评估,可以在算法作业的运行日志中查看其结果,也可以在评估任务管理中针对任意一个模型做出对应的评估,可查看到配置评估任务的参数界面,完成了相关的配置之后,可查看到最终得到的评估结果分析。4.根据权利要求3所述的基于"CRISP

DM"方法论的算法开发方法,其特征在于,周期任务支持对时间响应要求不超过设定阈值的场景,对于时间响应要求超过设定...

【专利技术属性】
技术研发人员:廖祝胜
申请(专利权)人:杭州比智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1