【技术实现步骤摘要】
一种可快捷上线部署的机器学习模型的文件格式及部署方法
本专利技术涉及机器学习领域,尤其涉及一种可快捷上线部署的机器学习模型文件格式及部署方法。
技术介绍
机器学习模型文件是指经过机器学习算法训练后得到的机器学习模型,将机器学习模型持久化到文件系统上的文件,称为机器学习模型文件,它可用于预测分析使用,而用于描述机器学习模型文件及其相关文件,统称为机器学习模型文件格式。一般机器学习流程主要分为数据处理、特征工程、模型训练、模型生成、模型预测,实际生产环境中一般采用,离线批式环境下进行模型训练得出模型后上线到平台,使用流式或批式场景下的数据进行模型预测。最终将模型预测得到的结果应用于实际业务场景中。其中特征工程是机器学习流程中的重中之中,也是耗时最多,逻辑最复杂的部分。机器学习界流传着一句话:“数据和特征决定了机器学习算法的上限,而模型和算法只是不断逼近这个上限而已”。从中可知特征工程的重要性,在此本专利技术主要也在特征工程部分。常规机器学习流程的模型导出只能导出机器学习模型逻辑部分,这使得在线上进行模型预测时,还 ...
【技术保护点】
1.一种可快捷上线部署的机器学习模型的文件格式,其特征在于,该格式主要包括:/na)数据定义:对初始数据进行抽象定义;/nb)特征定义:将机器学习过程中的特征工程抽象成可重复实现的特定的数据结构;/nc)方法:通过编程语言编写处理逻辑;/nd)资源包:方法中所需要的第三方依赖;/ne)模型逻辑:PMML(Predictive Model Markup Language)。/n
【技术特征摘要】
1.一种可快捷上线部署的机器学习模型的文件格式,其特征在于,该格式主要包括:
a)数据定义:对初始数据进行抽象定义;
b)特征定义:将机器学习过程中的特征工程抽象成可重复实现的特定的数据结构;
c)方法:通过编程语言编写处理逻辑;
d)资源包:方法中所需要的第三方依赖;
e)模型逻辑:PMML(PredictiveModelMarkupLanguage)。
2.如权利要求1所述的文件格式,其特征在于,所述的数据定义中的初始数据是数据挖掘人员从数据采集人员手中得到并经过异常值处理、缺失值填充等处理之后的数据,进行数据挖掘时对数据的所有操作均基于初始数据。
3.如权利要求1所述的文件格式,其特征在于,所述对初始数据进行抽象定义具体为:使用初始数据的字段信息来抽象表示整个数据,并使用JSON格式字符信息描述,所述字段信息包括:字段名称、类型和备注;数据定义过程中需要定义关联主键,用来明确数据的关联关系。
4.如权利要求1所述的文件格式,其特征在于,所述的特征定义主要分为两部分:
a)特征变量:特征变量基于数据抽象定义基础上,对数据按定义逻辑进行计算得出特征,所述定义逻辑使用JSON格式字符信息进行描述。可以根据该定义将特征同时转换成批式计算引擎可执行的SQL脚本和流式处理引擎可以执行的流式脚本,实现特征既可以在流式环境下运行也可在批式环境运行。
b)特征:根据使用场景分为静态特征与动态特征。
所述静态特征为针对的场景不需要进行特征计算,但初始数据仍需要保留到后续流程中计算或解释说明的...
【专利技术属性】
技术研发人员:唐迪佳,李白,虞帮水,
申请(专利权)人:浙江邦盛科技有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。