【技术实现步骤摘要】
机器学习模型部署方法、系统、计算机设备及存储介质
[0001]本申请涉及数据处理
,特别是涉及支持多框架的机器学习模型部署方法、系统、计算机设备和存储介质。
技术介绍
[0002]在核保、理赔等业务中需要严格管控风险(例如带病投保、冒名住院、假冒代办),降低潜在损失。目前业务风控一般经过人工信息核对、人工内容审核两个过程,存在人工风控能力不稳定与人工效率低下的问题。
[0003]智能风控模型采用机器学习框架,模型训练框架种类繁多,主要有Sklearn、R、SparkML、H2O、LightGBM、XGBoost等。
[0004]模型的使用方式主要有线上restapi服务、离线hive推断、离线spark推断等。
[0005]智能风控模型的线上服务往往基于python封装的原生模型提供服务。sklearn的模型使用sklearn加载推断,xgboost的模型采用xgboost加载推断等。现有技术中存在的问题是,没有实现通用的模型部署平台,一个平台生成的模型,无法在另一个平台进行部署。比如sklea ...
【技术保护点】
【技术特征摘要】
1.一种支持多框架的机器学习模型部署方法,其特征在于,包括:建立支持多框架的机器学习模型,将风控数据进行特征工程数据处理,得到特征数据,对所述特征数据进行机器学习建模得到PMML机器学习模型并进行模型训练;将所述风控数据的数据源表加工为离线特征,将所述离线特征存储到键值数据库,根据所述键值数据库将所述PMML机器学习模型封装成为离线函数模型,完成离线部署;根据所述PMML机器学习模型发布模型服务组件,接收线上请求,根据请求的关键字段查询健值数据库,得到离线特征,进而拼接请求中的线上特征,形成全量特征,完成线上部署。2.如权利要求1所述的支持多框架的机器学习模型部署方法,其特征在于,所述将风控数据的数据源表加工为离线特征,包括:通过pyspark任务读取数据源表,对所述数据源表进行特征计算,获取特征数据;将所述特征数据经过处理后进行存储;通过sdk查询所述特征数据后输出。3.如权利要求1所述的支持多框架的机器学习模型部署方法,其特征在于,所述将所述风控数据的数据源表加工为离线特征,将所述离线特征存储到键值数据库,根据所述键值数据库将所述PMML机器学习模型封装成为离线函数模型,包括:在数据平台使用hiveql、spark程序将风控数据的数据源表加工成为离线特征;将所述离线特征存储到键值数据库;根据所述键值数据库将所述PMML机器学习模型封装成为离线函数模型。4.如权利要求3所述的支持多框架的机器学习模型部署方法,其特征在于,所述将离线特征存储到键值数据库,包括:调用python
‑
kafka
‑
sdk将所述离线特征写入kafka消息中间件中;通过SparkStreaming实时流任务实时处理所述kafka消息中间件中的所述离线特征;通过scene_type字段对处理完成的所述离线特征进行离线存储。5.如权利要求3所述的支持多框架的机器学习模型部署方法,其特征在于,在根据所述PMML机器学习模型发布模型服务组件,接收线上请求,根据请求的关键字段查询健值数据库,得到离线特征,进而拼接请求中的线上特征,形成全量特征,完成线上部署之后,包括:采集离线数据表,经过特征工程数据处理,得到离线特征表;使用所述hiveql、spark程序中的hive和spark函数,对于离线特征表进行推断,得到预...
【专利技术属性】
技术研发人员:周靖植,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。