一种大数据特征提取方法、设备及计算机可读存储介质技术

技术编号:33636500 阅读:14 留言:0更新日期:2022-06-02 01:49
本发明专利技术提供了一种大数据特征提取方法、系统和计算机可读存储介质。所述方法包括:创建分布式集群Kubernetes;构建任务镜像,所述任务镜像包括Driver任务镜像和Flink任务镜像;配置特征提取参数;创建所述任务;运行所述任务进行特征提取获得特征数据;结束所述任务;发布特征在线服务;调用所述特征在线服务得到所述特征数据。本发明专利技术提供的大数据特征提取方法基于分布式集群Kubernetes和使用大数据分布式计算引擎Flink,与大数据Hive数仓和分布式存储介质相结合,能完整的融入到大数据生态,提高了特征提取效率,将特征数据发布到线上系统,提供HTTP和/或RPC的访问方式,可以更简便灵活的使用特征,还支持SQL和Python进行特征提取,拥有更广的使用场景。拥有更广的使用场景。拥有更广的使用场景。

【技术实现步骤摘要】
一种大数据特征提取方法、设备及计算机可读存储介质


[0001]本专利技术涉及数据处理
,尤其涉及一种大数据特征提取方法、设备及计算机可读存储介质。

技术介绍

[0002]随着计算机技术的发展,越来越多的领域开始使用人工智能技术,其中经典的人工智能技术是机器学习技术。机器学习一般分为4个步骤:数据清洗、特征提取、模型训练和模型预测。数据清洗处理样本数据中的异常值,比如缺失值、超过临界的值等,从而避免噪声数据对最终的模型产生干扰;特征提取是从清洗过的样本数据中提取特征,提取特征的方法很多,常用的有数据统计、非线性变换、数据分桶、特征组合、特征选择等,提取的特征的质量直接关系到模型的好坏,所以提取高质量的特征是尤其重要的。
[0003]通用特征提取方案是将样本数据以文本文件的方式保存在计算机的存储介质上,然后在计算机上编写相应的特征提取代码(例如Python代码)加载文本文件数据到内存中,然后调用机器学习的库方法进行特征提取,提取后的特征数据保存到文本文件中或者直接用于模型训练。
[0004]通用的特征提取方案具有实现简单、普适性高的优点。但随着数据量级的不断变大,通用的特征提取方案面临数据量巨大、大数据生态结合困难、特征使用灵活性不足、适用场景不广等问题,因此需要一种适合于大数据场景的特征提取方法。

技术实现思路

[0005]本专利技术的目的在于提供一种大数据特征提取方法、设备及计算机可读存储介质,旨在解决现有技术中通用特征提取方法采取单机提取资源不足、不能结合大数据生态、特征提取效率不高、特征使用灵活性不足等问题。
[0006]第一方面,本专利技术提供了一种大数据特征提取方法,所述方法包括:
[0007]S101、创建分布式集群Kubernetes;
[0008]S102、构建任务镜像,所述任务镜像包括Driver任务镜像和Flink任务镜像;
[0009]S103、配置特征提取参数;
[0010]S104、创建所述任务;
[0011]S105、运行所述任务进行特征提取获得特征数据;
[0012]S106、结束所述任务;
[0013]S107、发布特征在线服务;
[0014]S108、调用所述特征在线服务得到所述特征数据。
[0015]第二方面,本专利技术提供了一种大数据特征提取设备,包括:
[0016]一个或多个处理器;
[0017]存储器;以及
[0018]一个或多个计算机程序,所述处理器和所述存储器通过总线连接,其中所述一个
或多个计算机程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,其特征在于,所述处理器执行所述计算机程序时实现如上所述的大数据特征提取方法的步骤。
[0019]第三方面,本专利技术提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述的大数据特征提取方法的步骤。
[0020]在本专利技术中,基于分布式集群Kubernetes和使用大数据分布式计算引擎Flink,解决了单机进行特征提取资源不足的问题,与大数据Hive数仓和分布式存储介质相结合,能完整的融入到大数据生态,提高了特征提取效率,将特征数据发布到线上系统,提供HTTP和/或RPC的访问方式,可以更简便灵活的使用特征,还支持SQL和Python进行特征提取,拥有更广的使用场景。
附图说明
[0021]图1是本专利技术实施例一提供的大数据特征提取方法的流程图;
[0022]图2是本专利技术实施例一提供的Driver任务流程图;
[0023]图3是本专利技术实施例一提供的Flink任务流程图。
具体实施方式
[0024]为了使本专利技术的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0025]为了说明本专利技术所述的技术方案,下面通过具体实施例来进行说明。
[0026]实施例一:
[0027]如图1所示,本专利技术实施例一提供了一种大数据特征提取方法,包括:
[0028]S101、创建分布式集群(Kubernetes),具体包括:Kuberneters集群的创建、Hadoop和Hive的相关配置。
[0029]S102、构建任务镜像,包括制作启动任务和监听任务状态的Driver任务镜像以及Flink任务镜像。
[0030]S103、配置特征提取参数,其中特征提取参数包括但不限于样本源参数、特征提取代码和特征存储参数等。样本源参数用以从样本源读取样本数据,详细参数包括输入源类型、数据库DB、数据表Table、消息队列Topic、样本字段Fields、是否为主键PK、是否是分区键等。输入源类型包括关系型数据库RDBS(Relational Database),数据仓库Hive,数据库HBase,实时消息队列Kafka等。特征提取代码用以从样本数据中提取特征,常用方法包括数据清洗、机器学习、统计方法等。特征提取的代码可以是SQL、Python等语言,SQL支持多表关联Join,Python支持常用的Pandas、Numpy、scikit

learn等库。特征存储参数用以存储提取的特征数据,包括存储的数据库类型、所属数据中心(DC,Data Center)等,存储类型包括ElasticSearch、RDBS、Hive、Redis等。
[0031]S104、创建任务,创建任务具体包括:
[0032]S1041、将特征提取参数进行封装,例如样本输入源或者存储源包含多个数据库
表,需要对多个库表组装成列表,同时如果查询SQL或者代码包含特殊的占位符或者关键字,需要对占位符及关键字进行替换或拼接;
[0033]S1042、将封装好的特征提取参数写入到任务配置的环境变量中,并配置任务使用的资源信息,例如CPU、内存、挂载文件、镜像信息等;
[0034]S1043、通过Kubernetes API服务器提交任务并启动任务。
[0035]S105、运行任务进行特征提取获得特征数据,Kubernetes首先启动Driver任务,Driver进行环境初始化,随后启动Flink任务,Flink任务进行特征提取,Driver任务监听Flink任务运行状态。任务运行包括两个阶段,Driver任务运行阶段和Flink任务运行阶段。
[0036]Driver任务进行解析参数、保存任务初始状态、初始化对分布式存储环境、启动和监听Flink任务运行、提交特征数据、保存状态并退出任务。详细步骤如下:
[0037]10511、解析参数,包括解析Pod的环境变量,提取样本源参数和特征存储参数。
[0038]10512、保存任务初始状态,具体地,在RDBS中创建任务信息并初始化状态为运行中的状态。
[0039]10本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大数据特征提取方法,其特征在于,所述方法包括:S101、创建分布式集群Kubernetes;S102、构建任务镜像,所述任务镜像包括Driver任务镜像和Flink任务镜像;S103、配置特征提取参数;S104、创建所述任务;S105、运行所述任务进行特征提取获得特征数据;S106、结束所述任务;S107、发布特征在线服务;S108、调用所述特征在线服务得到所述特征数据。2.如权利要求1所述的方法,其特征在于,所述特征提取参数包括样本源参数、特征提取代码和特征存储参数;所述创建所述任务进一步包括:将所述特征提取参数进行封装;将封装好的特征提取参数写入到所述任务配置的环境变量中,并配置所述任务使用的资源信息;通过所述Kubernetes API服务器提交所述任务并启动所述任务。3.如权利要求1所述的方法,其特征在于,所述运行所述任务进行特征提取获得特征数据,进一步包括:所述Kubernetes启动所述Driver任务;所述Driver任务进行解析参数、保存所述任务初始状态、初始化分布式存储环境、启动和监听所述Flink任务、提交特征数据、保存状态并退出任务;所述Flink任务进行解析参数、获取所述Driver任务ID、将作业管理器与Driver生命周期关联、从样本源读取样本数据、执行特征提取获得特征数据、写入所述特征数据到分布式存储介质中、汇报任务状态给所述Driver、清理环境并退出所述Flink任务。4.如权利要求3所述的方法,其特征在于,所述Driver任务初始化分布式存储环境具体是根据所述特征参数创建tmp后缀的特征存储表,所述Flink任务写入所述特征数据到分布式存储介质中具体是写入所述特征数据到所述Driver任务创建的tmp后缀的特征存储...

【专利技术属性】
技术研发人员:黄政张浩包恒彬苏海红马建江
申请(专利权)人:深圳依时货拉拉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1