【技术实现步骤摘要】
一种数据处理方法及装置
本申请涉及大数据
,尤其涉及一种数据处理方法及装置。
技术介绍
目前,数据接入平台作为大数据平台重要的数据入口,其主要用于实现数据源接入和数据缓存预处理,其中,数据源接入主要包括对在线消息、离线文件、Binlog等日志文件进行数据采集;数据缓存预处理主要包括数据源格式的适配、数据的加密传输、消息缓存和订阅分发。现有技术中,用户必须借助Flume-NG、Logstach或者Scribe等分布式部署方式来实现数据接入,这样,每一用户都需要自行进行技术选型,对不同的采集任务或预处理任务需要采用不同的技术方案,并且需要自己完成软件的底层实现,因此,开发过程比较繁琐、复杂,导致数据接入平台的使用成本也比较高。可见,现有技术中用户在使用数据接入平台时存在着开发过程繁琐、复杂,导致数据接入平台的使用成本比较高的问题。
技术实现思路
本申请实施例提供一种数据处理方法及装置,用以解决现有技术中用户在使用数据接入平台时存在着开发过程繁琐、复杂,导致数据接入平台的使用成本比较高的问题。本申请实施例提供的一种数据处理方法,应用于包含多个计算框架的数据接入平台,包 ...
【技术保护点】
1.一种数据处理方法,应用于包含多个计算框架的数据接入平台,其特征在于,包括:数据接入平台接收数据处理请求,所述数据处理请求中携带有源数据的地址信息和对所述源数据需执行的处理任务;根据所述源数据的地址信息获取源数据;根据所述源数据的属性信息和所述数据接入平台中各计算框架的负载状况,确定用于执行所述处理任务的计算框架,所述源数据的属性信息至少包含数据来源、时延大小、数据总量和数据质量;将所述处理任务提交给所述计算框架,由所述计算框架对所述源数据进行处理。
【技术特征摘要】
1.一种数据处理方法,应用于包含多个计算框架的数据接入平台,其特征在于,包括:数据接入平台接收数据处理请求,所述数据处理请求中携带有源数据的地址信息和对所述源数据需执行的处理任务;根据所述源数据的地址信息获取源数据;根据所述源数据的属性信息和所述数据接入平台中各计算框架的负载状况,确定用于执行所述处理任务的计算框架,所述源数据的属性信息至少包含数据来源、时延大小、数据总量和数据质量;将所述处理任务提交给所述计算框架,由所述计算框架对所述源数据进行处理。2.如权利要求1所述的方法,其特征在于,根据所述源数据的属性信息和所述数据接入平台中各计算框架的负载状况,确定用于执行所述处理任务的计算框架,包括:根据所述源数据的属性信息确定对所述源数据的处理方式,其中,对所述源数据的处理方式包括批处理方式和实时处理方式;根据对所述源数据的处理方式和所述数据接入平台中各计算框架的负载状况,确定用于执行所述处理任务的计算框架。3.如权利要求2所述的方法,其特征在于,根据对所述源数据的处理方式和所述数据接入平台中各计算框架的负载状况,确定用于执行所述处理任务的计算框架,包括:若确定以实时处理方式处理所述源数据,则确定所述数据接入平台中以实时流处理方式处理数据流的计算框架,从所述计算框架中选择负载低于第一阈值的计算框架作为执行所述处理任务的计算框架;若确定以批处理方式处理所述源数据,则确定所述数据接入平台中以批处理方式处理数据流的计算框架,从所述计算框架中选择负载低于第二阈值的计算框架作为执行所述处理任务的计算框架。4.如权利要求1所述的方法,其特征在于,根据所述源数据的属性信息和所述数据接入平台中各计算框架的负载状况,确定用于执行所述处理任务的计算框架之前,还包括:确定不存在用户自定义的计算框架。5.如权利要求4所述的方法,其特征在于,还包括:若确定存在用户自定义的计算框架,则将所述处理任务提交给所述用户自定义的计算框架,由所述用户自定义的计算框架对所述源数据进行处理。6.一种数据处理装置,位于包含多个计算框架的数据接入平台中,其特征在于,包括:接收模块,用于接收数据处理请求,所述数据处理请求中携带有源数...
【专利技术属性】
技术研发人员:徐硕,姜康,
申请(专利权)人:中移苏州软件技术有限公司,中国移动通信集团公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。