一种用于数据挖掘系统的基于内存的数据快速碰撞子系统技术方案

技术编号:19857538 阅读:82 留言:0更新日期:2018-12-22 11:42
本发明专利技术涉及数据处理技术领域,尤其涉及一种用于数据挖掘系统的基于内存的数据快速碰撞子系统,包括任务控制模块、资源监控/流量控制模块、对外接口模块、路由模块、内存运算域模块和数据驱动模块,任务控制模块根据系统当前状态信息,实现对数据碰撞任务的接收、启动、执行及任务请求处理结果的返回,资源监控/流量控制模块为任务控制模块提供系统当前状态信息;对外接口模块通过HTTP对外暴露出接口服务;路由模块对任务提交者提交的数据碰撞任务请求进行解析获得任务参数,将任务参数路由至算法单元,内存运算域模块包括多个算法单元,数据驱动模块包括多个数据驱动程序,本发明专利技术数据抽取效率高,避免了数据落地带来的I/O开销。

【技术实现步骤摘要】
一种用于数据挖掘系统的基于内存的数据快速碰撞子系统
本专利技术涉及数据处理
,尤其涉及一种用于数据挖掘系统的基于内存的数据快速碰撞子系统。
技术介绍
随着大数据应用的发展,越来越多的数据具备了可分析的价值,但历史产生的数据分别具有不同的格式以及存储方式。这就造成了如果要对这些数据进行分析,就必须将其统一的导入到统一的处理环境中处理。针对一些少量的、零散的、随机性较强的数据,很难使用统一的方式进行导入,即使可以导入这种先导入再分析的方式也会造成一定的延时,这是由于现有的数据分析技术,通常的做法是:先将数据抽取至统一的环境中,例如关系型数据库或者大数据分布式平台中,然后再进行下一步的数据分析处理。上述处理过程中,无论原始数据是否具有实际的使用价值都会产生数据转化和转移,针对少量随机性的数据,不管数据量多少,都需要事先进行导入处理,在数据统一化完成之后,才能在此基础上进行进一步的分析。因此在实际应用场景中,业务人员面对各式各样的数据来源,无法直接进行处理,时效性大打折扣。同时如果分析完毕后,原始数据已无实际使用价值,还需要将其移除,因此对于生命周期很短的数据,导入操作的性价比就会较低本文档来自技高网...

【技术保护点】
1.一种用于数据挖掘系统的基于内存的数据快速碰撞子系统,其特征在于:包括任务控制模块、资源监控/流量控制模块、对外接口模块、路由模块、内存运算域模块和数据驱动模块,系统采用异步通讯方式,即任务提交者在提交任务进行计算的时候,无需等待计算过程的执行,系统立即返回对其提交任务的接收情况;所述任务控制模块根据资源监控/流量控制模块提供的系统当前状态信息,通过与对外接口模块、路由模块、内存运算域模块和数据驱动模块进行交互,实现对数据碰撞任务的接收、启动、执行及任务请求处理结果的返回;所述资源监控/流量控制模块为任务控制模块提供系统当前状态信息,支撑任务控制模块完成对任务的控制;所述对外接口模块通过HT...

【技术特征摘要】
1.一种用于数据挖掘系统的基于内存的数据快速碰撞子系统,其特征在于:包括任务控制模块、资源监控/流量控制模块、对外接口模块、路由模块、内存运算域模块和数据驱动模块,系统采用异步通讯方式,即任务提交者在提交任务进行计算的时候,无需等待计算过程的执行,系统立即返回对其提交任务的接收情况;所述任务控制模块根据资源监控/流量控制模块提供的系统当前状态信息,通过与对外接口模块、路由模块、内存运算域模块和数据驱动模块进行交互,实现对数据碰撞任务的接收、启动、执行及任务请求处理结果的返回;所述资源监控/流量控制模块为任务控制模块提供系统当前状态信息,支撑任务控制模块完成对任务的控制;所述对外接口模块通过HTTP对外暴露出接口服务,任务提交者通过接口服务实现对系统的总启动控制、查看系统当前状态信息、向系统提交数据碰撞任务请求、接收任务请求处理结果,所述数据碰撞任务请求至少包括数据源线索、数据处理方式、数据处理结果存储方式;所述路由模块对任务提交者提交的数据碰撞任务请求进行解析,获得任务参数,并将任务参数路由至内存运算域模块中相应的执行任务的算法单元,所述任务参数至少包括输入/输出资源表达式、数据算法;所述内存运算域模块包括多个算法单元,接收到任务参数的算法单元通过数据驱动模块将至少一种数据源抽取至本单元中,待全部抽取完毕后,执行对应的数据算法获得执行结果并缓存,最后再将最终的执行结果通过数据驱动模块写入相应的数据源,所述数据源至少包括两个数据集,所述内存运算域模块支持对不同数据源中的数据集之间进行交集、并集和差集碰撞运算;所述数据驱动模块包括多个数据驱动程序,每个数据驱动程序能够识别一种数据源,且数据驱动程序本身能够识别数据源能否被自身所处理,数据驱动程序能够将任务参数中的输入/输出资源表达式解析并转化成具体的数据源连接,根据数据源连接对相应的数据源进行读取或者写入操作。2.根据权利要求1所述的用于数据挖掘系统的基于内存的数据快速碰撞子系统,其特征在于:所述系统当前状态信息至少包括系统资源的使用情况、当前任务状况、当前系统具备的处理能力。3.根据权利要求1所述的用于数据挖掘系统的基于内存的数据快速碰撞子系统,其特征在于:所述对外接口模块包括启动总控模块、状态反馈模块、任务接收模块和信号交互模块...

【专利技术属性】
技术研发人员:陈华郁东风葛永山
申请(专利权)人:江苏开拓信息与系统有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1