一种基于R语言的大数据量数据筛选方法和系统技术方案

技术编号:13779821 阅读:70 留言:0更新日期:2016-10-04 13:18
本发明专利技术涉及网络技术领域,特别涉及一种基于R语言的大数据量数据筛选方法和系统。方法包括以下步骤,搭建R语言服务器;将原关系型数据库中的数据导入到R语言服务器内存;用户在业务系统的客户端,自定义用于筛选的R语言脚本;根据用于筛选的R语言脚本,对导入到R语言服务器内存中的数据进行筛选,并返回筛选结果。本发明专利技术提供用于自定义R语言脚本的可视化界面,可以简单灵活地对R语言脚本进行可视化编辑,并且封装一套符合JDBC接口规范的客户端JAR包,复用性高,可以方便地将对原关系型数据库的访问迁移到R语言服务器;同时利用R语言的内存计算特性,实现了对数据的快速筛选。

【技术实现步骤摘要】

本专利技术涉及网络
,特别涉及一种基于R语言的大数据量数据筛选方法和系统
技术介绍
传统业务系统通常采用B/S架构,将数据存放在关系型数据库中,整个业务系统的运行效率很大程度上依赖于数据库和服务器的性能,因此在进行大数据量查询时,数据库往往成为系统的性能瓶颈,尤其在查询条件过多时,很难通过给数据库增加索引的方式来进行优化。而R语言是一套完整的数据处理、计算系统,基于其强大的数据运算能力,尤其是向量、矩阵方面的运算能力,在数据存储和处理领域,能够提供相比传统关系型数据库更快捷的处理速度,从而提高数据处理的效率。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于R语言的大数据量数据筛选方法和系统,解决了现有技术进行大数据量筛选时,速度慢且难以对筛选过程进行优化的技术问题。本专利技术解决上述技术问题的技术方案如下:一种基于R语言的大数据量数据筛选方法,包括以下步骤,步骤1,搭建R语言服务器;步骤2,将原关系型数据库中的数据导入到所述R语言服务器内存;步骤3,用户在业务系统的客户端,自定义用于筛选的R语言脚本;步骤4,根据所述用于筛选的R语言脚本,对导入到R语言服务器内存中的数据进行筛选,并返回筛选结果。本专利技术的有益效果是:本专利技术提供用于自定义R语言脚本的可视化界面,可以简单灵活地对R语言脚本进行可视化编辑,并且封装一套符合JDBC接口规范的客户端JAR包,复用性高,可以方便地将对原关系型数据库的访问迁移到R语言服务器;同时利用R语言的内存计算特性,实现了对数据的快速筛选。在上述技术方案的基础上,本专利技术还可以做如下改进。进一步,步骤2具体为:编写用于读取数据的R语言脚本,通过调用shell将指定的关系型数据库表数据加载到所述R语言服务器内存。进一步,步骤2还包括数据更新步骤,具体为:对实时性要求不高的数据,设置定时任务,在指定的时间间隔触发数据更新操作,将关系型数据库中更新的数据加载到所述R语言服务器内存;对实时性高的数据,编写守护进程,实时监控关系数据库中指定表的数据更新情况,并将更新的数据同步加载到所述R语言服务器内存。采用上述进一步方案的有益效果是:本进一步的技术方案采用shell定时任务,定时触发数据库中指定表数据加载到R语言服务器内存,方法简单,加载数据快,而且可以及时对R语言服务器内存中的数据进行更新。进一步,步骤4具体为:在业务系统的客户端封装符合JDBC规范的客户端JAR包;对业务系统的数据访问层代码进行改造,将对指定的关系型数据库表数据的访问操作迁移到所述R语言服务器上;根据所述用于筛选的R语言脚本,对R语言服务器内存中的数据进行筛选,并返回筛选结果。采用上述进一步方案的有益效果是:采用符合JDBC接口规范的客户端JAR包,可以方便的对业务系统的数据访问层代码进行改造,将对指定的关系型数据库表数据的访问操作迁移到所述R语言服务器上,复用性高,改造过程简单。进一步,所述步骤3中,配置可视化界面,用户通过所述可视化界面自定义R语言脚本。采用上述进一步方案的有益效果是:本进一步的技术方案采用可视化界面自定义R语言脚本,配置简单灵活,可维护性好。一种基于R语言的大数据量数据筛选系统,包括服务器搭建模块、数据迁移模块、脚本编辑模块和筛选模块,所述服务器搭建模块用于搭建R语言服务器;所述数据迁移模块用于将原关系型数据库中的数据导入到所述R语言服务器内存;所述脚本编辑模块用于用户在业务系统的客户端,自定义用于筛选的R语言脚本;所述筛选模块用于根据所述用于筛选的R语言脚本,对导入到R语言服务器内存中的数据进行筛选,并返回筛选结果。进一步,还包括数据更新模块,所述数据更新模块用于对实时性要求不高的数据,设置定时任务,在指定的时间间隔触发数据更新操作;对实时性高的数据,编写守护进程,实时监控原关系数据库中指定表的数据更新情况,并将更新的数据同步加载到所述R语言服务器内存。进一步,还包括可视化界面,所述可视化界面用于对R语言脚本进行可视化编辑。附图说明图1为本专利技术一种基于R语言的大数据量数据筛选方法的流程示意图;图2为本专利技术一种基于R语言的大数据量数据筛选系统的结构示意图。具体实施方式以下结合附图对本专利技术的原理和特征进行描述,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。如图1所示,为本专利技术一种基于R语言的大数据量数据筛选方法的流程示意图,包括以下步骤:步骤1,搭建R语言服务器。步骤2,将原关系型数据库中的数据导入到所述R语言服务器内存;具体可以编写用于读取数据的R语言脚本,通过调用shell将指定的关系型数据库表数据加载到所述R语言服务器内存。步骤3,用户在业务系统的客户端,自定义用于筛选的R语言脚本。可以在客户端配置可视化界面,用户通过所述可视化界面自定义R语言脚本。步骤4,根据所述用于筛选的R语言脚本,对导入到R语言服务器内存中的数据进行筛选,并返回筛选结果。编写用于读取数据的R语言脚本,通过调用shell将指定的关系型数据库表数据加载到所述R语言服务器内存。优选的实施例中,步骤2中还包括对R语言服务器内存中的数据进行更新的步骤,具体为:对实时性要求不高的数据,设置定时任务,在指定的时间间隔触发数据更新操作,将关系型数据库中更新的数据加载到所述R语言服务器内存;对实时性高的数据,编写守护进程,实时监控关系数据库中指定表的数据更新情况,并将更新的数据同步加载到所述R语言服务器内存。在优选的实施例中,步骤4具体为:在业务系统的客户端封装符合JDBC规范的客户端JAR包;对业务系统的数据访问层代码进行改造,将对指定的关系型数据库表数据的访问操作迁移到所述R语言服务器上;根据所述用于筛选的R语言脚本,对R语言服务器内存中的数据进行筛选,并返回筛选结果。如图2所示,为本专利技术一种基于R语言的大数据量数据筛选系统的结构示意图,包括服务器搭建模块、数据迁移模块、脚本编辑模块和筛选模块,所述服务器搭建模块用于搭建R语言服务器;所述数据迁移模块用于将原关系型数据库中的数据导入到所述R语言服务器内存;所述脚本编辑模块用于用户在业务系统的客户端,自定义用于筛选的R语言脚本;所述筛选模块用于根据所述用于筛选的R语言脚本,对导入到R语言服务器内存中的数据进行筛选,并返回筛选结果。本实施例中,还包括数据更新模块,所述数据更新模块用于对实时性要求不高的数据,设置定时任务,在指定的时间间隔触发数据更新操作;对实时性高的数据,编写守护进程,实时监控原关系数据库中指定表的数据更新情况,并将更新的数据同步加载到所述R语言服务器内存。本实施例中,还可以设置可视化界面,通过可视化界面对R语言脚本进行可视化编辑。本专利技术提供用于自定义R语言脚本的可视化界面,可以简单灵活地对R语言脚本进行可视化编辑,并且封装一套符合JDBC接口规范的客户端JAR包,复用性高,可以方便地将对原关系型数据库的访问迁移到R语言服务器;同时利用R语言的内存计算特性,实现了对数据的快速筛选。尽管上面已经示出和描述了本专利技术的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本专利技术的限制,本领域的普通技术人员在本专利技术的范围内可以对上述实施例进行变化、修改、替换和变型。本文档来自技高网...

【技术保护点】
一种基于R语言的大数据量数据筛选方法,其特征在于,包括以下步骤,步骤1,搭建R语言服务器;步骤2,将原关系型数据库中的数据导入到所述R语言服务器内存;步骤3,用户在业务系统的客户端自定义用于筛选的R语言脚本;步骤4,根据所述用于筛选的R语言脚本对导入到R语言服务器内存中的数据进行筛选,并返回筛选结果。

【技术特征摘要】
1.一种基于R语言的大数据量数据筛选方法,其特征在于,包括以下步骤,步骤1,搭建R语言服务器;步骤2,将原关系型数据库中的数据导入到所述R语言服务器内存;步骤3,用户在业务系统的客户端自定义用于筛选的R语言脚本;步骤4,根据所述用于筛选的R语言脚本对导入到R语言服务器内存中的数据进行筛选,并返回筛选结果。2.根据权利要求1所述的基于R语言的大数据量数据筛选方法,其特征在于,步骤2具体为:编写用于读取数据的R语言脚本,通过调用shell将指定的关系型数据库表数据加载到所述R语言服务器内存。3.根据权利要求2所述的基于R语言的大数据量数据筛选方法,其特征在于,步骤2还包括数据更新步骤,具体为:对实时性要求不高的数据,设置定时任务,在指定的时间间隔触发数据更新操作,将关系型数据库中更新的数据加载到所述R语言服务器内存;对实时性要求高的数据,编写守护进程,实时监控关系数据库中指定表的数据更新情况,并将更新的数据同步加载到所述R语言服务器内存。4.根据权利要求1~3任一所述的基于R语言的大数据量数据筛选方法,其特征在于,步骤4具体为:在业务系统的客户端封装符合JDBC规范的客户端JAR包;对业务系统的数据访问层代码进行改造,将对指定的关系型数据库表数据的访问操作迁移到所...

【专利技术属性】
技术研发人员:陈蒙
申请(专利权)人:北京思特奇信息技术股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1