This disclosure is a data extraction method and system, which belongs to the field of data processing technology. The method includes: from the database server according to the preset selected current need to collect the data in the data source; collected from the data source in the default query conditions; the default query conditions of all or part of the configuration according to predetermined rules written in the XML file; automatic parsing the XML file, read is the default configuration of the query conditions; according to the preset condition query and filtering the data source. The invention can realize the configurable logic of data processing in the process of large data processing.
【技术实现步骤摘要】
数据抽取方法及系统
本公开涉及数据处理技术,尤其涉及一种数据抽取方法及系统。
技术介绍
在EBS集成中间件系统中,需要将业务系统产生的数据按照一定的规则,按时、准确、完整地导入EBS中间表,而第一步就是需要将所需的数据从各个数据源中抽取出来,但是如果在抽取过程中添加的查询条件过多,会给数据库服务器造成很大的访问压力。图1描述了现有数据抽取的实现方案,包括业务表110、sqoop120和hdfs(HadoopDistributedFileSystem,分布式文件系统)130。其中sqoop主要用于在hadoop(live)与传统的数据库(mysql,postgresql等)间传递数据。具体工作流程如下:业务系统数据源准备,包括sqlserver、mysql、oracle等关系型数据库;使用sqoop120抽取业务数据,但是所有的查询条件都放到了数据库中去执行,对数据库服务器访问造成了很大压力;将抽取的数据写入hdfs130。上述方案中,数据处理逻辑无法实现配置化;虽然支持数据并发抽取,但是对于降低大数据量的数据库服务器的访问压力还不是很理想。因此,需要一种新的数据抽取方法及系统。在所述
技术介绍
部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
本公开提供一种数据抽取方法及系统,能够实现大数据处理过程中数据逻辑处理的可配置化。本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。根据本公开的一方面,提供一种数据抽取方法,包括:从数据库服务器中按照预先设置的方式 ...
【技术保护点】
一种数据抽取方法,其特征在于,包括:从数据库服务器中按照预先设置的方式抽取当前需要收集的数据源中的数据;从所述数据源中收集预设查询条件;将所述预设查询条件的部分或者全部配置到按照预设规则编写的XML文件中;自动解析所述XML文件,读取被配置的所述预设查询条件;根据所述预设查询条件过滤所述数据源中的数据。
【技术特征摘要】
1.一种数据抽取方法,其特征在于,包括:从数据库服务器中按照预先设置的方式抽取当前需要收集的数据源中的数据;从所述数据源中收集预设查询条件;将所述预设查询条件的部分或者全部配置到按照预设规则编写的XML文件中;自动解析所述XML文件,读取被配置的所述预设查询条件;根据所述预设查询条件过滤所述数据源中的数据。2.根据权利要求1所述的方法,其特征在于,其中所述预先设置的方式为增量抽取方式。3.根据权利要求1所述的方法,其特征在于,其中所述预设查询条件为where查询条件。4.根据权利要求2所述的方法,其特征在于,其中根据所述预设查询条件过滤所述数据源中的数据包括:对所述预设查询条件进行封装,获取CompareFormula对象;执行所述CompareFormula对象,并返回结果。5.根据权利要求2所述的方法,其特征在于,其中从所述数据源中收集预设查询条件包括:初始化期间检索每个数据源,判断是否有定义where查询条件且参数不为空;如果有定义where查询条件且参数不为空,将相应的数据源标签和where查询条件收集。6.根据权利要求4所述的方法,其特征在于,其中对所述预设查询条件进行封装,获取CompareFormula对象包括:利用递归的方法将收集的where查询条件参数的值封装成所述CompareFormula对象。7.根据权利要求6所述的方法,其特征在于,其中所述CompareFormula对象包括:比较的操作符、比较的对象、比较值信息。8.根据权利要求7所述的方法,其特征在于,其中所述CompareFormula对象还包括:自定义函数信息。9.根据权利要求4所述的方法,其特征在于,其中所述执行所述CompareFormula对象,并返回结果包...
【专利技术属性】
技术研发人员:王军涛,张丽,
申请(专利权)人:北京京东尚科信息技术有限公司,北京京东世纪贸易有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。