一种自动化数据流转和数据处理方法、共享文件服务器技术

技术编号:22166568 阅读:35 留言:0更新日期:2019-09-21 10:26
本申请公开了一种自动化数据流转和数据处理方法、共享文件服务器,所述方法包括:将第一业务推送的数据存储到共享目录中;监听所述共享目录中数据的状态变化,确定需要处理的目标数据;根据所述目标数据的种类调用相应的数据处理脚本处理所述目标数据,并将处理结果入库到与所述数据处理脚本对应的数据库。

An Automatic Data Flow and Data Processing Method and Shared File Server

【技术实现步骤摘要】
一种自动化数据流转和数据处理方法、共享文件服务器
本申请涉及大数据处理技术,尤其涉及一种自动化数据流转和数据处理方法、共享文件服务器。
技术介绍
目前,数据源的传输以及处理采用如下方式:业务A生产数据源,该数据源为文本数据。业务A将文本数据推送给业务B和算法业务C,算法业务C处理数据后再推送给业务B。业务B根据业务需求对推送来的数据进行处理,并把处理后的数据入库到数据数据库中用于业务流转。在当今大数据时代业务数据量非常庞大的情况下,使用最小人力和时间投入成为一种挑战。
技术实现思路
为解决上述技术问题,本申请实施例提供了一种自动化数据流转和数据处理方法、共享文件服务器本申请实施例提供的自动化数据流转和数据处理方法,包括:将第一业务推送的数据存储到共享目录中;监听所述共享目录中数据的状态变化,确定需要处理的目标数据;根据所述目标数据的种类调用相应的数据处理脚本处理所述目标数据,并将处理结果入库到与所述数据处理脚本对应的数据库。在一实施方式中,所述方法还包括:在共享文件服务器上创建所述共享目录,在所述共享目录下创建一个或多个数据类型目录,其中,不同的数据类型目录用于存储不同种类的数据;为连接所述共享文件服务器的一个或多个业务创建各自的用户,所述用户对所述共享目录具有读写操作的权限,且不具有删除操作的权限。在一实施方式中,所述将第一业务推送的数据存储到共享目录中,包括:根据数据的传输时间在数据类型目录中创建日期目录;在所述日期目录下接收所述第一业务传输的数据并形成json格式的数据文件,其中,所述数据文件中数据格式为:每一行数据是一个json串,代表一条完整的数据,行与行之间使用<REC>分隔;在所述数据传输的过程中,在所述数据的同级目录下创建传输过程状态的空文件;在所述数据传输完成后,在所述数据的同级目录下创建传输完成状态的空文件。在一实施方式中,所述监听所述共享目录中数据的状态变化,确定需要处理的目标数据,包括:设置自动化目录监听脚本的运行频率,利用所述自动化目录监听脚本监听所述共享目录中数据的增量变化;若所述增量变化对应的数据的同级目录下存在传输完成状态的空文件,则所述增量变化对应的数据为需要处理的目标数据。在一实施方式中,所述根据所述目标数据的种类调用相应的数据处理脚本处理所述目标数据,包括:若所述目标数据的种类为elasticsearch数据,则所述自动化目录监听脚本调用elasticsearch脚本处理所述目标数据;若所述目标数据的种类为MySQL数据,则所述自动化目录监听脚本调用MySQL脚本处理所述目标数据。在一实施方式中,所述方法还包括:将处理结果入库到与所述数据处理脚本对应的数据库后,在所述数据的同级目录下创建处理完成的状态空文件。本申请实施例提供的共享文件服务器,包括:共享目录模块,用于将第一业务推送的数据存储到共享目录中;共享目录监听模块,用于监听所述共享目录中数据的状态变化,确定需要处理的目标数据;根据所述目标数据的种类调用相应的数据处理脚本处理所述目标数据,并将处理结果入库到与所述数据处理脚本对应的数据库。在一实施方式中,所述服务器还包括:创建单元,用于在共享文件服务器上创建所述共享目录,在所述共享目录下创建一个或多个数据类型目录,其中,不同的数据类型目录用于存储不同种类的数据;为连接所述共享文件服务器的一个或多个业务创建各自的用户,所述用户对所述共享目录具有读写操作的权限,且不具有删除操作的权限。在一实施方式中,所述共享目录模块,用于根据数据的传输时间在数据类型目录中创建日期目录;在所述日期目录下接收所述第一业务传输的数据并形成json格式的数据文件,其中,所述数据文件中数据格式为:每一行数据是一个json串,代表一条完整的数据,行与行之间使用<REC>分隔;在所述数据传输的过程中,在所述数据的同级目录下创建传输过程状态的空文件;在所述数据传输完成后,在所述数据的同级目录下创建传输完成状态的空文件。在一实施方式中,所述共享目录监听模块,用于设置自动化目录监听脚本的运行频率,利用所述自动化目录监听脚本监听所述共享目录中数据的增量变化;若所述增量变化对应的数据的同级目录下存在传输完成状态的空文件,则所述增量变化对应的数据为需要处理的目标数据。在一实施方式中,所述共享目录监听模块,用于若所述目标数据的种类为elasticsearch数据,则所述自动化目录监听脚本调用elasticsearch脚本处理所述目标数据;若所述目标数据的种类为MySQL数据,则所述自动化目录监听脚本调用MySQL脚本处理所述目标数据。在一实施方式中,所述共享目录模块,还用于将处理结果入库到与所述数据处理脚本对应的数据库后,在所述数据的同级目录下创建处理完成的状态空文件。本申请实施例的技术方案,在大数据量和高更新频率下实现了统一的数据管理,合理利用空间和时间,降低时间和人工成本,使复杂的数据流转和数据处理自动化和定时化和高效化。附图说明图1为本申请实施例提供的自动化数据流转和数据处理方法的流程示意图;图2为本申请实施例提供的跨业务的自动化数据流转和数据处理结构图;图3为本申请实施例提供的共享文件服务器的结构组成示意图。具体实施方式为便于理解本申请实施例的技术方案,以下对本申请实施例的相关技术进行说明。1)数据源传输:业务A通过文件传输协议(FileTransferProtocol,FTP)服务把数据从业务A服务器上传到业务B服务器上。业务A通过FTP服务把数据从业务A服务器上传到算法业务C服务器上。算法业务C将数据通过FTP服务把数据从算法业务C服务器上传到业务B服务器上。2)业务B进行数据处理和入库:业务B把业务A和算法业务C传输过来的数据,使用大数据组件hadoop进行处理,并通过hadoop-elasticsearch组件把处理后的部分数据入库到elasticsearch检索数据库,通过脚本把部分数据入库到MySQL数据库。上述技术方案存在如下问题:①多业务之间的数据传输,使的数据位置比较分散,不利于统一管理,还造成数据过于冗余,导致服务器空间浪费。②数据传输的状态只能通过人工确认,且完成时间点不确定,导致数据处理和入库不及时,从而影响业务。③由于数据源的更新频率比较高,基本达到一天一次,通过手动的数据传输和数据处理,会占用大量的人工和时间。为解决上述问题,提出了本申请实施例的以下技术方案。为了能够更加详尽地了解本申请的特点与
技术实现思路
,下面结合附图对本申请的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本申请。图1为本申请实施例提供的自动化数据流转和数据处理方法的流程示意图,本申请实施例的方法应用于共享文件服务器,如图1所示,所述自动化数据流转和数据处理方法包括以下步骤:步骤101:将第一业务推送的数据存储到共享目录中。本申请实施例中,在步骤101之前,在共享文件服务器上创建所述共享目录,在所述共享目录下创建一个或多个数据类型目录,其中,不同的数据类型目录用于存储不同种类的数据;为连接所述共享文件服务器的一个或多个业务创建各自的用户,所述用户对所述共享目录具有读写操作的权限,且不具有删除操作的权限。本申请实施例中,所述将第一业务推送的数据存储到共享目录中,可以通本文档来自技高网
...

【技术保护点】
1.一种自动化数据流转和数据处理方法,其特征在于,所述方法包括:将第一业务推送的数据存储到共享目录中;监听所述共享目录中数据的状态变化,确定需要处理的目标数据;根据所述目标数据的种类调用相应的数据处理脚本处理所述目标数据,并将处理结果入库到与所述数据处理脚本对应的数据库。

【技术特征摘要】
1.一种自动化数据流转和数据处理方法,其特征在于,所述方法包括:将第一业务推送的数据存储到共享目录中;监听所述共享目录中数据的状态变化,确定需要处理的目标数据;根据所述目标数据的种类调用相应的数据处理脚本处理所述目标数据,并将处理结果入库到与所述数据处理脚本对应的数据库。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:在共享文件服务器上创建所述共享目录,在所述共享目录下创建一个或多个数据类型目录,其中,不同的数据类型目录用于存储不同种类的数据;为连接所述共享文件服务器的一个或多个业务创建各自的用户,所述用户对所述共享目录具有读写操作的权限,且不具有删除操作的权限。3.根据权利要求1或2所述的方法,其特征在于,所述将第一业务推送的数据存储到共享目录中,包括:根据数据的传输时间在数据类型目录中创建日期目录;在所述日期目录下接收所述第一业务传输的数据并形成json格式的数据文件,其中,所述数据文件中数据格式为:每一行数据是一个json串,代表一条完整的数据,行与行之间使用<REC>分隔;在所述数据传输的过程中,在所述数据的同级目录下创建传输过程状态的空文件;在所述数据传输完成后,在所述数据的同级目录下创建传输完成状态的空文件。4.根据权利要求3所述的方法,其特征在于,所述监听所述共享目录中数据的状态变化,确定需要处理的目标数据,包括:设置自动化目录监听脚本的运行频率,利用所述自动化目录监听脚本监听所述共享目录中数据的增量变化;若所述增量变化对应的数据的同级目录下存在传输完成状态的空文件,则所述增量变化对应的数据为需要处理的目标数据。5.根据权利要求4所述的方法,其特征在于,所述根据所述目标数据的种类调用相应的数据处理脚本处理所述目标数据,包括:若所述目标数据的种类为elasticsearch数据,则所述自动化目录监听脚本调用elasticsearch脚本处理所述目标数...

【专利技术属性】
技术研发人员:窦志成翟佳佳刘长斌李强刘波
申请(专利权)人:北京一览群智数据科技有限责任公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1