The embodiment of the invention discloses a data storage method, a device, a computer device and a storage medium. The method comprises: when detecting the data to be stored, acquiring at least one data processing module defined in the configuration file for processing the data to be stored, and the execution order of the data processing module; calling the at least one data processing module to process the data to be stored in order according to the execution order to obtain the data to be stored and the number to be stored According to the matched data processing results, the data processing module includes at least one format conversion module, which is used to convert the processed data into the target data format matching with the predefined format description file, and combine the data processing results corresponding to the multiple data to be stored to form the target data file for storage Chu. The embodiment of the invention can shorten the processing time of data and improve the processing efficiency of data.
【技术实现步骤摘要】
数据存储方法、装置、计算机设备及存储介质
本专利技术实施例涉及数据处理领域,尤其涉及一种数据存储方法、装置、计算机设备及存储介质。
技术介绍
在互联网普及的大数据时代,通过数据埋点方式采集用户数据是常用的手段,数据埋点是指针对特定用户行为或事件进行捕获、处理和发送的相关技术及其实施过程。具体的,可以通过监听事件,当需要关注的事件发生时进行判断和捕获,然后获取必要的上下文信息,最后将信息整理后进行存储,并发送至服务器端。示例性的,可以采用Flume-ng分布式系统搜集多种来源的数据,并生成存储文件进行存储和传输到服务器端。而现有的数据捕获方法通常会将捕获的数据按照默认数据格式进行存储。若用户需要的是默认数据格式之外的数据格式,只能在数据文件形成之后,通过增加对该数据文件的处理步骤,实现将该数据文件进行格式转换,才能得到以目标数据格式存储数据的数据文件。
技术实现思路
本专利技术实施例提供了一种数据存储方法、装置、计算机设备及存储介质,可以缩短数据的处理时间,提高数据的处理效率。第一方面,本专利技术实施例提供了一种数据存储方法,包括:在检测到待存储数据时,获取配置文件中定义的用于处理所述待存储数据的至少一个数据处理模块,以及所述数据处理模块的执行顺序;按照所述执行顺序,顺序调用所述至少一个数据处理模块对所述待存储数据进行数据处理,得到与所述待存储数据匹配的数据处理结果;其中,所述数据处理模块中包括至少一个格式转换模块,所述格式转换模块用于将所处理的数据转 ...
【技术保护点】
1.一种数据存储方法,其特征在于,包括:/n在检测到待存储数据时,获取配置文件中定义的用于处理所述待存储数据的至少一个数据处理模块,以及所述数据处理模块的执行顺序;/n按照所述执行顺序,顺序调用所述至少一个数据处理模块对所述待存储数据进行数据处理,得到与所述待存储数据匹配的数据处理结果;/n其中,所述数据处理模块中包括至少一个格式转换模块,所述格式转换模块用于将所处理的数据转换为与预先定义的格式描述文件匹配的目标数据格式;/n将与多个所述待存储数据分别对应的数据处理结果进行组合,形成目标数据文件进行存储。/n
【技术特征摘要】
1.一种数据存储方法,其特征在于,包括:
在检测到待存储数据时,获取配置文件中定义的用于处理所述待存储数据的至少一个数据处理模块,以及所述数据处理模块的执行顺序;
按照所述执行顺序,顺序调用所述至少一个数据处理模块对所述待存储数据进行数据处理,得到与所述待存储数据匹配的数据处理结果;
其中,所述数据处理模块中包括至少一个格式转换模块,所述格式转换模块用于将所处理的数据转换为与预先定义的格式描述文件匹配的目标数据格式;
将与多个所述待存储数据分别对应的数据处理结果进行组合,形成目标数据文件进行存储。
2.根据权利要求1所述的方法,其特征在于,在检测到待存储数据时,获取配置文件中定义的用于处理所述待存储数据的至少一个数据处理模块,以及所述数据处理模块的执行顺序之前,还包括:
获取用户上传的至少一个格式描述文件,并通过格式描述文件的存储地址,建立各所述格式转换模块与对应格式描述文件之间的映射关系。
3.根据权利要求1所述的方法,其特征在于,所述按照所述执行顺序,顺序调用所述至少一个数据处理模块对所述待存储数据进行数据处理,得到与所述待存储数据匹配的数据处理结果,包括:
根据所述执行顺序,调用首个数据处理模块对所述待存储数据进行数据处理,并得到所述首个数据处理模块对应的当前数据处理结果,作为后一数据处理模块的待处理数据;
调用后一数据处理模块对前一数据处理模块对应的当前数据处理结果进行数据处理,并得到所述后一数据处理模块对应的当前数据处理结果,直到所述至少一个数据处理模块的数据处理全部完成;
将最后一个数据处理模块对应的当前数据处理结果作为所述待存储数据匹配的数据处理结果。
4.根据权利要求1-3任一项所述的方法,其特征在于:
在所述格式转换模块中,定义由至少一种转换至所述目标数据格式的格式转换方式,一种格式转换方式对应一种源数据格式,所述源数据格式与所述格式转换模块所处理的数据的数据格式相匹配。
5.根据权利要求1所述的方法,其特征在于,所述数据处理模块为Flume-ng中的拦截器,所述目标数据文件的文件格式为Avro格式,所述格式描述文件为Avsc文件。
6.根据权利要求5所述的方法,其特征在于,所述形成目标数据文件进行存储,包括:
将目标数据文件存储在Hadoop的分布式文件系统中。
7.根据权利要求1所述的方法,其特征在于,所述配置文件用于指定所述待存储数据的数据源、待执行的数据处理模块、各所述数据处理模...
【专利技术属性】
技术研发人员:齐义斌,
申请(专利权)人:大众问问北京信息科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。