数据处理方法及装置制造方法及图纸

技术编号:21476810 阅读:33 留言:0更新日期:2019-06-29 04:36
本发明专利技术实施例提供一种数据处理方法及装置。所述方法应用于计算引擎Spark,所述方法包括:监测获知所述Spark应用的默认分隔符无法对待处理数据进行分割,获取所述Spark的预设分隔符库;遍历所述预设分隔符库中的分隔符,获取所述分隔符中与所述待处理数据相匹配的目标分隔符;其中,所述目标分隔符为将所述待处理数据中的部分数据分割成功且满足预设校验规则的分隔符;将所述目标分隔符设置为所述Spark的默认分隔符。本发明专利技术实施例解决了现有技术中,每个Spark版本通常具有预设的默认的分隔符,无法对非默认分隔符的数据进行处理的问题。

【技术实现步骤摘要】
数据处理方法及装置
本专利技术实施例涉及数据处理
,尤其涉及一种数据处理方法及装置。
技术介绍
计算引擎(Spark)是在大规模数据处理领域通用的计算引擎。Spark是一种开源的类,可适用于数据挖掘与机器学习等需要迭代的算法中,除了能够提供交互式查询外,还可以优化迭代工作负载。然而,现有技术中,每个Spark版本通常具有预设的默认的分隔符,无法对非默认分隔符的数据进行处理。比如Spark版本为Cdh5.5.0时,此版本的Spark只能识别默认的分隔符。若待处理的数据中所使用的分隔符不为Spark的默认分隔符时,Spark无法正确识别和处理该数据,从而无法对数据进行处理。
技术实现思路
本专利技术实施例提供一种数据处理方法及装置,用以解决现有技术中,每个Spark版本通常具有预设的默认的分隔符,无法对非默认分隔符的数据进行处理的问题。一方面,本专利技术实施例提供一种数据处理方法,所述方法应用于计算引擎Spark,所述方法包括:监测获知所述Spark应用的默认分隔符无法对待处理数据进行分割,获取所述Spark的预设分隔符库;遍历所述预设分隔符库中的分隔符,获取所述分隔符中与所述待处理数据相匹配的目标分隔符;其中,所述目标分隔符为将所述待处理数据中的部分数据分割成功且满足预设校验规则的分隔符;将所述目标分隔符设置为所述Spark的默认分隔符。一方面,本专利技术实施例提供一种数据处理装置,应用于计算引擎Spark,所述装置包括:监测模块,用于监测获知所述Spark应用的默认分隔符无法对待处理数据进行分割,获取所述Spark的预设分隔符库;遍历模块,用于遍历所述预设分隔符库中的分隔符,获取所述分隔符中与所述待处理数据相匹配的目标分隔符;其中,所述目标分隔符为将所述待处理数据中的部分数据分割成功且满足预设校验规则的分隔符;设置模块,用于将所述目标分隔符设置为所述Spark的默认分隔符。另一方面,本专利技术实施例还提供了一种电子设备,包括存储器、处理器、总线以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述数据处理方法中的步骤。再一方面,本专利技术实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述数据处理方法中的步骤。本专利技术实施例提供的数据处理方法及装置,监测获知所述Spark应用的默认分隔符无法对待处理数据进行分割,获取所述Spark的预设分隔符库;遍历所述预设分隔符库中的分隔符,获取所述分隔符中与所述待处理数据相匹配的目标分隔符,即待处理数据中实际使用的分隔符;将所述目标分隔符设置为所述Spark的默认分隔符,使得Spark可对该待处理数据进行识别及处理,提升Spark的通用程度以及数据处理效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术一实施例提供的数据处理方法的流程示意图;图2为本专利技术又一实施例提供的数据处理方法的流程示意图;图3为本专利技术实施例的示例的流程示意图;图4为本专利技术实施例提供的数据处理装置的结构示意图;图5为本专利技术实施例提供的服务器的结构示意图。具体实施方式为使本专利技术要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。在下面的描述中,提供诸如具体的配置和组件的特定细节仅仅是为了帮助全面理解本专利技术的实施例。因此,本领域技术人员应该清楚,可以对这里描述的实施例进行各种改变和修改而不脱离本专利技术的范围和精神。另外,为了清楚和简洁,省略了对已知功能和构造的描述。应理解,说明书通篇中提到的“实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本专利技术的至少一个实施例中。因此,在整个说明书各处出现的“实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。在本专利技术的各种实施例中,应理解,下述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本专利技术实施例的实施过程构成任何限定。在本申请所提供的实施例中,应理解,“与A相应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。图1示出了本专利技术一实施例提供的一种数据处理方法的流程示意图。如图1所示,本专利技术实施例提供的数据处理方法,应用于计算引擎Spark,所述方法具体包括以下步骤:步骤101,监测获知所述Spark应用的默认分隔符无法对待处理数据进行分割,获取所述Spark的预设分隔符库。其中,待处理数据可以日志数据或其他数据。一方面分隔符用于在对待处理数据识别或读取的同时,会对数据进行分割;另一方面,分隔符用于标识文本分隔的位置,或用其标识新行或新列的起始位置。在Spark识别待处理数据时,利用分隔符对待处理数据进行分割,而由于每个Spark版本通常具有预设的默认分隔符,若其默认分隔符与待处理数据中携带的分隔符不一致,此时Spark将无法对待处理数据进行分割,进而无法进行数据识别及处理。因此,若监测到Spark利用其默认分隔符无法对待处理数据进行分割的情况,比如,上述情况可以是Spark所读取的待处理数据中为连续的、不存在分割的数据的情况,获取所述Spark的预设分隔符库,调用预设分隔符库中的分隔符对所述待处理数据进行分割。步骤102,遍历所述预设分隔符库中的分隔符,获取所述分隔符中与所述待处理数据相匹配的目标分隔符;其中,所述目标分隔符为将所述待处理数据中的部分数据分割成功且满足预设校验规则的分隔符。其中,循环遍历预设分隔符库中的分隔符,至获取到目标分隔符,目标分隔符即待处理数据中实际使用的分隔符。具体地,对于预设分隔符库中的每个分隔符,利用该分隔符分割待处理数据中的部分数据,若该分隔符将该部分数据分割成功,则继续选择待处理数据中的其他数据对该分隔符进行校验;直至满足预设校验规则之后,确定该分隔符为目标分隔符。可选地,预设校验规则中可以是对校验次数的限定,比如包括最低校验次数阈值,最低校验阈值可采用深度学习的方式获得。步骤103,将所述目标分隔符设置为所述Spark的默认分隔符。其中,确定目标分隔符之后,将所述目标分隔符设置为所述Spark的默认分隔符,比如将该目标分隔符添加到Spark的默认分隔符库中,所述默认分隔符库包括所述Spark的默认分隔符,使得Spark当前可对对该待处理数据进行识别及处理,以及当所述Spark后续再次遇到包含目标分隔符的待处理数据时,可对待处理数据进行处理。本专利技术上述实施例中,监测获知所述Spark应用的默认分隔符无法对待处理数据进行分割,获取所述Spark的预设分隔符库;遍历所述预设分隔符库中的分隔符,获取所述分隔符中与所述待处理数据相匹配的目标分隔符,即待处理数据中实际使用的分隔符;将所述目标分隔符设置为所述Spark的默认分隔符,使得Spark可对该待处理数据进行识别及处理,提升Spark的通用程度以及本文档来自技高网...

【技术保护点】
1.一种数据处理方法,应用于计算引擎Spark,其特征在于,所述方法包括:监测获知所述Spark应用的默认分隔符无法对待处理数据进行分割,获取所述Spark的预设分隔符库;遍历所述预设分隔符库中的分隔符,获取所述分隔符中与所述待处理数据相匹配的目标分隔符;其中,所述目标分隔符为将所述待处理数据中的部分数据分割成功且满足预设校验规则的分隔符;将所述目标分隔符设置为所述Spark的默认分隔符。

【技术特征摘要】
1.一种数据处理方法,应用于计算引擎Spark,其特征在于,所述方法包括:监测获知所述Spark应用的默认分隔符无法对待处理数据进行分割,获取所述Spark的预设分隔符库;遍历所述预设分隔符库中的分隔符,获取所述分隔符中与所述待处理数据相匹配的目标分隔符;其中,所述目标分隔符为将所述待处理数据中的部分数据分割成功且满足预设校验规则的分隔符;将所述目标分隔符设置为所述Spark的默认分隔符。2.根据权利要求1所述的方法,其特征在于,所述遍历所述预设分隔符库中的分隔符,获取所述分隔符中与所述待处理数据相匹配的目标分隔符的步骤,包括:针对所述预设分隔符库中的每个分隔符,对所述待处理数据中满足预设字符串长度要求的多组目标数据依次进行分割,并获得连续分割成功的累计次数;其中,若一组目标数据被成功分割则对所述累计次数进行加一处理;若所述累计次数满足预设校验规则,则将所述分隔符确定为与所述待处理数据相匹配的目标分隔符。3.根据权利要求2所述的方法,其特征在于,所述对所述待处理数据中满足预设字符串长度要求的多组目标数据依次进行分割的步骤,包括:针对每组目标数据,获取所述目标数据的预设属性数值;利用所述分隔符对所述目标数据进行分割,若分割后的字段数目与所述预设属性数值相同,则分割成功。4.根据权利要求2所述的方法,其特征在于,所述对所述待处理数据中满足预设字符串长度要求的多组目标数据依次进行分割的步骤,包括:从所述待处理数据中,随机抽取的满足预设字符串长度要求的数据作为当前组目标数据,利用所述分隔符对所述当前组目标数据进行分割;若对当前组目标数据分割成功,则再次从所述待处理数据的非当前组目标数据中,随机抽取的满足预...

【专利技术属性】
技术研发人员:吴庆双
申请(专利权)人:咪咕文化科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1