标签更新方法、装置、集群及存储介质制造方法及图纸

技术编号:24798847 阅读:24 留言:0更新日期:2020-07-07 20:56
本发明专利技术公开了一种标签更新方法、装置、集群及存储介质。标签更新方法,包括:接收服务器发送的第一打标规则;读取待处理数据和对应的第二标签,所述第二标签为所述待处理数据基于第二打标规则定义的第二标签;根据所述第一打标规则对所述待处理数据进行打标,以获得所述待处理数据基于所述第一打标规则定义的第一标签;合并所述待处理数据对应的所述第一标签和所述第二标签以获得目标标签。解决了标签更新的问题,达到了根据用户定义打标规则进行标签更新,避免了每次标签更新都需要针对标签更新规则改动标签更新程序,降低标签更新的程序开发和维护成本的效果。

【技术实现步骤摘要】
标签更新方法、装置、集群及存储介质
本专利技术实施例涉及基于标签更新技术,尤其涉及一种标签更新方法、装置、集群及存储介质。
技术介绍
在大数据时代,要迅速从海量的数据中挖掘出数据的价值是一件很有挑战的事情,越来越多的企业会通过离线处理的方式对数据进行处理,通过数据特征以及对数据聚合统计等方式打上各种各样的标签,从而方便算法模型去支撑上层应用实现精准营销等功能。现有的打标签通常通过编写MapReduce程序对数据进行处理以输出结果文件,新标签打标过程需要改动标签计算程序来适应新标签的打标处理,开发维护成本较大。
技术实现思路
本专利技术提供一种标签更新方法、装置、集群及存储介质,以实现每次标签更新都需要针对标签更新规则改动标签更新程序,降低标签更新的程序开发和维护成本。第一方面,本专利技术实施例提供了一种标签更新方法,包括:接收服务器发送的第一打标规则;读取待处理数据和对应的第二标签,所述第二标签为所述待处理数据基于第二打标规则定义的第二标签;根据所述第一打标规则对所述待处理数据进行打标,以获得所述待处理数据基于所述第一打标规则定义的第一标签;合并所述待处理数据对应的所述第一标签和所述第二标签以获得目标标签。可选的,所述合并所述待处理数据对应的所述第一标签和所述第二标签以获得目标标签还包括:比较待处理数据对应的第一标签和第二标签以获得所述第一标签的第一差异标签和第二标签的第二差异标签,所述第一差异标签与所述第二差异标签完全不同;将第一差异标签写入第二标签中并删除所述第二标签中的所述第二差异标签以获得目标标签。可选的,所述接收服务器发送的目标打标规则之前,还包括:接收所述服务器通过发送的标签计算程序;根据所述标签计算程序进行配置。可选的,所述接收所述服务器通过发送的标签计算程序还包括:接收所述服务器通过LivySession发送的标签计算程序。可选的,所述根据所述标签计算程序进行配置包括:根据所述标签计算程序启用Sparkjob;维护所述Sparkjob的SparkSession;所述接收服务器发送的第一打标规则还包括:通过所述SparkSession接收所述服务器发送的所述第一打标规则。可选的,所述获取待处理数据和对应的第二标签还包括:通过SparkSql从Hive中读取所述待处理数据和对应的第二标签。可选的,所述服务器为Livy服务器。第二方面,本专利技术实施例还提供了一种标签更新装置,包括:接收模块,用于接收服务器发送的第一打标规则;读取模块,用于读取待处理数据和对应的第二标签,所述第二标签为所述待处理数据基于第二打标规则定义的第二标签;打标模块,用于根据所述第一打标规则对所述待处理数据进行打标,以获得所述待处理数据基于所述第一打标规则定义的第一标签;更新模块,合并所述待处理数据对应的所述第一标签和所述第二标签以获得目标标签。第三方面,本专利技术实施例还提供了一种集群,所述集群包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一所述的标签更新方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一所述的标签更新方法。本专利技术通过读取待处理数据和对应的第二标签,根据所述第一打标规则对所述待处理数据进行打标,以获得所述待处理数据基于所述第一打标规则定义的第一标签;合并所述待处理数据对应的所述第一标签和所述第二标签以获得目标标签,解决了标签更新的问题,达到了根据用户定义打标规则进行标签更新,避免了每次标签更新都需要针对标签更新规则改动标签更新程序,降低标签更新的程序开发和维护成本的效果。附图说明下面将通过参照附图详细描述本专利技术的示例性实施例,使本领域的普通技术人员更清楚本专利技术实施例的上述及其他特征和优点,附图中:图1是本专利技术实施例一中的标签更新方法的流程图;图2是本专利技术实施例一中的标签更新方法的流程图;图3是本专利技术实施例一中的第一标签与第二标签合并以获得目标标签的示意图;图4是本专利技术实施例二中的标签更新方法的流程图;图5是本专利技术实施例二中的标签更新方法的流程图;图6是本专利技术实施例三中的标签更新装置的示意图;图7是本专利技术实施例三中的标签更新装置的示意图;图8是本专利技术实施例四中的集群的示意图。具体实施方式下面结合附图并通过具体实施方式来进一步说明本专利技术的技术方案。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对专利技术的限定。另外还需要说明的是,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本专利技术。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。此外,术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等,但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说,在不脱离本专利技术的范围的情况下,可以将第二标签集为第二标签集,且类似地,可将第二标签集称为第二标签集。第二标签集和第二标签集两者都是标签集,但其不是同一标签集。术语“第一”、“第二”等而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本专利技术的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。实施例一图1为本专利技术实施例一提供的标签更新方法的流程图,该方法可以由集群来执行,具体包括如下步骤:步骤110、接收服务器发送的第一打标规则。本实施例中,第一打标规则为用户通过客户端向服务器提供的打标规则,服务器接收到第一打标规则后,将第一打标规则发送给集群。具体的,打标规则为对数据添加标签的规则;示例性的,若打标规则为对人群消费记录的打标规则,打标规则可以为将日均消费本文档来自技高网
...

【技术保护点】
1.一种标签更新方法,其特征在于,包括:/n接收服务器发送的第一打标规则;/n读取待处理数据和对应的第二标签,所述第二标签为所述待处理数据基于第二打标规则定义的第二标签;/n根据所述第一打标规则对所述待处理数据进行打标,以获得所述待处理数据基于所述第一打标规则定义的第一标签;/n合并所述待处理数据对应的所述第一标签和所述第二标签以获得目标标签。/n

【技术特征摘要】
1.一种标签更新方法,其特征在于,包括:
接收服务器发送的第一打标规则;
读取待处理数据和对应的第二标签,所述第二标签为所述待处理数据基于第二打标规则定义的第二标签;
根据所述第一打标规则对所述待处理数据进行打标,以获得所述待处理数据基于所述第一打标规则定义的第一标签;
合并所述待处理数据对应的所述第一标签和所述第二标签以获得目标标签。


2.根据权利要求1所述的标签更新方法,其特征在于,所述合并所述待处理数据对应的所述第一标签和所述第二标签以获得目标标签还包括:
比较待处理数据对应的所述第一标签和所述第二标签以获得所述第一标签的第一差异标签和所述第二标签的第二差异标签,所述第一差异标签与所述第二差异标签完全不同;
将所述第一差异标签写入所述第二标签中并删除所述第二标签中的所述第二差异标签以获得所述目标标签。


3.根据权利要求1所述的标签更新方法,其特征在于,所述接收服务器发送的目标打标规则之前,还包括:
接收所述服务器发送的标签计算程序;
根据所述标签计算程序进行配置。


4.根据权利要求3所述的标签更新方法,其特征在于,所述接收所述服务器通过发送的标签计算程序还包括:
接收所述服务器通过LivySession发送的标签计算程序。


5.根据权利要求3所述的标签更新方法,其特征在于,所述根据所述标签计算程序进行配置包括:
根据所述标签计算程序启用Sparkjob;

【专利技术属性】
技术研发人员:李科
申请(专利权)人:深圳市前海随手数据服务有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1