一种基于用户标签系统的数据处理方法及装置制造方法及图纸

技术编号:13428240 阅读:89 留言:0更新日期:2016-07-29 18:16
本发明专利技术实施例公开了一种用户标签系统及基于用户标签系统的数据推送系统,解决了目前的数据挖掘的方式虽然有多种,但却无法将挖掘出来的数据对外进行精准的推送,导致的数据挖掘效率低下的技术问题。本发明专利技术实施例基于用户标签系统的数据处理方法包括:获取到来自Hive平台的标签数据;对标签数据进行标签运算;将运算处理后的标签数据缓存至Redis集群,使得外部通信端通过对外接口获取到缓存的标签数据。

【技术实现步骤摘要】

本专利技术涉及大数据
,尤其涉及一种基于用户标签系统的数据处理方法及装置
技术介绍
大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。数据挖掘(英语:Datamining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-DiscoveryinDatabases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。目前的数据挖掘的方式有多种,但却无法将挖掘出来的数据对外进行精准的推送,导致了数据挖掘效率低下的技术问题。
技术实现思路
本专利技术实施例提供的一种基于用户标签系统的数据处理方法及装置,解决了目前的数据挖掘的方式虽然有多种,但却无法将挖掘出来的数据对外进行精准的推送,导致的数据挖掘效率低下的技术问题。本专利技术实施例提供的一种基于用户标签系统的数据处理方法,包括:获取到来自Hive平台的标签数据;对所述标签数据进行标签运算;将运算处理后的所述标签数据缓存至Redis集群,使得外部通信端通过对外接口获取到缓存的所述标签数据。优选地,获取到来自Hive平台的标签数据之前还包括:建立标签运算任务表,并进行对应的status字段的定义;按照每隔第一预置时间段对用户基本信息同步表进行扫描,若所述status为待执行或最近一次更新时间非当日,则将所述status更新为查询中,提取预置的所有tag标签表中的所有记录,并将相同所述tag标签表的标签进行一个任务的合并,并写入所述标签运算任务表中,生成对应的待操作的SOL语句。优选地,对所述标签数据进行标签运算具体包括:按照每隔第二预置时间段对所述标签运算任务表进行扫描,若所述status为待执行或标签数据版本标识少于当日,则将所述status更新为查询中;链接所述Hive平台,在所述标签运算任务表中所述SOL语句,并根据预置标签规则,查询出与所述SOL语句对应的结果,将所述结果保存至所述Hive平台中。优选地,链接所述Hive平台,在所述标签运算任务表中所述SOL语句,并根据预置标签规则,查询出与所述SOL语句对应的结果,将所述结果保存至所述Hive平台中之后还包括:建立用于执行用户群任务的用户群数据表,并进行对应的status字段的定义;按照每隔第三预置时间段对所述用户群数据表进行扫描,若所述status为创建中或最近一次更新时间少于当天的记录,则将所述status更新为处理中;判断所述标签数据是否准备完毕,若否,则将所述status设置为标签数据未准备就绪,若存在所述标签数据准备失败,则将所述status设置为标签数据准备失败,若所述标签数据准备完毕,则提取对应的预置用户群条件,进行Solr数据处理。优选地,所述的基于用户标签系统的数据处理方法还包括:建立用户基本信息同步表,并进行对应的status字段的定义;在所述用户基本信息同步表创建两条记录,分别用于标识帐号新同步和设备信息同步;按照每隔第四预置时间段对所述用户基本信息同步表进行扫描,若所述status为标签数据待更新或最近一次更新时间非当日,则将所述status更新为处理中,并从所述Hive平台中导出用户、设备基本信息的数据量,并将用户、设备基本信息缓存至所述Redis集群中。本专利技术实施例提供的一种基于用户标签系统的数据处理装置,包括:获取单元,用于获取到来自Hive平台的标签数据;第一运算单元,用于对所述标签数据进行标签运算;缓存单元,用于将运算处理后的所述标签数据缓存至Redis集群,使得外部通信端通过对外接口获取到缓存的所述标签数据。优选地,所述的基于用户标签系统的数据处理装置还包括:标签运算任务表建立单元,用于建立标签运算任务表,并进行对应的status字段的定义;第一扫描处理单元,用于按照每隔第一预置时间段对用户基本信息同步表进行扫描,若所述status为待执行或最近一次更新时间非当日,则将所述status更新为查询中,提取预置的所有tag标签表中的所有记录,并将相同所述tag标签表的标签进行一个任务的合并,并写入所述标签运算任务表中,生成对应的待操作的SOL语句。优选地,第一运算单元具体包括:第一扫描子单元,用于按照每隔第二预置时间段对所述标签运算任务表进行扫描,若所述status为待执行或标签数据版本标识少于当日,则将所述status更新为查询中;查询子单元,用于链接所述Hive平台,在所述标签运算任务表中所述SOL语句,并根据预置标签规则,查询出与所述SOL语句对应的结果,将所述结果保存至所述Hive平台中。优选地,第一运算单元还包括:建立子单元,建立用于执行用户群任务的用户群数据表,并进行对应的status字段的定义;第二扫描子单元,用于按照每隔第三预置时间段对所述用户群数据表进行扫描,若所述status为创建中或最近一次更新时间少于当天的记录,则将所述status更新为处理中;判断子单元,用于判断所述标签数据是否准备完毕,若否,则将所述status设置为标签数据未准备就绪,若存在所述标签数据准备失败,则将所述status设置为标签数据准备失败,若所述标签数据准备完毕,则提取对应的预置用户群条件,进行Solr数据处理。优选地,所述的基于用户标签系统的数据处理装置还包括:用户基本信息同步表建立单元,用于建立用户基本信息同步表,并进行对应的status字段的定义;创建单元,用于在所述用户基本信息同步表创建两条记录,分别用于标识帐号新同步和设备信息同步;第二扫描处理单元,用于按照每隔第四预置时间段对所述用户基本信息同步表进行扫描,若所述status为标签数据待更新或最近一次更新时间非当日,则将所述status更新为处理中,并从所述Hive平台中导出用户、设备基本信息的数据量,并将用户、设备基本信息缓存至所述Redis集群中。从以上技术方案可以看出,本专利技术实施例具有以下优点:本专利技术实施例提供的一种基于用户标签系统的数据处理方法及装置,其中,基于用户标签系统的数据处理方法包括:获取到来自Hive平台的标签数据;对标签数据进行标签运算;将运算处理后的标签数据缓存至Redis集群,使得外部通信端通过对外接口获取到缓存的标签数据。本实施例中,通过获取到来自Hive平台的标签数据;对标签数据进行标签运算;将运算处理后的标签数据缓存至Redis集群,使得外部通信端通过对外接口获取到缓存的标签数据,解决了目前的数据挖掘的方式虽然有多种,但却无法将挖掘出来的数本文档来自技高网...

【技术保护点】
一种基于用户标签系统的数据处理方法,其特征在于,包括:获取到来自Hive平台的标签数据;对所述标签数据进行标签运算;将运算处理后的所述标签数据缓存至Redis集群,使得外部通信端通过对外接口获取到缓存的所述标签数据。

【技术特征摘要】
1.一种基于用户标签系统的数据处理方法,其特征在于,包括:
获取到来自Hive平台的标签数据;
对所述标签数据进行标签运算;
将运算处理后的所述标签数据缓存至Redis集群,使得外部通信端通过对
外接口获取到缓存的所述标签数据。
2.根据权利要求1所述的基于用户标签系统的数据处理方法,其特征在
于,获取到来自Hive平台的标签数据之前还包括:
建立标签运算任务表,并进行对应的status字段的定义;
按照每隔第一预置时间段对用户基本信息同步表进行扫描,若所述status
为待执行或最近一次更新时间非当日,则将所述status更新为查询中,提取预
置的所有tag标签表中的所有记录,并将相同所述tag标签表的标签进行一个
任务的合并,并写入所述标签运算任务表中,生成对应的待操作的SOL语句。
3.根据权利要求2所述的基于用户标签系统的数据处理方法,其特征在
于,对所述标签数据进行标签运算具体包括:
按照每隔第二预置时间段对所述标签运算任务表进行扫描,若所述status
为待执行或标签数据版本标识少于当日,则将所述status更新为查询中;
链接所述Hive平台,在所述标签运算任务表中所述SOL语句,并根据预
置标签规则,查询出与所述SOL语句对应的结果,将所述结果保存至所述Hive
平台中。
4.根据权利要求3所述的基于用户标签系统的数据处理方法,其特征在
于,链接所述Hive平台,在所述标签运算任务表中所述SOL语句,并根据预
置标签规则,查询出与所述SOL语句对应的结果,将所述结果保存至所述Hive
平台中之后还包括:
建立用于执行用户群任务的用户群数据表,并进行对应的status字段的定
义;
按照每隔第三预置时间段对所述用户群数据表进行扫描,若所述status
为创建中或最近一次更新时间少于当天的记录,则将所述status更新为处理
中;
判断所述标签数据是否准备完毕,若否,则将所述status设置为标签数据

\t未准备就绪,若存在所述标签数据准备失败,则将所述status设置为标签数据
准备失败,若所述标签数据准备完毕,则提取对应的预置用户群条件,进行
Solr数据处理。
5.根据权利要求1至4中任意一项所述的基于用户标签系统的数据处理
方法,其特征在于,所述的基于用户标签系统的数据处理方法还包括:
建立用户基本信息同步表,并进行对应的status字段的定义;
在所述用户基本信息同步表创建两条记录,分别用于标识帐号新同步和
设备信息同步;
按照每隔第四预置时间段对所述用户基本信息同步表进行扫描,若所述
status为标签数据待更新或最近一次更新时间非当日,则将所述status更新为
处理中,并从所述Hive平台中导出用户、设备基本信息的数据量,并将用户、
设备基本信息缓存至所述Redis集群中。
6.一种基于用户标签系统的数据处理装置,其特征在于,包括...

【专利技术属性】
技术研发人员:黄永标申志刚林海棠钟威文斌郭泽波
申请(专利权)人:广州品唯软件有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1