基于大数据平台进行数据处理的系统及方法技术方案

技术编号:19544399 阅读:24 留言:0更新日期:2018-11-24 20:43
本发明专利技术公开了一种基于大数据平台进行数据处理的系统,包括:用于输入各类数据的数据输入单元;根据数据输入用户的不同,对输入的各类数据分别标记对应用户ID的用户ID标记单元;将各类数据进行分类并按分类分别创建标签,同时通过用户ID将相同用户的各标签数据关联拉通的大数据平台;通过用户标签画像查询其对应的标签数据的用户标签查询单元。本发明专利技术即使在数据量相当大的情况下,也能通过关联大大提高数据处理的效率,减少数据处理时间。并且,通过有效合理的分类标签,使得数据之间的层次关联清晰有序,同时提供利用标签画像和组合标签进行快速查询的功能,简便快捷,有效提高了用户的体验,大大加强了应用价值。

System and Method of Data Processing Based on Big Data Platform

The invention discloses a data processing system based on a large data platform, which includes: a data input unit for inputting various types of data; a user ID tagging unit for each type of input data corresponding to the user ID according to the different data input users; a user ID tagging unit for classifying various types of data and creating tags according to classification respectively. At the same time, the same user's label data is linked to the pull-through big data platform by user ID, and the corresponding label data is queried by user label portrait. The present invention can greatly improve the efficiency of data processing and reduce the time of data processing even when the amount of data is considerable. Moreover, through effective and reasonable classification labels, the hierarchical association between data is clear and orderly, and the function of fast query using label portraits and combination labels is provided, which is simple and fast, effectively improves the user's experience, and greatly strengthens the application value.

【技术实现步骤摘要】
基于大数据平台进行数据处理的系统及方法
本专利技术涉及大数据处理

技术介绍
目前,数据处理往往都是基于关系型数据库,大数据量的处理需要较长的时间和较多的金钱,超过一定数据量(例如TB级数据链)甚至无法处理,扩展性较弱。大数据(bigdata)指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。随着云时代的来临,大数据也吸引了越来越多的关注。因此,如何有效利用大数据技术对上述的数据进行处理,是本领域技术人员需要解决的技术问题。
技术实现思路
本专利技术的目的在于一种基于大数据平台进行数据处理的系统和方法,支持TB级的数据量处理,有效缩短处理时间。实现上述目的的技术方案是:本专利技术之一的基于大数据平台进行数据处理的系统,包括:用于输入各类数据的数据输入单元;根据数据输入用户的不同,对输入的各类数据分别标记对应用户ID的用户ID标记单元;将各类数据进行分类并按分类分别创建标签,同时通过用户ID将相同用户的各标签数据关联拉通的大数据平台;以及通过用户标签画像查询其对应的标签数据的用户标签查询单元。在上述的基于大数据平台进行数据处理的系统中,每个用户标签画像专属于一个用户,为用户ID或者特征标签。在上述的基于大数据平台进行数据处理的系统中,所述的用户ID为身份证号码,所述的特征标签为手机号码。在上述的基于大数据平台进行数据处理的系统中,还包括:通过输入标签组合查询符合条件的所有用户的标签数据的组合标签用户群查询单元。在上述的基于大数据平台进行数据处理的系统中,所述大数据平台包括:将标记了用户ID的各类数据进行存储的一级数据存储单元;将存储于所述一级数据存储单元的各类数据进行分类的数据分类单元;将分类后的各类数据分别按所属类别分别创建相应标签以形成标签数据,并存储于所述一级数据存储单元的标签标记单元;通过用户ID将存储于所述一级数据存储单元的相同用户的各标签数据关联拉通的关联单元;以及用于存储关联后的各标签数据的二级数据存储单元。在上述的基于大数据平台进行数据处理的系统中,所述大数据平台还包括:连接所述标签标记单元,用于设定各类标签的标签设定单元。本专利技术之二的一种基于大数据平台进行数据处理的方法,包括:将需要处理的数据上传到大数据平台;利用大数据平台针对各用户数据分别创建标签;利用大数据平台将相同用户创建的标签数据进行关联拉通;将关联拉通后的各类标签数据存储;通过用户标签画像查询对应的标签数据。在上述的基于大数据平台进行数据处理的方法中,还包括:将关联拉通后的各类标签数据保存入搜索库,供组合标签用户群查询。在上述的基于大数据平台进行数据处理的方法中,每个用户标签画像专属于一个用户,为用户ID或者特征标签。在上述的基于大数据平台进行数据处理的方法中,所述的用户ID为身份证号码,所述的特征标签为手机号码。本专利技术的有益效果是:本专利技术利用大数据平台对用户创建标签,对标签数据进行关联拉通,实现用户标签快速查询以及组合标签用户群查询。大大减少了数据处理时间,并且能够支持TB级的数据量处理。附图说明图1是本专利技术的基于大数据平台进行数据处理的系统的结构图;图2是本专利技术的基于大数据平台进行数据处理的方法的流程图。具体实施方式下面将结合附图对本专利技术作进一步说明。请参阅图1,本专利技术的基于大数据平台进行数据处理的系统,包括数据输入单元1、用户ID标记单元2、大数据平台3、用户标签查询单元4和组合标签用户群查询单元5。数据输入单元1用于输入各类数据。用户ID标记单元2在数据输入单元1输入数据的过程中,根据数据输入用户的不同,对输入的各类数据分别标记对应用户ID。大数据平台3将各类数据进行分类并按分类分别创建标签,同时通过用户ID将相同用户的各标签数据关联拉通。具体地,大数据平台3包括:一级数据存储单元31、数据分类单元32、标签标记单元33、关联单元34、二级数据存储单元35和标签设定单元36。其中,一级数据存储单元31连接用户ID标记单元2,用于存储标记了用户ID的各类数据。数据分类单元32连接一级数据存储单元31,将存储于一级数据存储单元31的各类数据进行分类。标签标记单元33连接一级数据存储单元31和数据分类单元32,按分类的不同分别创建相应标签以形成标签数据,然后存储于一级数据存储单元31中。标签设定单元36连接标签标记单元33,用于设定各类标签。关联单元34连接用户ID标记单元2和一级数据存储单元31,通过用户ID将存储于一级数据存储单元31的相同用户的各标签数据关联拉通,然后存储于二级数据存储单元35中。其中,可以举例说明标签:用户张三身上有的标签包括:20-25岁、身高170-180cm、重点关注人员等。用户标签查询单元4通过用户标签画像查询其对应的标签数据。每个用户标签画像专属于一个用户,为用户ID或者特征标签。例如:用户ID为身份证号码,特征标签为手机号码,均专属于一个用户。根据张三的身份证号查询出张三身上的标签有:20-25岁、身高170-180cm、重点关注人员等。组合标签用户群查询单元5通过输入标签组合查询符合条件的所有用户的标签数据。例如:根据【20-25岁】且【身高170-180cm】的条件查询出满足条件的人员有张三、李四等人。所以,能有效的对数据进行处理,即使数据量相当大的情况下,也能通过划分关联大大提高数据处理的效率。请参阅图2,本专利技术的基于大数据平台进行数据处理的方法,包括下列步骤:步骤S1,将需要处理的数据上传到大数据平台。步骤S2,利用大数据平台针对各用户数据分别创建标签。即:根据用户给定的条件对人员数据进行筛选,对符合条件的人员打上对应的标签。步骤S3,利用大数据平台将相同用户创建的标签数据进行关联拉通。初始的标签都是一个个单独的,通过人员唯一id对人员包含所有标签进行关联(如身份证号),最终使当前人所有的标签记录合成到一条记录中。步骤S4,将关联拉通后的各类标签数据存储。步骤S5,通过用户标签画像查询对应的标签数据。用户标签画像查询是指根据身份证号、手机号码等关键词查询出对应人员的所有标签标识,如:根据张三的身份证号查询出张三身上的标签有:20-25岁、身高170-180cm、重点关注人员等。步骤S6,将关联拉通后的各类标签数据保存入搜索库,供组合标签用户群查询。组合标签用户群查询是指通过对系统标签进行管理组合查询出符合条件的所有用户,如:根据【20-25岁】且【身高170-180cm】的条件查询出满足条件的人员有张三、李四等人。综上,能够大大减少了数据处理时间,并且能够支持TB级的数据量处理。以上实施例仅供说明本专利技术之用,而非对本专利技术的限制,有关
的技术人员,在不脱离本专利技术的精神和范围的情况下,还可以作出各种变换或变型,因此所有等同的技术方案也应该属于本专利技术的范畴,应由各权利要求所限定。本文档来自技高网
...

【技术保护点】
1.一种基于大数据平台进行数据处理的系统,其特征在于,包括:用于输入各类数据的数据输入单元;根据数据输入用户的不同,对输入的各类数据分别标记对应用户ID的用户ID标记单元;将各类数据进行分类并按分类分别创建标签,同时通过用户ID将相同用户的各标签数据关联拉通的大数据平台;以及通过用户标签画像查询其对应的标签数据的用户标签查询单元。

【技术特征摘要】
1.一种基于大数据平台进行数据处理的系统,其特征在于,包括:用于输入各类数据的数据输入单元;根据数据输入用户的不同,对输入的各类数据分别标记对应用户ID的用户ID标记单元;将各类数据进行分类并按分类分别创建标签,同时通过用户ID将相同用户的各标签数据关联拉通的大数据平台;以及通过用户标签画像查询其对应的标签数据的用户标签查询单元。2.根据权利要求1所述的基于大数据平台进行数据处理的系统,其特征在于,每个用户标签画像专属于一个用户,为用户ID或者特征标签。3.根据权利要求2所述的基于大数据平台进行数据处理的系统,其特征在于,所述的用户ID为身份证号码,所述的特征标签为手机号码。4.根据权利要求1所述的基于大数据平台进行数据处理的系统,其特征在于,还包括:通过输入标签组合查询符合条件的所有用户的标签数据的组合标签用户群查询单元。5.根据权利要求1或4所述的基于大数据平台进行数据处理的系统,其特征在于,所述大数据平台包括:将标记了用户ID的各类数据进行存储的一级数据存储单元;将存储于所述一级数据存储单元的各类数据进行分类的数据分类单元;将分类后的各类数据分别按所属类别分别创建相应...

【专利技术属性】
技术研发人员:何中刘剑波何登戴建峰严伟巢振军姚童陈明敏
申请(专利权)人:江苏中威科技软件系统有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1