一种数据处理方法、系统、存储介质及电子设备技术方案

技术编号:36650378 阅读:15 留言:0更新日期:2023-02-18 13:12
本发明专利技术公开了一种数据处理方法、系统、存储介质及电子设备,对获取到的原始数据进行转换,得到内置标签数据,原始数据由数据仓库中的表构成,内置标签数据由原始数据转换成包含用户属性的表构成,采用类MapReduce模型的计算框架对内置标签数据和外置标签数据进行标签位图构建与计算,得到人群位图。通过上述方案,读取外置标签数据,即外部异构数据源后,通过扩展类MapReduce模型的计算框架使其支持位图构建与计算,通过SQL语言与扩展后的类MapReduce模型的计算框架进行整合,使位图构建与计算的过程中可通过SQL语言调用,使得外部异构数据源参与到人群位图构建的过程中,降低生成人群位图方式的局限性。低生成人群位图方式的局限性。低生成人群位图方式的局限性。

【技术实现步骤摘要】
一种数据处理方法、系统、存储介质及电子设备


[0001]本专利技术涉及位图处理
,更具体地说,涉及一种数据处理方法、系统、存储介质及电子设备。

技术介绍

[0002]人群位图的构建通常用于在用户画像系统中。在用户画像系统中,用户通过不同标签之间的组合(如性别,民族等)生成一个筛选条件,并根据该筛选条件获取数据库中符合该条件的用户集合。
[0003]目前,用户画像系统的标签生成主要由大数据平台完成,而人群生成则是由支持位图计算的外部数据库完成。由于标签系统有大量的业务方(使用方)的自定义标签,自定义标签不同于系统内部的标签只存在于大数据平台中,自定义标签是根据业务方使用的技术不同散落在业务方的存储中,如MongoDB、HBase、MySQL等数据库,或者是业务方的大数据平台。而上述这些数据库很难与位图计算的外部异构数据库进行直接的交互。
[0004]自定义的标签很难融入到上述的数据流中参与人群位图计算,使得自定义的标签很难与用户画像系统的内置标签进行组合筛选,只能通过内置标签生成人群位图,从而限制了生成人群位图的方式。
[0005]因此,现有生成人群位图方式的局限性高。

技术实现思路

[0006]有鉴于此,本专利技术公开了一种数据处理方法、系统、存储介质及电子设备,实现降低生成人群位图方式的局限性的目的。
[0007]为了实现上述目的,其公开的技术方案如下:
[0008]本专利技术第一方面公开了一种数据处理方法,所述方法包括:
[0009]对获取到的原始数据进行转换,得到内置标签数据,所述原始数据由数据仓库中的表构成,所述内置标签数据由所述原始数据转换成包含用户属性的表构成;
[0010]采用类MapReduce模型的计算框架,对所述内置标签数据和获取到的用户自定义的外置标签数据进行标签位图处理操作,得到人群位图。优选通过预设的SQL语言和预设的类MapReduce模型的计算框架进行上述操作。
[0011]优选的,所述对获取到的原始数据进行转换,得到内置标签数据,包括:
[0012]通过预设转换脚本,对获取到的原始数据进行转换,得到内置标签数据。
[0013]优选的,获取用户自定义的外置标签数据的过程,包括:
[0014]通过预设计算框架,获取用户自定义的外置标签数据。
[0015]优选的,采用类MapReduce模型的计算框架,对所述内置标签数据和获取到的用户自定义的外置标签数据进行标签位图处理操作,得到人群位图,包括:
[0016]对类MapReduce模型的计算框架创建第一类扩展和第二类扩展;
[0017]通过预设的SQL语言和所述第一类扩展,对所述内置标签数据和获取到的用户自
定义的外置标签数据进行位图构建,得到待处理位图;
[0018]通过预设的SQL语言和所述第二类扩展,对所述待处理位图进行位运算,得到人群位图。
[0019]本专利技术第二方面公开了一种数据处理系统,所述系统包括:
[0020]转换单元,用于对获取到的原始数据进行转换,得到内置标签数据,所述原始数据由数据仓库中的表构成,所述内置标签数据由所述原始数据转换成包含用户属性的表构成;
[0021]处理单元,用于采用类MapReduce模型的计算框架,对所述内置标签数据和获取到的用户自定义的外置标签数据进行标签位图处理操作,得到人群位图。
[0022]优选的,所述转换单元,具体用于:
[0023]通过预设转换脚本,对获取到的原始数据进行转换,得到内置标签数据。
[0024]优选的,所述获取用户自定义的外置标签数据的过程的所述处理单元,具体用于:
[0025]通过预设计算框架,获取用户自定义的外置标签数据。
[0026]优选的,所述处理单元,包括:
[0027]创建模块,用于对类MapReduce模型的计算框架创建第一类扩展和第二类扩展;
[0028]构建模块,用于通过预设的SQL语言和所述第一类扩展,对所述内置标签数据和获取到的用户自定义的外置标签数据进行位图构建,得到待处理位图;
[0029]计算模块,用于通过预设的SQL语言和所述第二类扩展,对所述待处理位图进行位运算,得到人群位图。
[0030]本专利技术第三方面公开了一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行如第一方面任意一项所述的数据处理方法。
[0031]本专利技术第四方面公开了一种电子设备,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行如第一方面任意一项所述的数据处理方法。
[0032]经由上述技术方案可知,对获取到的原始数据进行转换,得到内置标签,原始数据由数据仓库中的表构成,内置标签由数据集市中包含用户属性的表构成,获取用户自定义的外置标签,采用类MapReduce模型的计算框架,对内置标签和外置标签进行标签位图构建与计算,得到人群位图。通过上述方案,基于预设计算框架读取外置标签(外部异构数据源)后,读取外置标签数据,即外部异构数据源后,通过扩展类MapReduce模型的计算框架使其支持位图构建与计算,并通过SQL语言与扩展后的类MapReduce模型的计算框架进行整合,使位图构建与计算的过程中可通过SQL语言进行调用,从而使得外部异构数据源参与到人群位图构建的过程中,降低生成人群位图方式的局限性。
附图说明
[0033]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
[0034]图1为本专利技术实施例公开的一种数据处理方法的流程示意图;
[0035]图2为本专利技术实施例公开的MapReduce计算模型的结构示意图;
[0036]图3为本专利技术实施例公开的得到人群位图的流程示意图;
[0037]图4为本专利技术实施例公开的一种数据处理系统的结构示意图;
[0038]图5为本专利技术实施例公开的一种电子设备的结构示意图。
具体实施方式
[0039]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0040]在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:对获取到的原始数据进行转换,得到内置标签数据,所述原始数据由数据仓库中的表构成,所述内置标签数据由所述原始数据转换成包含用户属性的表构成;采用类MapReduce模型的计算框架,对所述内置标签数据和获取到的用户自定义的外置标签数据进行标签位图处理操作,得到人群位图。2.根据权利要求1所述的方法,其特征在于,所述对获取到的原始数据进行转换,得到内置标签数据,包括:通过预设转换脚本,对获取到的原始数据进行转换,得到内置标签数据。3.根据权利要求1所述的方法,其特征在于,获取用户自定义的外置标签数据的过程,包括:通过预设计算框架,获取用户自定义的外置标签数据。4.根据权利要求1所述的方法,其特征在于,采用类MapReduce模型的计算框架,对所述内置标签数据和获取到的用户自定义的外置标签数据进行标签位图处理操作,得到人群位图,包括:对类MapReduce模型的计算框架创建第一类扩展和第二类扩展;通过预设的SQL语言和所述第一类扩展,对所述内置标签数据和获取到的用户自定义的外置标签数据进行位图构建,得到待处理位图;通过预设的SQL语言和所述第二类扩展,对所述待处理位图进行位运算,得到人群位图。5.一种数据处理系统,其特征在于,所述系统包括:转换单元,用于对获取到的原始数据进行转换,得到内置标签数据,所述原始数据由数据仓库中的表构成,所述内置标签数据...

【专利技术属性】
技术研发人员:范东来
申请(专利权)人:网银在线北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1