【技术实现步骤摘要】
基于数据仓库的用户特征产出方法和系统
本公开主要涉及数据处理,尤其涉及基于数据聚合的数据处理。
技术介绍
在大数据时代,通常会采用大数据关联追溯技术,对海量交易数据进行深度挖掘,基于交易网络结构发现和异常交易发现来寻找出异常交易网络。在大数据领域中,由于交易数据量十分庞大和繁杂,因此在数据挖掘过程中往往采用分组运算和数据聚合来获取结果。这样的处理过程相对简便快捷,但是也带来其局限性,也就是在输出某一特征的最终结果时,往往没有中间证据信息,因而需要后续通过人工搜集证据或凭据,工作量大且极有可能遗漏。在这种情况下,大数据领域运营方有对更强大工具的强烈需求,来在快速输出某一特征的最终结果时一并提供中间证据信息,从而提高大数据领域中数据处理的效率和针对性。
技术实现思路
为解决上述技术问题,本公开提供了一种基于数据仓库的用户特征产出方案。该方案能够在快速输出用户特征的最终结果时一并提供必要的中间证据信息,从而提高数据处理的效率和针对性。在本公开一实施例中,提供了一种基于数据仓库的用户特征产 ...
【技术保护点】
1.一种基于数据仓库的用户特征产出方法,包括:/n获取多个用户的交易明细数据并按不同维度将所述交易明细数据分拆成多个子集;/n按用户聚合第一维度子集中的数据;/n获取用于数据筛选的第二维度;/n将第二维度子集中的数据关联到经聚合的所述第一维度子集中的数据以生成待筛选数据;/n筛选所述待筛选数据以获得用户特征;以及/n输出所述用户特征、所述第一维度子集中的数据和所述第二维度子集中的数据的至少之一。/n
【技术特征摘要】
1.一种基于数据仓库的用户特征产出方法,包括:
获取多个用户的交易明细数据并按不同维度将所述交易明细数据分拆成多个子集;
按用户聚合第一维度子集中的数据;
获取用于数据筛选的第二维度;
将第二维度子集中的数据关联到经聚合的所述第一维度子集中的数据以生成待筛选数据;
筛选所述待筛选数据以获得用户特征;以及
输出所述用户特征、所述第一维度子集中的数据和所述第二维度子集中的数据的至少之一。
2.如权利要求1所述的方法,其特征在于,所述多个子集各自包括键值数据对。
3.如权利要求1所述的方法,其特征在于,所述数据仓库基于Spark、Hadoop、MapReduce、Hive或SQL。
4.如权利要求1所述的方法,其特征在于,按不同维度将所述交易明细数据分拆成多个子集可采用切片或切块的操作。
5.如权利要求1所述的方法,其特征在于,输出所述用户特征、所述第一维度子集中的数据和所述第二维度子集中的数据的至少之一包括:在需要证据时,输出所述用户特征、所述第一维度子集中的数据或所述第二维度子集中的数据。
6.如权利要求2所述的方法,其特征在于,输出所述用户特征、所述第一维度子集中的数据和所述第二维度子集中的数据的至少之一包括:在需要证据时,输出所述用户特征、所述第一维度子集中的键数据和所述第二维度子集中的键数据。
7.一种基于数据仓库的用户特征产出系统,包括:
获取模块,获取多个用户的交易明细数据并按不同维度将...
【专利技术属性】
技术研发人员:周翱,胡研,党孟光,张一丁,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。