基于数据仓库处理用户浏览行为数据的方法及系统技术方案

技术编号:18426441 阅读:19 留言:0更新日期:2018-07-12 02:01
本发明专利技术提供一种基于数据仓库处理用户浏览行为数据的方法及系统,能够进行数据仓库的自动创建,并且利用自动创建的数据仓库,对用户浏览行为原始数据进行有效地存储和管理,为进一步应用分析提高数据基础。该方法包括:获取用户浏览行为原始数据,并加以保存;将所述用户浏览行为原始数据抽取到数据存储服务器中,得到用户浏览行为原始数据表;根据所述用户浏览行为原始数据表自动构建数据仓库从而生成基于各业务主题的业务主题汇总表;根据数据服务需求,将所述业务主题汇总表构建成应用表。

Method and system for processing user browsing behavior data based on data warehouse

The invention provides a method and system for processing user browsing behavior data based on data warehouse. It can automatically create data warehouse and use automatically created data warehouse to effectively store and manage the original data of user browsing behavior, and improve the data base for further analysis. The method includes: obtaining the original data of user browsing behavior and storing it, extracting the original data from the user browsing behavior to the data storage server, obtaining the original data table of user browsing behavior, and automatically building the data warehouse based on the original data table of the user browsing behavior to generate the business topics based on the various business topics. Business theme summary table; according to the needs of data services, the business theme summary table is constructed into the application table.

【技术实现步骤摘要】
基于数据仓库处理用户浏览行为数据的方法及系统
本专利技术涉及计算机技术及软件领域,尤其涉及一种基于自动构建的数据仓库处理用户浏览行为数据的方法及系统。
技术介绍
随着电子商务的发展,日常运营中生成的大量用户、商品、生产相关的数据,呈现爆发式增长,数据结构逐渐多元化,数据含有的信息量越来越多,因此,电子商务企业对数据化运营也越来越关注。其中,通过搜集用户访问商品页面的浏览行为,可以更好的洞察用户的需求,发现目标用户,帮助进行营销策略的制定以及商品现货水平评估,提高电子商务企业的业务创新能力,提升业务运营水平和经营效率。例如,当用户浏览商品页面或用户点击商品可配送区域时,可以初步确定用户可能对某商品产生了购买兴趣,并了解用户下单的区域,通过记录和收集用户的浏览行为可对商品的备货起到有一定的辅助作用。因此,对电子商务中用户浏览行为进行有效的整理分析,可以为进一步研究用户需求提供数据应用基础。现有的用户浏览行为原始数据的处理方案中,通常包括:利用网页埋点等方法进行数据搜集、数据抽取,将数据入库,继而进行数据使用。但这种数据处理方式非常不便,首先,其没有将数据抽取到数据仓库,并通过自动化构建数据模型进行数据仓库的构建,以实现数据的有效管理;此外,也没有对数据应用场景的进一步分析阐释。
技术实现思路
有鉴于此,本专利技术提供一种基于数据仓库处理用户浏览行为数据的方法及系统,能够进行数据仓库的自动创建,并且利用自动创建的数据仓库,对用户浏览行为原始数据进行有效地存储和管理,为进一步应用分析提高数据基础。为实现上述目的,根据本专利技术的一个方面,提供了一种基于自动构建的数据仓库处理用户浏览行为数据的方法。本专利技术的一种基于自动构建的数据仓库处理用户浏览行为数据的方法包括:获取用户浏览行为原始数据,并加以保存;将所述用户浏览行为原始数据抽取到数据存储服务器中,得到用户浏览行为原始数据表;根据所述用户浏览行为原始数据表自动构建数据仓库从而生成基于各业务主题的业务主题汇总表;根据数据服务需求,将所述业务主题汇总表构建成应用表,其中,根据所述用户浏览行为原始数据表自动构建数据仓库还包括:根据业务需求构建数据模型表结构;将所述用户浏览行为原始数据表加载数据模型表结构中,生成数据模型表;按照业务主题汇总所述数据模型表,生成业务主题汇总表,从而完成数据仓库的自动构建。可选地,所述方法还包括:获取用户浏览行为原始数据之后,对所述用户浏览行为原始数据进行清洗,剔除干扰数据,所述干扰数据包括爬虫浏览记录、未登录用户浏览记录以及页面默认浏览记录中的一种或几种。可选地,将用户浏览行为原始数据抽取到数据存储服务器中还包括:定期将所述用户浏览行为原始数据抽取到Hadoop服务器中,并将所述用户浏览行为原始数据分区存储。可选地,根据所述用户浏览行为原始数据表自动构建数据仓库还包括:将抽取到的各业务系统的用户浏览行为原始数据表及原始字段与数据仓库的元数据一一对应,得到统一格式的用户浏览行为数据表及字段;根据预先定义的关键字段信息,对所述用户浏览行为数据表进行搜索,得到总体信息表和关键字段关联信息表,所述关键字段信息包含一个或多个具有关联关系的关键字段,所述总体信息表记录所述关键字段信息中各关键字段以及各关键字段的主表和附表在所述用户浏览行为数据表中的表号信息,所述关键字段关联信息表记录所述关键字段信息中各关键字段之间的关联关系;根据预先定义的业务指标,结合所述总体信息表及所述关键字段关联信息表,得到数据模型表结构和处理逻辑;根据所述数据模型表结构和所述处理逻辑,结合所述用户浏览行为数据表,生成数据模型表;按照业务主题对所述数据模型表中的数据进行汇总,得到业务主题汇总表,完成数据仓库的构建,所述业务主题中包含一个或多个业务指标。可选地,生成数据模型表还包括:利用Hive脚本和/或数据并行处理工具MapReduce,生成数据模型表。可选地,所述业务主题包括:存货主题、商品主题、销量主题中的一种或几种。为实现上述目的,根据本专利技术的另一方面,提供了一种基于自动构建的数据仓库处理用户浏览行为数据的系统。本专利技术的一种基于自动构建的数据仓库处理用户浏览行为数据的系统包括:数据准备模块,包括获取单元,用于获取用户浏览行为原始数据,以及存储单元,用于保存所述用户浏览行为原始数据;数据抽取模块,用于将所述用户浏览行为原始数据抽取到数据存储服务器中,得到用户浏览行为原始数据表;数据仓库自动构建模块,用于根据所述用户浏览行为原始数据表构建数据仓库,从而生成基于各业务主题的业务主题汇总表;应用模块,用于根据数据服务需求,将所述业务主题汇总表构建成应用表,其中,所述数据仓库自动构建模块还用于:根据业务需求构建数据模型表结构;将所述用户浏览行为原始数据表加载数据模型表结构中,生成数据模型表;按照业务主题汇总所述数据模型表,生成业务主题汇总表,从而完成数据仓库的自动构建。可选地,所述数据准备模块还用于:在所述获取单元获取用户浏览行为原始数据之后,对所述用户浏览行为原始数据进行清洗,剔除干扰数据,所述干扰数据包括爬虫浏览记录、未登录用户浏览记录以及页面默认浏览记录中的一种或几种。可选地,所述数据抽取模块还用于:定期将所述用户浏览行为原始数据抽取到Hadoop服务器中,并将所述用户浏览行为原始数据分区存储。可选地,所述数据仓库自动构建模块还包括:表统一单元,用于将抽取到的各业务系统的用户浏览行为原始数据表及原始字段与数据仓库的元数据一一对应,得到统一格式的用户浏览行为数据表及字段;搜索单元,用于根据预先定义的关键字段信息,对所述用户浏览行为数据表进行搜索,得到总体信息表和关键字段关联信息表,所述关键字段信息包含一个或多个具有关联关系的关键字段,所述总体信息表记录所述关键字段信息中各关键字段以及各关键字段的主表和附表在所述用户浏览行为数据表中的表号信息,所述关键字段关联信息表记录所述关键字段信息中各关键字段之间的关联关系;逻辑单元,用于根据预先定义的业务指标,结合所述总体信息表及所述关键字段关联信息表,得到数据模型表结构和处理逻辑;构建单元,用于根据所述数据模型表结构和所述处理逻辑,结合所述用户浏览行为数据表,生成数据模型表;汇总单元,用于按照业务主题对所述数据模型表中的数据进行汇总,得到业务主题汇总表,完成数据仓库的构建,所述业务主题中包含一个或多个业务指标。可选地,所述构建单元还用于:利用Hive脚本和/或数据并行处理工具MapReduce,生成数据模型表。可选地,所述业务主题包括:存货主题、商品主题、销量主题中的一种或几种。为实现上述目的,根据本专利技术的再一方面,提供了又一种基于自动构建的数据仓库处理用户浏览行为数据的系统。本专利技术的又一种基于自动构建的数据仓库处理用户浏览行为数据的系统包括存储器和处理器,其中:存储器用于存储指令;处理器用于根据所述指令执行本专利技术的基于自动构建的数据仓库处理用户浏览行为数据的方法。根据本专利技术的技术方案,通过以Hadoop为平台,以Hive作为数据模型构建工具,从而能够提升数据处理的稳定性、可扩展性;通过基于数据之间的逻辑关系,自动构造数据模型以实现数据仓库的自动构建,从而为用户浏览行为原始数据的处理提供了一种可行的方法和模块,为数据处理提供稳定的运行环境本文档来自技高网...

【技术保护点】
1.一种基于自动构建的数据仓库处理用户浏览行为数据的方法,其特征在于,包括:获取用户浏览行为原始数据,并加以保存;将所述用户浏览行为原始数据抽取到数据存储服务器中,得到用户浏览行为原始数据表;根据所述用户浏览行为原始数据表自动构建数据仓库从而生成基于各业务主题的业务主题汇总表;根据数据服务需求,将所述业务主题汇总表构建成应用表,其中,根据所述用户浏览行为原始数据表自动构建数据仓库还包括:根据业务需求构建数据模型表结构;将所述用户浏览行为原始数据表加载数据模型表结构中,生成数据模型表;按照业务主题汇总所述数据模型表,生成业务主题汇总表,从而完成数据仓库的自动构建。

【技术特征摘要】
1.一种基于自动构建的数据仓库处理用户浏览行为数据的方法,其特征在于,包括:获取用户浏览行为原始数据,并加以保存;将所述用户浏览行为原始数据抽取到数据存储服务器中,得到用户浏览行为原始数据表;根据所述用户浏览行为原始数据表自动构建数据仓库从而生成基于各业务主题的业务主题汇总表;根据数据服务需求,将所述业务主题汇总表构建成应用表,其中,根据所述用户浏览行为原始数据表自动构建数据仓库还包括:根据业务需求构建数据模型表结构;将所述用户浏览行为原始数据表加载数据模型表结构中,生成数据模型表;按照业务主题汇总所述数据模型表,生成业务主题汇总表,从而完成数据仓库的自动构建。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取用户浏览行为原始数据之后,对所述用户浏览行为原始数据进行清洗,剔除干扰数据,所述干扰数据包括爬虫浏览记录、未登录用户浏览记录以及页面默认浏览记录中的一种或几种。3.根据权利要求1所述的方法,其特征在于,将用户浏览行为原始数据抽取到数据存储服务器中还包括:定期将所述用户浏览行为原始数据抽取到Hadoop服务器中,并将所述用户浏览行为原始数据分区存储。4.根据权利要求1所述的方法,其特征在于,根据所述用户浏览行为原始数据表自动构建数据仓库还包括:将抽取到的各业务系统的用户浏览行为原始数据表及原始字段与数据仓库的元数据一一对应,得到统一格式的用户浏览行为数据表及字段;根据预先定义的关键字段信息,对所述用户浏览行为数据表进行搜索,得到总体信息表和关键字段关联信息表,所述关键字段信息包含一个或多个具有关联关系的关键字段,所述总体信息表记录所述关键字段信息中各关键字段以及各关键字段的主表和附表在所述用户浏览行为数据表中的表号信息,所述关键字段关联信息表记录所述关键字段信息中各关键字段之间的关联关系;根据预先定义的业务指标,结合所述总体信息表及所述关键字段关联信息表,得到数据模型表结构和处理逻辑;根据所述数据模型表结构和所述处理逻辑,结合所述用户浏览行为数据表,生成数据模型表;按照业务主题对所述数据模型表中的数据进行汇总,得到业务主题汇总表,完成数据仓库的构建,所述业务主题中包含一个或多个业务指标。5.根据权利要求4所述的方法,其特征在于,生成数据模型表还包括:利用Hive脚本和/或数据并行处理工具MapReduce,生成数据模型表。6.根据权利要求1所述的方法,其特征在于,所述业务主题包括:存货主题、商品主题、销量主题中的一种或几种。7.一种基于自动构建的数据仓库处理用户浏览行为数据的系统,其特征在于,包括:数据准备模块,包括获取单元,用于获取用户浏览行为原始数据,以及存储单元,用于保存所述用户浏览行为原始数据;数据抽取模块...

【专利技术属性】
技术研发人员:孙冬成凯董月红
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1