一种基于用户浏览轨迹推的大数据建模系统技术方案

技术编号:23851988 阅读:42 留言:0更新日期:2020-04-18 09:07
本发明专利技术提供一种基于用户浏览轨迹推的大数据建模系统,包括应用层,将各业务系统通过各终端基于BI实时上报用户行为作为维度数据,并将维度数据存储于mysql、oracle、mongodb数据库中;数据层,将各业务系统的维度数据通过Kafka作为统一采集平台的消息管理层,采集汇总到总数据仓库oracle中;清洗过滤层,将总数据仓库oracle中的数据进行清洗、沉淀、标注、归类、纠错来重新规范化数据源,并进行全新定义、颗粒化、索引;AI数据中台,提供底层的服务架构,将清洗过滤层处理后的数据进行数据建模分析,为服务层提供底层维度数据;服务层,为各业务系统提供维度数据作为业务支撑;实现挖掘更有价值用户数据源,提高用户体验和使用率。

A big data modeling system based on user browsing trajectory push

【技术实现步骤摘要】
一种基于用户浏览轨迹推的大数据建模系统
本专利技术属于大数据建模
,具体涉及一种基于用户浏览轨迹推的大数据建模系统。
技术介绍
目前已有的相关大数据建模系统很多,在数据的可扩展性和规模性都很大,能满足许多日常统计性行为。但是具体实际业务驱动很缺乏,无法更深层次挖掘潜在数据和商机。如今需要更完善更智能的数据平台,挖掘更有价值用户,减轻运营人员的工作压力,和提高资源利用率和使用率。
技术实现思路
本专利技术的目的是提供一种基于用户浏览轨迹推的大数据建模系统,以解决目前大数据中业务驱动的问题,实现挖掘更有价值用户数据源,提高用户体验和使用率。本专利技术提供了如下的技术方案:一种基于用户浏览轨迹推的大数据建模系统,包括:应用层,将各业务系统通过各终端基于BI实时上报用户行为作为维度数据,并将维度数据存储于mysql、oracle、mongodb数据库中;数据层,将各业务系统的维度数据通过Kafka作为统一采集平台的消息管理层,采集汇总到总数据仓库oracle中;清洗过滤层,将总数据仓库oracle中的数据进行清洗、沉淀、标注、归类、纠错来重新规范化数据源,并进行全新定义、颗粒化、索引;AI数据中台,提供底层的服务架构,将清洗过滤层处理后的数据进行数据建模分析,为服务层提供底层维度数据;服务层,为各业务系统提供维度数据作为业务支撑。进一步的,所述清洗过滤层先通过python处理总数据仓库oracle中部分异常数据源,再采用Hive作为数据清洗引擎,将用户行为及上下文模型数据进行推理,进行数据预处理、加工、整合。进一步的,所述AI数据中台中所述数据分析包括数据预处理和数据建模分析,所述数据预处理是从海量数据中提取可用特征,用Impala做数据预处理;所述数据建模分析是针对数据预处理提取的特征,用的机器学习算法包括决策树、协同过滤。进一步的,所述AI数据中台通过多个服务器搭建Hadoop集群,Hadoop集群的框架核心为HDFS和MapReduce,HDFS是一个高度容错性系统,提高吞吐量的数据访问,同时利用了Impala的开源组件;通过Sqoop将数据从mysql、oracle、mongodb数据库中导入Hive;通过Zookeeper提供数据同步服务,Impala是对hive对一个补充,可以实现高效的sql查询。进一步的,所述AI数据中台,包括:兴趣源模块,基于MapReduce的数据预处理与聚合模块,用于对用户行为、实时上下文信息采用MapReduce并行模型进行预处理与聚合,得到对结果放入HBbase数据表中,利用Hive对HBase中的用户行为及上下文模型数据进行推理,找出感兴趣数据源;马尔科夫模型模块,用户行为的浏览信息利用马尔科夫推荐模型建立模块,依据用户浏览轨迹补全后的结果建立马尔科夫转移矩阵,并将该矩阵存放到HBase表中,依据用户兴趣源中数据,利用余玄因子法计算出每个用户兴趣相似度,构成兴趣相似度矩阵,集合马尔科夫转移矩阵建立基于协同过滤的马尔科夫推荐模型;画像算法模块,画像算法将会对用户分成三种情况考虑,即根据用户访问数量多少,分为冷启动用户、低频访问用户和高频访问用户,并用于精确营销;推荐算法模块,采用SLIM算法得到了一个的用户预测矩阵R,对每个用户根据预测矩阵R得到目标用户对各个业务的预测评分,将评分较高的业务推测给用户。进一步的,所述冷启动用户,采用默认标签,默认标签可以根据popularity来选择;所述低频访问用户,包括根据历史数据将用户聚类;根据该用户少数的访问寻找聚类中心;将聚类中心的标签作为该用户可能的标签;所述高频访问用户,采用频次统计的方法,输出该用户的精准画像。进一步的,所述低频访问用户的聚类采用基于特征抽取的K-means方法,其包括:特征抽取:用户特征向量=权重一*业务特征+权重二*业务特征;归一化:根据每个子特征分别归一化处理;聚类中心点个数选择:根据评估簇的个数来判定中心点个数;聚类:根据选择好的聚类中心个数进行K-means聚类;聚类中心作为某类人群代表特征;用户计算与各自聚类中心的聚类分类,将其最近的作为其画像。进一步的,所述低频访问用户和所述高频访问用户的区分包括专家方式和在线测试方式,所述专家方式为向专家询问区分阈值,所述在线测试方式以提升线上推荐点击率为目的的参数选择。生成用户画像后,算法会结合CRM系统的用户画像进行融合,生成最终的用户画像标签。本专利技术的有益效果是:本专利技术是一种基于用户浏览轨迹推的大数据建模系统,通过各终端基于BI实时上报用户行为,使用Kafka作为统一采集平台的管理层,定期采集各终端维度数据;基于Spark生态对最终数据源进行实时数据分析,利用机器学习生成用户画像,构建马尔科夫转移矩阵以及协同过滤对马尔科夫推荐模型,进行精准化推荐,同时利用机器血虚挖掘潜在用户和商机,最终解决了大量用户的大数据,实时高效的大规模应用。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1是本专利技术结构示意图。具体实施方式如图1所示,一种基于用户浏览轨迹推的大数据建模系统,包括应用层、数据层、清洗过滤层、AI数据中台和服务层;1、应用层,公司所有的应用业务,包含新房、二手房、租房、资讯等业务,也涵盖了WEB、触屏、微信、APP多终端维度数据,数据存储于mysql、oracle、mongodb等数据库中。2、数据层,通过数据服务层,将各业务系统数据通过Kafka作为统一采集平台的消息管理层,采集汇总到总数据仓库oracle中。3、清洗过滤层,根据数据仓库的总数据,进行清洗、沉淀、标注、归类、纠错来重新规范化数据源,并进行全新定义、颗粒化、索引。先通过python处理部分异常数据源,在采用Hive作为数据清洗引擎,将用户行为及上下文模型数据进行推理,进行数据预处理、加工、整合。4、AI数据中台,提供底层的服务架构,通过清洗归类后的数据进行建模和数据分析,为服务层提供底层数据维度。用了8台服务器(2路8核CPU、64GB内存),搭建了Hadoop集群,Hadoop框架最核心的设计是HDFS和MapReduce,HDFS是一个高度容错性系统,提高吞吐量的数据访问,同时利用了Impala的开源组件。通过Sqoop将数据从Oracle、Mysql数据库中导入Hive。Zookeeper是提供数据同步服务,Impala是对hive对一个补充,可以实现高效的sql查询。a、兴趣源,基于MapReduce的数据预处理与聚合模块,用于对用户行为、实时上下文信息采用MapReduce并行模型进行预处理与聚合,得到对结果放入HBbase数据表中,利用Hive对HBase中的用户行为及上下文模型数据进行推理,找出感兴趣数据源;b、马尔科夫模型,用户浏览信息利用马尔科夫推荐模型建立模块,依据用户浏览轨迹补全后的结果建立马尔科夫转移矩阵,并将该本文档来自技高网...

【技术保护点】
1.一种基于用户浏览轨迹推的大数据建模系统,其特征在于,包括:/n应用层,将各业务系统通过各终端基于BI实时上报用户行为作为维度数据,并将维度数据存储于mysql、oracle、mongodb数据库中;/n数据层,将各业务系统的维度数据通过Kafka作为统一采集平台的消息管理层,采集汇总到总数据仓库oracle中;/n清洗过滤层,将总数据仓库oracle中的数据进行清洗、沉淀、标注、归类、纠错来重新规范化数据源,并进行全新定义、颗粒化、索引;/nAI数据中台,提供底层的服务架构,将清洗过滤层处理后的数据进行数据建模分析,为服务层提供底层维度数据;/n服务层,为各业务系统提供维度数据作为业务支撑。/n

【技术特征摘要】
1.一种基于用户浏览轨迹推的大数据建模系统,其特征在于,包括:
应用层,将各业务系统通过各终端基于BI实时上报用户行为作为维度数据,并将维度数据存储于mysql、oracle、mongodb数据库中;
数据层,将各业务系统的维度数据通过Kafka作为统一采集平台的消息管理层,采集汇总到总数据仓库oracle中;
清洗过滤层,将总数据仓库oracle中的数据进行清洗、沉淀、标注、归类、纠错来重新规范化数据源,并进行全新定义、颗粒化、索引;
AI数据中台,提供底层的服务架构,将清洗过滤层处理后的数据进行数据建模分析,为服务层提供底层维度数据;
服务层,为各业务系统提供维度数据作为业务支撑。


2.根据权利要求1所述的一种基于用户浏览轨迹推的大数据建模系统,其特征在于,所述清洗过滤层先通过python处理总数据仓库oracle中部分异常数据源,再采用Hive作为数据清洗引擎,将用户行为及上下文模型数据进行推理,进行数据预处理、加工、整合。


3.根据权利要求1所述的一种基于用户浏览轨迹推的大数据建模系统,其特征在于,所述AI数据中台中所述数据分析包括数据预处理和数据建模分析,所述数据预处理是从海量数据中提取可用特征,用Impala做数据预处理;所述数据建模分析是针对数据预处理提取的特征,用的机器学习算法包括决策树、协同过滤。


4.根据权利要求1所述的一种基于用户浏览轨迹推的大数据建模系统,其特征在于,所述AI数据中台通过多个服务器搭建Hadoop集群,Hadoop集群的框架核心为HDFS和MapReduce,HDFS是一个高度容错性系统,提高吞吐量的数据访问,同时利用了Impala的开源组件;通过Sqoop将数据从mysql、oracle、mongodb数据库中导入Hive;通过Zookeeper提供数据同步服务,Impala是对hive对一个补充,可以实现高效的sql查询。


5.根据权利要求4所述的一种基于用户浏览轨迹推的大数据建模系统,其特征在于,所述AI数据中台,包括:
兴趣源模块,基于MapReduce的数据预处理与聚合模块,用于对用户行为、实时上下文信息采用MapReduce并行模型进...

【专利技术属性】
技术研发人员:陆洋
申请(专利权)人:江苏三六五网络股份有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1