一种基于大数据平台的用户行为分析系统技术方案

技术编号:13113159 阅读:78 留言:0更新日期:2016-04-01 09:05
本发明专利技术提出一种基于大数据平台的用户行为分析系统,包括:用户行为信息采集接口、基本数据层模块、用户行为信息解析模块、用户行为信息关联性确定模块、用户行为信息组织模块、关联数据组表征模块、用户特征分析模块、聚合模块以及应用模块。本系统利用用户行为及其行为对象的相互联系,建立用户行为信息之间(包括用户行为自身之间和/或作为行为对象的内容之间)的关联数据组,该数据组描述了在用户行为彼此之间的关系当中所包含的有效信息,可准确定位一系列相互关联的用户行为的起点与终点,基于该关联数据组能够实现对可量化的用户行为信息的准确计量,并且实现针对一系列相互关联的用户行为进行全面的统计分析。

【技术实现步骤摘要】

本专利技术设及互联网数据分析与处理领域,尤其设及一种基于大数据平台的用户行 为分析系统。
技术介绍
在互联网应用运一领域,用户行为分析指的是统计和分析用户接入网络服务全过 程当中(包括访问和浏览网页、进行交互式操作、使用APP等)产生的实时性和历史性的用户 行为信息。在用户接入网络服务的行为过程当中,包含着大量有价值的信息。据测算,用户 在一次网上购物的过程中平均要关注3-4件商品,访问5-7个网站,浏览40个W上的页面。用 户行为信息包括但不局限于W下内容:网络服务的访问次数、访问频度、访问停留时间、操 作活跃时间、用户输入关键词、用户点击链接、用户交互操作(如加关注、取消关注、打分、保 存为书签、加入购物车、取出购物车、形成订单、取消订单、付款、退款等等)。通过对用户行 为信息的研究,可W从中发现用户在接入网络服务时表现出来的规律分布,并且为提升用 户体验、高效信息推送和促进目标营销提供科学、准确的客观依据。针对用户行为的研究与 应用,最有效的手段是记录用户的所有行为带来的全部用户行为信息,并对全部的用户行 为信息进行统计、分析。 大数据技术是W任何系统的全部数据资源为对象并从中发现数据之间表现的相 关性关系的信息处理技术,目前已经广泛应用于互联网的流程优化、目标化消息及广告推 送、用户个性化服务与改善等方面,成为了网络服务背后强大的后台支撑。基于大数据平台 实现对全部用户行为信息的分析与利用,适应了用户行为信息自身规模庞大、数据格式复 杂多元化、运算速度要求高的特点,能够满足各类型网络服务的实际需求。 在面向用户行为信息设计的大数据系统中,系统W日志文件或数据流的形式获得 用户全部行为的记录;对于非实时性的应用需求,可W按日或更长的时间周期向大数据系 统导入较大规模的用户行为信息日志文件,文件大小可达到数个GB量级;对于实时性应用 需求,则系统W数据流的方式动态不间断采集当前正在发生的用户行为信息;而对于介于 实时性和非实时性之间的应用需求,可较高的频率向大数据系统提供MB级别的用户行 为信息日志文件,一般数分钟就向系统提供一次。大数据系统的基本数据层汇总网络服务 的全部用户所产生的日志文件和数据流,获得海量的用户行为信息。进而,大数据系统的数 据挖掘引擎工具面向基本数据层所汇总的海量用户行为信息,计算用户行为相似度,并且 根据用户行为相似度进行归类。 在面向用户行为信息进行大数据统计、分析与应用的现有技术当中,虽然针对用 户行为W及作为行为对象的内容实现了归类与识别,并且将用户行为信息的特征与推送、 广告、内容提供等网络服务相互关联起来,但是,现有技术的基本模式是将每一个用户行为 及作为行为对象的内容都仅当作一个孤立的数据点,运样通过汇总全部用户行为及其对象 所形成的海量数据点,从中发现统计分布规律。运种模式的缺陷是不能发现和利用不同的 用户行为及其行为对象之间相互的关联性。 由于忽视了用户行为及其行为对象的相互联系,会给基于用户行为信息大数据而 实现的网络服务带来W下方面的问题。 首先,当用户行为信息总量较少,或者是其中特定类型用户一一例如偶然用 户一一的行为信息比较稀疏的情况下,就不能很好实现用户行为特征的提取与归类。运是 由于只孤立分析表示用户行为的数据点而忽略了其间联系,则从用户行为信息中提取出来 的信息量是粗略、概括而不充分的,因而也就只能加大用户行为信息的总量,W期通过密集 的数据来表现出统计规律性。 其次,无法定位用户一系列行为的起点和终点,也就不能很好地区分用户一次性 行为与延续性行为,例如,用户网上经输入关键词查询、网页浏览挑选、加入购物车之后购 买了一把键子,此后就一直接收到该购物网站推送的关于各种样式、品牌的键子的广告,但 实际上对于键子运样的耐用品,该用户未来很多年都不再存在继续购买的需要,因此该购 买键子的用户行为实际上是偶发的一次性行为,购买本身已经为运一行为过程画上了一个 句号;但是购物网站显然按照与延续性行为相同的计算方式,没有正确判断运一用户行为 的终点;相反,由于该用户在输入关键词、浏览、加入购物车、付款等多个连续的用户行为中 所指向的对象都是键子,因此键子也就被识别为与该用户关联的特征,导致用户被动获得 了大量与键子相关的内容。 第Ξ,对于用户行为信息的定量计算过度表象化,容易发生偏差。例如,用户在网 上购物过程中往往都会有"比价"和"比性能"的行为,在运一过程中,某用户先后完成了输 入关于A款手机的关键词、浏览关于A款手机的网页、将A款手机加入购物车(或者将关于A款 手机的购买页面加为书签)运些行为之后,又接着输入了 B款、C款手机的关键词查找到运两 款手机的网页,W及通过A款手机网页载有的类似商品推荐链接进入D款、E款手机的网页, 继续浏览了 W上几款手机的相关网页。如果把W上用户行为信息按照相互孤立的数据点来 看待,则用户对B款、C款、D款、E款手机网页的访问停留时长与A款手机相差并不大,甚至有 可能还长于A款手机;但实际上,用户针对其它几款手机的行为是在WA款手机为购买目标 基础上的比价和比性能的行为,对其它几款手机的访问停留时长也可W记入A款手机的访 问停留时长,运样A款手机本应作为用户上述一系列行为中的最显著特征加 W提取和利用, 例如优先推送A款手机的广告和优惠信息,但现有技术并不能实现上述效果,往往是将其它 几款手机的广告和优惠与A款手机不加区分地实现推送。 第四,由于切断甚至是割裂了各个用户行为之间的关联,导致基于大数据实现的 服务只能聚焦在用户行为的某个或者某几个局部。例如,某用户在微博关注了某支乐队,浏 览了关于该支乐队1月1日在上海举办演唱会的新闻页面,还查找了 12月31日由北京前往上 海的机票W及1月2日由上海返回北京的机票,把W上用户行为信息关联性地分析,很显然 该用户是在规划一次W观看该支乐队演唱会为中屯、的旅行。但是,现有大数据系统并不能 实现上述关联性分析,虽然有可能通过行为对象的相同而发现用户关注了该支乐队和浏览 了关于该支乐队的新闻,但也只能W该支乐队作为用户关联的特征而进行口票、唱片、海报 等相关消息的推送,却不能有效地将查找机票的行为与该支乐队之间建立联系。关于运种 联系缺少的影响,举例来说,大数据系统也可W根据用户查找机票的行为而向该用户推送 在上海期间的酒店折扣,但是却无法做到优先推送在演唱会举办地周边的酒店相关信息。 可见,由于不能从用户行为及其行为对象的关联性的角度实现对用户行为信息的 归类、分析和应用,给现有的用户行为信息大数据平台带来了 w上方面的局限性。
技术实现思路
鉴于上述现有技术中存在的W上缺陷,本专利技术提出一种基于大数据平台的用户行 为分析系统。本系统利用用户行为及其行为对象的相互联系,建立用户行为信息之间(包括 用户行为自身之间和/或作为行为对象的内容之间)的关联数据组,该数据组描述了在用户 行为彼此之间的关系当中所包含的有效信息,可准确定位一系列相互关联的用户行为的起 点与终点,基于该关联数据组能够实现对可量化的用户行为信息的准确计量,并且实现针 对一系列相互关联的用户行为进行全面的统计分析。通过本专利技术,可W基于一系列具有相 互关联性的用户行为信息(包括用户行为自本文档来自技高网
...

【技术保护点】
一种基于大数据平台的用户行为分析系统,其特征在于,包括:用户行为信息采集接口,用于通过网络连接到发生用户行为的用户设备,从用户设备实时和/或非实时地获得由用户的每一个用户行为对应产生的每一个用户行为信息,并且将所获得的全部用户行为信息提供给基本数据层模块;基本数据层模块,用于从用户行为信息采集接口获得所述用户行为信息,汇总并存储全部用户的全部用户行为信息;用户行为信息解析模块,用于从所述基本数据层模块抽取关于特定用户的全部用户行为信息,解析该特定用户的每个用户行为信息的行为类型值、行为属性值与行为对象内容值;用户行为信息关联性确定模块,用于针对该特定用户的每一个用户行为信息,根据所述行为类型值与行为对象内容值,确定该用户行为信息与该特定用户的其它用户行为信息之间的关联性;用户行为信息组织模块,用于根据所述用户行为信息关联性确定模块所确定的该特定用户的全部用户行为信息之间的关联性,将具有直接和/或间接关联性的用户行为信息按照用户行为信息产生的时间顺序组合在一起,形成一个或者多个用户行为信息的关联数据组;关联数据组表征模块,基于所述关联数据组,生成表征每一个关联数据组的组用户行为类型值、组行为属性值与组行为对象内容值;用户特征分析模块,针对特定用户的组用户行为类型值、组行为属性值与组行为对象内容值,提取表示该特定用户的用户行为特征参数;聚合模块,获得全部用户的用户行为特征参数,计算用户之间的用户行为特征参数相似度,并且根据所述用户之间的用户行为特征参数相似度进行用户归类;应用模块,针对特定用户所属于的用户归类,针对该特定用户提供与其用户归类相匹配的推送、广告、内容提供等网络服务。...

【技术特征摘要】

【专利技术属性】
技术研发人员:厉紫阳庄良王智斌沈徐兰岳一涛
申请(专利权)人:汉鼎信息科技股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1