【技术实现步骤摘要】
本专利技术涉及用户身份识别领域,具体而言,通过分析用户的访问行为,对用户活跃身份进行识别划分。技术背景随着互联网技术的快速发展,互联网用户的使用人数也在逐日增加,这些用户每日访问互联网网站,都会产生大量的访问信息,合理的利用这些访问信息,不仅可以挖掘用户的使用偏好,还能鉴别用户的活跃身份,使公司从中能够获得巨大的商业价值。然而,通过我们对访问量的分析发现,虽然访问总量很多,但冗余、垃圾、的访问信息依然不少,访问模块虽多,但核心模块却很有限,总的访问用户数量庞大,但活跃用户并不多。现有的技术,很难有一种系统的方法,能够依据大量的访问信息,筛选有价值的访问内容和有效的访问模块,合理的判断用户的活跃身份。
技术实现思路
本专利技术目的是,提出一种基于访问行为的活跃用户身份识别方法,该方法可以有效的依据用户对网站各个模块的访问量,根据访问量的信息,合理判别用户身份。本专利技术技术方案是:一种基于访问行为的活跃用户识别方法,步骤如下:1)解析用户访问日志,访问日志来自于数据库的中日志表;解析日志的任务,提取用户的有用信息:包含用户ID、用户姓名、用户访问时间、用户访问模块URL;2)统计用户模块访问次数,首先应在数据库中建立一张访问模块信息的维表,该维表应该包含各级模块的URL地址以及各级模块之间的对应关系;访问的模块有一级至三级从高级到低级的模块结构,若一级模块名称、二级模块名称、三级模块中有上下级模块缺失(比如只有上级一级模块没有下级二级模块和三级模块,或者只有上级一、二级模块,没有下级三级模块),应进行必要的补充;然后,依据之前提取访问日志信息,匹配模块维表 ...
【技术保护点】
一种基于访问行为的活跃用户识别方法,其特征是步骤如下:1)解析用户访问日志,访问日志来自于数据库的中日志表;解析日志的任务,提取用户的有用信息:包含用户ID、用户姓名、用户访问时间、用户访问模块URL;2)统计用户模块访问次数,首先应在数据库中建立一张访问模块信息的维表,该维表应该包含各级模块的URL地址以及各级模块之间的对应关系;访问的模块有一级至三级从高级到低级的模块结构,若一级模块名称、二级模块名称、三级模块中有上下级模块缺失,应进行必要的补充;然后,依据之前提取访问日志信息,匹配模块维表,统计用户每天在不同模块的访问次数;3)过滤冗余用户和访问模块,根据得到的每个用户每日模块的访问次数,由于用户的数量远远大于模块的数量,用户‑模块访问组成的矩阵将会是一个高维稀疏的矩阵,对矩阵进行优化:第一是面向用户,根据访问量统计用户频数分布,把频数和访问量同时较小的用户过滤掉,第二是面向模块,利用SVD技术对模块维度进行特征抽取,舍掉不必要的特征,只留下核心模块;4)划分用户身份,采用聚类领域的相关算法对用户进行划分;考虑到只需要将用户划分成活跃用户和非活跃用户,故采用如K‑means算法, ...
【技术特征摘要】
1.一种基于访问行为的活跃用户识别方法,其特征是步骤如下:1)解析用户访问日志,访问日志来自于数据库的中日志表;解析日志的任务,提取用户的有用信息:包含用户ID、用户姓名、用户访问时间、用户访问模块URL;2)统计用户模块访问次数,首先应在数据库中建立一张访问模块信息的维表,该维表应该包含各级模块的URL地址以及各级模块之间的对应关系;访问的模块有一级至三级从高级到低级的模块结构,若一级模块名称、二级模块名称、三级模块中有上下级模块缺失,应进行必要的补充;然后,依据之前提取访问日志信息,匹配模块维表,统计用户每天在不同模块的访问次数;3)过滤冗余用户和访问模块,根据得到的每个用户每日模块的访问次数,由于用户的数量远远大于模块的数量,用户-模块访问组成的矩阵将会是一个高维稀疏的矩阵,对矩阵进行优化:第一是面向用户,根据访问量统计用户频数分布,把频数和访问量同时较小的用户过滤掉,第二是面向模块,利用SVD技术对模块维度进行特征抽取,舍掉不必要的特征,只留下核心模块;4)划分用户身份,采用聚类领域的相关算法对用户进行划分;考虑到只需要将用户划分成活跃用户和非活跃用户,故采用如K-means算法,其中K=2,进行活跃用户划分。2.根据权利要求1所述的基于访问行为的活跃用户识别方法,其特征是具体步骤如下:S11:解析用户访问日志,根据留存的用户访问网站的历史访问日志,在对应的BI架构数据仓库系统中,访问日志通常放在数据仓库层;对数据仓库层访问日志表解析中,首先应该核心提取访问用户ID,访问用户的访问时间,访问地址URL字段;在日志处理中,限制爬虫,日志表里有限制爬虫字段,spider=1,限制非爬虫;过滤内部IP即关联内部IP表;访问链接URL解析,由于访问链接地址多种多样,采用正则表达式对地址进行有效的过滤,包括确立链接开头地址;对于无效用户同时排除;S12:统计用户模块访问次数,首先应该在...
【专利技术属性】
技术研发人员:许哲熙,
申请(专利权)人:焦点科技股份有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。