一种web日志用户识别方法和系统技术方案

技术编号:20797727 阅读:18 留言:0更新日期:2019-04-06 11:20
本发明专利技术提供了一种web日志用户识别方法和系统。该方法包括:从用户行为日志中提取日志关键字段,其中,所述日志关键字段至少包括统一资源定位符URL;从所述统一资源定位符URL中构建反映用户行为动机的多个行为特征;根据所述多个行为特征计算用户行为动机相似度并基于所述用户行为动机相似度来识别用户。本发明专利技术的方法和系统能够根据web日志准确有效地进行用户识别。

A Web Log User Recognition Method and System

The invention provides a web log user identification method and system. The method includes: extracting log key fields from user behavior log, in which the log key fields include at least a unified resource locator URL; constructing multiple behavior characteristics reflecting user behavior motivation from the unified resource locator URL; calculating user behavior motivation similarity based on the multiple behavior characteristics and identifying the user behavior motivation similarity based on the user behavior motivation similarity. Households. The method and system of the invention can accurately and effectively identify users according to web logs.

【技术实现步骤摘要】
一种web日志用户识别方法和系统
本专利技术涉及信息
,尤其涉及一种web日志用户识别方法和系统。
技术介绍
用户识别技术作为Web日志挖掘的基础,是从大量无序的数据中分析出匿名用户的独立行为轨迹和特征,并最终识别出唯一的用户个体。在现有技术中,通常利用启发式方法,根据用户的IP、cookie标识和user-agent等信息来追踪用户,而由于用户在登陆internet时,互联网服务提供商往往会随机分配IP地址给用户,使得一个用户拥有很多IP地址,因此这种方法面临着以下问题:1)、“多用户问题”和“单用户问题”,“多用户问题”是指同一个用户在不同的时间内通过在地址栏输入URL或从收藏夹中进入网页会被识别为多个用户,“单用户问题”是指多个用户共享一个IP甚至使用同种设备和浏览器可能会被识别为一个用户。2)、效率问题,对于web用户访问量在百万级别以上的情况,目前的用户识别算法的效率不高。因此,需要对现有技术进行改进,以提供一种处理效率高并且识别准确率高的用户识别方法和系统。
技术实现思路
本专利技术的目的在于克服上述现有技术的缺陷,提供一种web日志用户识别方法和系统。根据本专利技术的本文档来自技高网...

【技术保护点】
1.一种web日志用户识别方法,包括以下步骤:步骤1:从用户行为日志中提取日志关键字段,其中,所述日志关键字段至少包括统一资源定位符URL;步骤2:从所述统一资源定位符URL中构建反映用户行为动机的多个行为特征;步骤3:根据所述多个行为特征计算用户行为动机相似度并基于所述用户行为动机相似度来识别用户。

【技术特征摘要】
1.一种web日志用户识别方法,包括以下步骤:步骤1:从用户行为日志中提取日志关键字段,其中,所述日志关键字段至少包括统一资源定位符URL;步骤2:从所述统一资源定位符URL中构建反映用户行为动机的多个行为特征;步骤3:根据所述多个行为特征计算用户行为动机相似度并基于所述用户行为动机相似度来识别用户。2.根据权利要求1所述的方法,其中,所述多个行为特征包括访问类型、访问网站版块、访问商铺行为、访问商品行为、搜索行为中的至少一项。3.根据权利要求1所述的方法,其中,步骤3进一步包括:步骤31:基于从所述用户行为日志中提取的所述日志关键字段识别是否是同一个用户;步骤32:对于没有识别出用户的用户行为日志,进一步基于所述用户行为动机相似度来进行识别。4.根据权利要求3所述的方法,其中,所述日志关键字段还至少包括上一个访问页面的统一资源定位符referrerURL、用户标识、user-agent、cookie标识和session标识,在步骤31中,将满足以下条件中任一项的两条用户行为日志判定为同一个用户:该两条用户行为日志的用户标识不是空字段并且相同;该两条用户行为两条日志的cookie标识不是空字段并且相同;该两条用户行为日志的session标识不是空字段并且相同;或者该两条用户行为日志的统一资源定位符URL和上一个访问页面的统一资源定位符referrerURL符合网站的拓扑结构。5.根据权利要求3所述的方法,其中,对于两条用户行为日志,步骤32包括:步骤321:如果从该两条用户行为日志中提取的多个行为特征包含访问商铺行为,则提取主营业务描述,如果包含访问商品行为,则提取商品标题,如果包含搜索行为,则提取搜索关键词;步骤322:对于从该两条用户行为日志中提取的主营业务描述、商品标题或搜索关键词进行用户行为动机相似度计算,如果相似度差值小于阈值,...

【专利技术属性】
技术研发人员:张梦菲方金云肖茁建
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1