访问标识索引系统及访问标识索引库生成方法技术方案

技术编号:2847227 阅读:222 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种访问标识索引系统包括:包括连接设置在网络的服务器模块、日志分析模块及索引模块;日志分析模块用于处理来自所述服务器模块的访问日志文件,生成增量索引数据,并将增量索引数据传送至所述索引模块;索引模块用于处理来自所述日志分析模块的所述增量索引数据,生成并存储索引数据。本发明专利技术还涉及一种基于此访问标识索引系统的访问标识索引库生成方法,收集和分析互联网网站的查询和点击日志,对访问标识所对应的用户在一段时间内的搜索点击浏览行为记录建立索引,提供查询,使得网站可以进一步深入的研究用户行为,了解用户需求,针对用户需求实现更多的个性化功能。

【技术实现步骤摘要】

本专利技术涉及一种访问标识索引系统以及基于此访问标识索引系统的访问标识索引库生成方法。
技术介绍
在互连网中,当用户访问一个Web网站时,该网站会为用户生成一个访问标识,以记录用户曾经访问过该网站。在现有技术中,用户标识通过cookie技术实现。cookie是Web服务器保存在用户硬盘上的一段文本。cookie允许一个Web站网在用户的机器上保存信息并且随后再取回它。一个Web网站为每一个访问者产生一个唯一的ID,然后以Cookie文件的形式保存在每个用户的机器上。cookie允许一个网站在用户的机器上保存网站相关信息,从而网站可以记住浏览器上一次所处的状态。用户ID是一种简单的状态信息--如果用户的机器上有ID存在,网站会知道用户此前访问过它。网站可以通过各种不相同的方式利用cookie实现多种功能。最为常见的有网站通过cookie较为精确的统计浏览人数、保存用户的设置、定制用户个性化空间、记录用户网站轨迹以显示用户访问该网页的次数、显示用户上一次的访问时间、记录用户以前在本页中所做的选择等等。在现有技术中,网站对其网站服务器上所保存的访问标识信息(特别是cookie信息)和用户行为信息的分析利用,一般仅限于基于访问标识信息(特别是cookie信息)的一些简单统计以及以数据分析挖掘方式生成的用户简档(user profile)。对于一个用户,用户简档保存了一些事实性或推测性的个人身份信息(如性别,年龄、籍贯、职业、地址等)和主要个人行为倾向信息(如某些方面的兴趣、爱好和习惯等);用户简档的特点是,数据具有总结性,存储的数据量相对较小,格式一般为结构化数据。用户简档中的每一种信息,一般是对用户在某一方面的归类信息。由于用户简档是总结性信息,用户原始行为记录中的大量具体信息可能在用户简档中没有体现,限制了网站在用户行为和用户需求了解上的准确性,使网站难以针对用户具体需求提供更有效的服务。
技术实现思路
本专利技术的目的在于针对现有技术存在的缺陷提供访问标识索引系统及基于此系统的访问标识索引库生成方法,收集和分析互联网网站的查询和点击日志,对访问标识所对应的用户在一段时间内的搜索点击浏览行为记录建立索引,提供查询,实现Web网站对访问标识的管理利用,特别是对cookie的管理利用。为实现上述目的,本专利技术提供了一种访问标识索引系统以及基于此系统的访问标识索引库生成方法,进一步的,还提供了利用所述访问标识索引库生成方法生成的访问索引库建立展现内容索引库的方法。访问标识索引系统,包括连接设置在网络的服务器模块、日志分析模块及索引模块;日志分析模块用于处理来自所述服务器模块的访问日志文件,生成增量索引数据,并将增量索引数据传送至索引模块;索引模块用于处理来自日志分析模块的增量索引数据,生成并存储索引数据;所述索引数据可以是访问标识索引数据或/和关键词索引数据;所述访问标识索引数据是访问标识到关键词的索引数据;所述关键词索引数据是关键词到访问标识的索引数据。访问标识索引库生成方法,包括以下步骤步骤1、日志分析模块从服务器模块获取访问日志文件;步骤2、日志分析模块生成增量索引数据;步骤3、日志分析模块将所述增量索引数据传送至索引模块;步骤4、索引模块处理来自所述日志分析模块的所述增量索引数据,生成并更新索引数据。进一步的,步骤4之后还可以包括步骤5、生成展现内容访问标识索引数据。同样,步骤5之后还可以包括步骤6、生成访问标识展现内容索引数据。本专利技术实现了收集和分析互联网网站的查询和点击日志,使得网站(特别是提供网上信息服务的网站,如搜索引擎)可以以访问标识(特别是cookie中的用户ID)为单位,利用记录在日志中用户与网站的互动情况,分析每个用户在一段时间内的网上行为,以进一步深入地研究用户行为特征,了解用户需求,针对用户需求实现更多的个性化功能,从而达到为用户提供更令人满意服务的目的。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明图1为本专利技术访问标识索引系统结构示意图。图2为本专利技术访问标识索引系统实施例二日志分析模块结构示意图。图3为本专利技术访问标识索引系统实施例二检索模块结构示意图。图4为本专利技术访问标识索引系统实施例二访问标识索引数据库模块结构示意图。图5为本专利技术访问标识索引系统实施例三日志分析模块结构示意图; 图6为本专利技术访问标识索引系统实施例四展现内容索引模块结构示意图;图7为本专利技术访问标识索引库生成方法流程图;图8为图7所示方法中增量访问标识索引生成方法流程图;图9为图7所示方法中生成并存储索引数据的流程图;图10为图8所示方法中生成并储存分时段增量索引数据、历史索引数据的流程图;图11为图10所示方法中生成并更新访问标识分时段增量索引数据流程图;图12为图10所示方法中生成并更新访问标识历史索引数据流程图;图13为图10所示方法中生成并更新关键词分时段增量索引数据流程图;图14为图10所示方法中生成并更新关键词历史索引数据流程图;图15为生成展现内容访问标识索引数据流程图;图16为生成访问标识展现内容索引数据流程图。具体实施例方式为实现本专利技术,首先需要建立一个访问标识索引系统,如图1所示,包括连接设置在网络的服务器模块、日志分析模块及索引模块。下面是该系统的具体实施例实施例一如图1所示,包括连接设置在网络的服务器模块、日志分析模块及索引模块。其中服务器模块可以通过标准的开源模块如apache模块实现,也可以通过其它服务器模块实现。日志分析模块用于处理来自所述服务器模块的访问日志文件,用于处理来自服务器模块的访问日志文件,生成增量索引数据,并将增量索引数据传送至索引模块。索引模块用于处理来自日志分析模块的增量索引数据,生成并存储索引数据。所述索引数据可以是访问标识索引数据或/和关键词索引数据;所述访问标识索引数据是访问标识到关键词的索引数据;所述关键词索引数据是关键词到访问标识的索引数据。进一步的,可以选择将日志分析模块和索引模块分布不同的机器和/或不同机器组上,借由多台机器的处理能力和存储能力完成对大规模数据的处理和存储。在本实施例中,所述日志分析模块和索引模块设置在不同组机器上,通过网络通信联系。实施例二由于来自服务器模块的日志文件数据十分庞大,数据处理工作负荷也相应的较重。因此,在实施例一的基础上,如图2所示,日志分析模块可以进一步包括日志预处理模块、增量访问标识索引生成模块,以实现对数据的分步处理,降低单次处理的工作量。日志分析模块中还设置增量索引传送模块,用于向索引模块送数据。日志预处理模块用于处理来自所述服务器模块的访问日志文件,生成查询预处理数据;增量索引生成模块用于处理所述查询预处理数据,生成增量索引数据;增量索引传送模块用于将所述增量索引数据传送至索引模块。所述日志预处理模块以及增量索引生成模块可以设置在同一机器或机器组中。通常,特别是大型网站中,访问数据十分庞大,更新速度也较快,将所述日志分析模块和增量索引生成模块设置在同一机器上,通过文件共享的方式共享所需数据,可减少不必要文件传送时间。索引模块,如图3所示,包括增量索引接收模块、分时段增量索引合并模块、索引库模块。增量索引接收模块用于接收来自日志分析模块的增量索引数据;分时段增量索引合并模块用于处理来自增量本文档来自技高网
...

【技术保护点】
一种访问标识索引系统,包括连接设置在网络的服务器模块,其特征在于,还包括:日志分析模块及索引模块;所述日志分析模块用于处理来自所述服务器模块的访问日志文件,生成增量索引数据,并将所述增量索引数据传送至所述索引模块;所述索引模 块用于处理来自所述日志分析模块的所述增量索引数据,生成并存储索引数据;所述索引数据可以是访问标识索引数据或/和关键词索引数据;所述访问标识索引数据是访问标识到关键词的索引数据;所述关键词索引数据是关键词到访问标识的索 引数据。

【技术特征摘要】
1.一种访问标识索引系统,包括连接设置在网络的服务器模块,其特征在于,还包括日志分析模块及索引模块;所述日志分析模块用于处理来自所述服务器模块的访问日志文件,生成增量索引数据,并将所述增量索引数据传送至所述索引模块;所述索引模块用于处理来自所述日志分析模块的所述增量索引数据,生成并存储索引数据;所述索引数据可以是访问标识索引数据或/和关键词索引数据;所述访问标识索引数据是访问标识到关键词的索引数据;所述关键词索引数据是关键词到访问标识的索引数据。2.根据权利要求1所述的访问标识索引系统,其特征在于,所述日志分析模块包括日志预处理模块、增量索引生成模块、以及增量索引传送模块;所述日志预处理模块用于处理来自所述服务器模块的访问日志文件,生成查询预处理数据;所述增量索引生成模块用于处理所述查询预处理数据,生成增量索引数据;所述增量索引传送模块用于将所述增量索引数据传送至所述索引模块。3.根据权利要求2所述的访问标识索引系统,其特征在于,所述日志分析模块还包括一个访问标识查询串库生成模块;所述访问标识查询串库生成模块用于处理来自所述增量索引模块的所述查询预处理数据,并存储处理后的数据。4.根据权利要求1所述的访问标识索引系统,其特征在于,所述索引模块包括增量索引接收模块、分时段增量索引合并模块、索引库模块;所述增量索引接收模块用于接收来自所述日志分析模块的所述增量索引数据;所述分时段增量索引合并模块用于处理来自所述增量索引接收模块的所述增量索引数据生成分时段增量索引数据;所述索引库模块与分时段增量索引模块连接,用于更新、存储所述索引数据。5.根据权利要求4所述的访问标识索引系统,其特征在于,所述索引库模块包括分时段增量索引库模块、历史索引库模块以及历史索引合并模块;所述分时段增量索引库模块用于储存来所述自分时段增量索引合并模块的所述分时段增量索引数据;所述历史索引库模块与所述历史索引合并模块连接,用于存储历史索引数据;所述历史索引合并模块用于根据所述分时段增量索引数据库模块中存储的分时段增量索引数据更新所述历史索引库模块。6.根据权利要求4所述的访问标识索引系统,其特征在于,所述索引模块还包括展现内容索引模块;所述展现内容索引模块用于根据所述索引库模块存储的所述索引数据生成并存储展现内容索引数据。7.根据权利要求6所述的访问标识索引系统,其特征在于,展现内容索引模块包括相互连接的展现内容关键词索引库模块、展现内容访问标识索引库模块和访问标识展现内容索引库模块;所述展现内容关键词索引库模块用于储存展现内容关键词索引数据;所述展现内容访问标识索引库模块连接所述展现内容关键词索引库模块,用于生成并储存展现内容访问标识索引数据;所述访问标识展现内容索引库模块连接所述展现内容访问标识索引库模块,用于生成、储存访问标识展现内容索引数据。8.一种访问标识索引库生成方法,其特征在于,包括以下步骤步骤1、日志分析模块从服务器模块获取访问日志文件;步骤2、日志分析模块生成增量索引数据;步骤3、日志分析模块将所述增量索引数据传送至索引模块;步骤4、索引模块处理来自所述日志分析模块的所述增量索引数据,生成并更新索引数据。9.根据权利要求8所述的访问标识索引库生成方法,其特征在于,步骤2具体为步骤21、分析来自服务器模块的所述访问日志文件,提取所需字符串,生成查询预处理数据;步骤22、根据查询预处理数据生成增量索引数据。10.根据权利要求9所述的访问标识索引库生成方法,其特征在于,步骤21之后进一步包括步骤21a、日志分析模块根据查询预处理数据提取的查询串生成分时段增量查询串并储存。11.根据权利要求8所述的访问标识索引库生成方法,其特征在于,步骤4具体包括以下步骤步骤41、判断是否到达索引数据生成时刻,是则执行步骤42,否则继续执行步骤41;步骤42、读取来自日志分析模块的增量索引数据;步骤43、判断是否有新的增量索引数据到达,是则执行步骤44,否则执行步骤41;步骤44、从上次读取的位置点之后读取增量索引数据;步骤45、生成新的索引数据并更新索引数据。12.根据权利要求11所述的访问标识索引库生成方法,其特征在于,步骤45具体为步骤451、生成并更新分时段增量索引数据;步骤452、判断是否到达合并时刻,是则执行步骤453,否则继续执行步骤452;步骤453、将分时段增量索引数据复制到合并数据目录;步骤454、生成并更新历史索引数据。13.根据权利要求12所述的访问标识索引库生成方法,其特征在于,当所述增量索引数据为访问标识增量索引数据、分时段增量索引数据为访问标识分时段增量索引数据时,步骤451具体为步骤4511a、判断是否已经存在此访问标识的访问标识分时段增量索引数据,是,则执行步骤4512a,否则,执行步骤4513a;步骤4512a、将该访问标识的访问标识增量索引数据与访问标识分时段增量索引数据进行加权合并生成该访问标识新的访问标识分时段增量索引数据,保存至分时段增...

【专利技术属性】
技术研发人员:李彦宏朱洪波刘建国郭眈周利民王湛刘子正袁杰王闯杨文凯
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1