【技术实现步骤摘要】
本专利技术涉及一种访问标识索引系统以及基于此访问标识索引系统的访问标识索引库生成方法。
技术介绍
在互连网中,当用户访问一个Web网站时,该网站会为用户生成一个访问标识,以记录用户曾经访问过该网站。在现有技术中,用户标识通过cookie技术实现。cookie是Web服务器保存在用户硬盘上的一段文本。cookie允许一个Web站网在用户的机器上保存信息并且随后再取回它。一个Web网站为每一个访问者产生一个唯一的ID,然后以Cookie文件的形式保存在每个用户的机器上。cookie允许一个网站在用户的机器上保存网站相关信息,从而网站可以记住浏览器上一次所处的状态。用户ID是一种简单的状态信息--如果用户的机器上有ID存在,网站会知道用户此前访问过它。网站可以通过各种不相同的方式利用cookie实现多种功能。最为常见的有网站通过cookie较为精确的统计浏览人数、保存用户的设置、定制用户个性化空间、记录用户网站轨迹以显示用户访问该网页的次数、显示用户上一次的访问时间、记录用户以前在本页中所做的选择等等。在现有技术中,网站对其网站服务器上所保存的访问标识信息(特别是cookie信息)和用户行为信息的分析利用,一般仅限于基于访问标识信息(特别是cookie信息)的一些简单统计以及以数据分析挖掘方式生成的用户简档(user profile)。对于一个用户,用户简档保存了一些事实性或推测性的个人身份信息(如性别,年龄、籍贯、职业、地址等)和主要个人行为倾向信息(如某些方面的兴趣、爱好和习惯等);用户简档的特点是,数据具有总结性,存储的数据量相对较小,格式一般为结构化 ...
【技术保护点】
一种访问标识索引系统,包括连接设置在网络的服务器模块,其特征在于,还包括:日志分析模块及索引模块;所述日志分析模块用于处理来自所述服务器模块的访问日志文件,生成增量索引数据,并将所述增量索引数据传送至所述索引模块;所述索引模 块用于处理来自所述日志分析模块的所述增量索引数据,生成并存储索引数据;所述索引数据可以是访问标识索引数据或/和关键词索引数据;所述访问标识索引数据是访问标识到关键词的索引数据;所述关键词索引数据是关键词到访问标识的索 引数据。
【技术特征摘要】
1.一种访问标识索引系统,包括连接设置在网络的服务器模块,其特征在于,还包括日志分析模块及索引模块;所述日志分析模块用于处理来自所述服务器模块的访问日志文件,生成增量索引数据,并将所述增量索引数据传送至所述索引模块;所述索引模块用于处理来自所述日志分析模块的所述增量索引数据,生成并存储索引数据;所述索引数据可以是访问标识索引数据或/和关键词索引数据;所述访问标识索引数据是访问标识到关键词的索引数据;所述关键词索引数据是关键词到访问标识的索引数据。2.根据权利要求1所述的访问标识索引系统,其特征在于,所述日志分析模块包括日志预处理模块、增量索引生成模块、以及增量索引传送模块;所述日志预处理模块用于处理来自所述服务器模块的访问日志文件,生成查询预处理数据;所述增量索引生成模块用于处理所述查询预处理数据,生成增量索引数据;所述增量索引传送模块用于将所述增量索引数据传送至所述索引模块。3.根据权利要求2所述的访问标识索引系统,其特征在于,所述日志分析模块还包括一个访问标识查询串库生成模块;所述访问标识查询串库生成模块用于处理来自所述增量索引模块的所述查询预处理数据,并存储处理后的数据。4.根据权利要求1所述的访问标识索引系统,其特征在于,所述索引模块包括增量索引接收模块、分时段增量索引合并模块、索引库模块;所述增量索引接收模块用于接收来自所述日志分析模块的所述增量索引数据;所述分时段增量索引合并模块用于处理来自所述增量索引接收模块的所述增量索引数据生成分时段增量索引数据;所述索引库模块与分时段增量索引模块连接,用于更新、存储所述索引数据。5.根据权利要求4所述的访问标识索引系统,其特征在于,所述索引库模块包括分时段增量索引库模块、历史索引库模块以及历史索引合并模块;所述分时段增量索引库模块用于储存来所述自分时段增量索引合并模块的所述分时段增量索引数据;所述历史索引库模块与所述历史索引合并模块连接,用于存储历史索引数据;所述历史索引合并模块用于根据所述分时段增量索引数据库模块中存储的分时段增量索引数据更新所述历史索引库模块。6.根据权利要求4所述的访问标识索引系统,其特征在于,所述索引模块还包括展现内容索引模块;所述展现内容索引模块用于根据所述索引库模块存储的所述索引数据生成并存储展现内容索引数据。7.根据权利要求6所述的访问标识索引系统,其特征在于,展现内容索引模块包括相互连接的展现内容关键词索引库模块、展现内容访问标识索引库模块和访问标识展现内容索引库模块;所述展现内容关键词索引库模块用于储存展现内容关键词索引数据;所述展现内容访问标识索引库模块连接所述展现内容关键词索引库模块,用于生成并储存展现内容访问标识索引数据;所述访问标识展现内容索引库模块连接所述展现内容访问标识索引库模块,用于生成、储存访问标识展现内容索引数据。8.一种访问标识索引库生成方法,其特征在于,包括以下步骤步骤1、日志分析模块从服务器模块获取访问日志文件;步骤2、日志分析模块生成增量索引数据;步骤3、日志分析模块将所述增量索引数据传送至索引模块;步骤4、索引模块处理来自所述日志分析模块的所述增量索引数据,生成并更新索引数据。9.根据权利要求8所述的访问标识索引库生成方法,其特征在于,步骤2具体为步骤21、分析来自服务器模块的所述访问日志文件,提取所需字符串,生成查询预处理数据;步骤22、根据查询预处理数据生成增量索引数据。10.根据权利要求9所述的访问标识索引库生成方法,其特征在于,步骤21之后进一步包括步骤21a、日志分析模块根据查询预处理数据提取的查询串生成分时段增量查询串并储存。11.根据权利要求8所述的访问标识索引库生成方法,其特征在于,步骤4具体包括以下步骤步骤41、判断是否到达索引数据生成时刻,是则执行步骤42,否则继续执行步骤41;步骤42、读取来自日志分析模块的增量索引数据;步骤43、判断是否有新的增量索引数据到达,是则执行步骤44,否则执行步骤41;步骤44、从上次读取的位置点之后读取增量索引数据;步骤45、生成新的索引数据并更新索引数据。12.根据权利要求11所述的访问标识索引库生成方法,其特征在于,步骤45具体为步骤451、生成并更新分时段增量索引数据;步骤452、判断是否到达合并时刻,是则执行步骤453,否则继续执行步骤452;步骤453、将分时段增量索引数据复制到合并数据目录;步骤454、生成并更新历史索引数据。13.根据权利要求12所述的访问标识索引库生成方法,其特征在于,当所述增量索引数据为访问标识增量索引数据、分时段增量索引数据为访问标识分时段增量索引数据时,步骤451具体为步骤4511a、判断是否已经存在此访问标识的访问标识分时段增量索引数据,是,则执行步骤4512a,否则,执行步骤4513a;步骤4512a、将该访问标识的访问标识增量索引数据与访问标识分时段增量索引数据进行加权合并生成该访问标识新的访问标识分时段增量索引数据,保存至分时段增...
【专利技术属性】
技术研发人员:李彦宏,朱洪波,刘建国,郭眈,周利民,王湛,刘子正,袁杰,王闯,杨文凯,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。