一种用户兴趣网址挖掘方法及装置制造方法及图纸

技术编号:9113469 阅读:103 留言:0更新日期:2013-09-05 02:39
本发明专利技术公开了一种用户兴趣网址挖掘方法及装置。其中,一种用户兴趣网址挖掘方法包括:从用户的实时浏览行为中,提取行为特征信息;利用所提取的所述行为特征信息与预设浏览行为集合中元素的属性值进行匹配;如果所述行为特征信息与所述预设浏览行为集合中元素的属性值匹配成功,则提取匹配成功的所述元素对应的网址信息。也就是说本发明专利技术提供的用户兴趣网址挖掘方法可以提取实时浏览行为中的行为特征信息,进一步可以对行为特征信息与属性值进行实时匹配,从匹配结果中实时提取网址信息,相对于通过记录一段时间内用户所使用的网址来进行网址挖掘的现有技术来说,缩短延迟时间,提高挖掘的实时性。

【技术实现步骤摘要】
一种用户兴趣网址挖掘方法及装置
本专利技术涉及互联网应用
,特别是涉及一种用户兴趣网址挖掘方法及装置。
技术介绍
导航网站呈现给用户的热门网址通常是经过提供方编辑的热门网址,然而单个用户实际使用的热门网址有限,并且单个用户常用的网址可能并不是大众意义上的热门网址。因此对于单个用户而言,其需要的是自身感兴趣的网址,用户兴趣网址挖掘方法正是从海量的用户上网记录中,快速解析出用户感兴趣的网址,并利用网址平台,将用户感兴趣的网址在导航网站中推荐给用户,从而在单个用户使用的浏览器的导航网站中仅存储用户感兴趣的网址。现有的网址挖掘方案,是通过记录一段时间内用户所使用的网址来进行网址挖掘:如果用户多天内总是使用同一网址,则判定该网址为用户感兴趣的网址,并且将该网址推送至导航网站中。由于历史行为能够体现出用户在最近一段时间的使用习惯,因此这种挖掘方案具有一定的准确性。但是这种方案的缺点在于:需要搜集多天的用户行为记录作为挖掘依据,因此从开始搜集数据到得出结果的过程存在数天的延迟,导致挖掘的实时性较差。
技术实现思路
为解决上述技术问题,本专利技术实施例提供一种用户兴趣网址挖掘方法及装置,以解决现有用户兴趣网址挖掘方法中从开始搜集数据到得出结果的过程存在数天延迟导致的挖掘实时性较差的问题,技术方案如下:本专利技术实施例提供一种用户兴趣网址挖掘方法,包括:从用户的实时浏览行为中,提取行为特征信息;利用所提取的所述行为特征信息与预设浏览行为集合中元素的属性值进行匹配;如果所述行为特征信息与所述预设浏览行为集合中元素的属性值匹配成功,则提取匹配成功的所述元素对应的网址信息。在本专利技术的一种具体实施方式中,所述行为特征信息包括:名称信息、题目信息和/或统一资源定位符信息;所述利用所提取的所述行为特征信息与预设浏览行为集合中元素的属性值进行匹配,包括:利用所述名称信息与所述预设浏览行为集合中元素的名称属性值进行匹配;和/或利用所述题目信息与所述预设浏览行为集合中元素的名称属性值进行匹配;和/或利用所述统一资源定位符信息与所述预设浏览行为集合中元素的统一资源定位符属性值进行匹配。在本专利技术的一种具体实施方式中,所述行为特征信息还包括:网址类型信息;所述利用所提取的所述行为特征信息与预设浏览行为集合中元素的属性值进行匹配还包括:利用所述网址类型信息与所述预设浏览行为集合中元素的类型属性值进行匹配。在本专利技术的一种具体实施方式中,所述提取匹配成功的所述元素对应的网址信息,包括:当所述元素对应的网址信息的个数为一个时,直接提取匹配成功的所述元素对应的网址信息。在本专利技术的一种具体实施方式中,所述提取匹配成功的所述元素对应的网址信息,包括:当所述元素对应的网址信息的个数大于一个时,获取元素的网页浏览时间属性值;提取与所述实时浏览行为的发生时间最接近的网页浏览时间属性值对应的网址信息。在本专利技术的一种具体实施方式中,所述提取匹配成功的所述元素对应的网址信息,包括:判断所述元素对应的网址信息的是否为已被操作过的网址信息,其中所述操作包括删除操作、添加操作和/或推送操作;根据判断结果,提取未被操作过的网址信息。本专利技术实施例还提供一种用户兴趣网址挖掘装置,该装置包括:第一提取单元,用于从用户的实时浏览行为中,提取行为特征信息;匹配单元,用于利用所提取的所述行为特征信息与预设浏览行为集合中元素的属性值进行匹配;第二提取单元,用于在所述行为特征信息与所述预设浏览行为集合中元素的属性值匹配成功的情况下,提取匹配成功的所述元素对应的网址信息。在本专利技术的一种具体实施方式中,所述行为特征信息包括:名称信息、题目信息和/或统一资源定位符信息;所述匹配单元具体用于:利用所述名称信息与所述预设浏览行为集合中元素的名称属性值进行匹配;和/或利用所述题目信息与所述预设浏览行为集合中元素的名称属性值进行匹配;和/或利用所述统一资源定位符信息与所述预设浏览行为集合中元素的统一资源定位符属性值进行匹配。在本专利技术的一种具体实施方式中,所述行为特征信息还包括:网址类型信息;所述匹配单元进一步用于利用所述网址类型信息与所述预设浏览行为集合中元素的类型属性值进行匹配。在本专利技术的一种具体实施方式中,所述第二提取单元包括:第一判断子单元,用于判断所述元素对应的网址信息的个数是否为一个;第一提取子单元,用于当所述元素对应的网址信息的个数为一个时,直接提取匹配成功的所述元素对应的网址信息;获取子单元,用于当所述元素对应的网址信息的个数大于一个时,获取元素的网页浏览时间属性值;第二提取子单元,用于提取与所述实时浏览行为的发生时间最接近的网页浏览时间属性值对应的网址信息。在本专利技术的一种具体实施方式中,所述第二提取单元具体用于:判断所述元素对应的网址信息的是否为已被操作过的网址信息,其中所述操作包括删除操作、添加操作和/或推送操作;根据判断结果,提取未被操作过的网址信息。本专利技术提供的用户兴趣网址挖掘方法可以从用户的实时浏览行为中提取行为特征信息,利用所提取的所述行为特征信息可以与预设浏览行为集合中元素的属性值进行匹配,再从匹配成功的元素对应的匹配结果中提取网址信息。也就是说本专利技术提供的用户兴趣网址挖掘方法可以提取实时浏览行为中的行为特征信息,进一步可以对行为特征信息与属性值进行实时匹配,从匹配结果中实时提取网址信息,相对于通过记录一段时间内用户所使用的网址来进行网址挖掘的现有技术来说,缩短延迟时间,提高挖掘的实时性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1为根据本专利技术实施例的挖掘体系结构示意图;图2为本专利技术实施例提供的一种用户兴趣网址挖掘方法的一种流程图;图3为本专利技术实施例提供的一种用户兴趣网址挖掘方法的第二种流程图;图4为本专利技术实施例提供的一种用户兴趣网址挖掘方法的第三种流程图;图5为本专利技术实施例提供的一种用户兴趣网址挖掘方法的第四种流程图;图6为本专利技术实施例提供的用户兴趣网址挖掘装置的结构示意图;图7为本专利技术实施例提供的用户兴趣网址挖掘装置中第二提取单元的一种结构示意图。具体实施方式首先对本专利技术所提供的一种用户兴趣网址挖掘方法进行说明,该方法可以包括以下步骤:从用户的实时浏览行为中,提取行为特征信息;利用所提取的所述行为特征信息与预设浏览行为集合中元素的属性值进行匹配;如果所述行为特征信息与所述预设浏览行为集合中元素的属性值匹配成功,则从匹配成功的所述元素对应的匹配结果中提取网址信息。上述步骤的执行主体,可以是一个能够与客户端进行通信的挖掘装置,图1所示为根据本专利技术实施例的挖掘体系结构示意图,其中挖掘装置100是针对客户端200设置,目的是截获客户端200发送至服务器300的数据流,对客户端使用的网址进行自动挖掘,并将挖掘到的网址信息推送到导航网站中显示,其中数据流由用户在浏览网址时的行为特征信息组成。在实际应用中,挖掘装置100可以位于服务器300内,当然挖掘装置100也可以作为一个独立装置连接在客户端200和服务器300之间,例如,采用一独立的挖掘终端对客户端200所使用的网址进行自动挖掘,本文档来自技高网...

【技术保护点】
一种用户兴趣网址挖掘方法,其特征在于,包括:从用户的实时浏览行为中,提取行为特征信息;利用所提取的所述行为特征信息与预设浏览行为集合中元素的属性值进行匹配;如果所述行为特征信息与所述预设浏览行为集合中元素的属性值匹配成功,则提取匹配成功的所述元素对应的网址信息。

【技术特征摘要】
1.一种用户兴趣网址挖掘方法,其特征在于,包括:从用户的实时浏览行为中,提取行为特征信息;利用所提取的所述行为特征信息与预设浏览行为集合中元素的属性值进行匹配,所述预设浏览行为集合是对所述用户之前访问的网址进行分析而得到的所述用户所浏览网址的相关内容的集合,其中一个元素的属性值对应某一个网址的相关内容;如果所述行为特征信息与所述预设浏览行为集合中元素的属性值匹配成功,则提取匹配成功的所述元素对应的网址信息。2.根据权利要求1所述的用户兴趣网址挖掘方法,其特征在于,所述行为特征信息包括:名称信息、题目信息和/或统一资源定位符信息;所述利用所提取的所述行为特征信息与预设浏览行为集合中元素的属性值进行匹配,包括:利用所述名称信息与所述预设浏览行为集合中元素的名称属性值进行匹配;和/或利用所述题目信息与所述预设浏览行为集合中元素的名称属性值进行匹配;和/或利用所述统一资源定位符信息与所述预设浏览行为集合中元素的统一资源定位符属性值进行匹配。3.根据权利要求2所述的用户兴趣网址挖掘方法,其特征在于,所述行为特征信息还包括:网址类型信息;所述利用所提取的所述行为特征信息与预设浏览行为集合中元素的属性值进行匹配还包括:利用所述网址类型信息与所述预设浏览行为集合中元素的类型属性值进行匹配。4.根据权利要求1至3任意一项所述的用户兴趣网址挖掘方法,其特征在于,所述提取匹配成功的所述元素对应的网址信息,包括:当所述元素对应的网址信息的个数为一个时,直接提取匹配成功的所述元素对应的网址信息。5.根据权利要求4所述的用户兴趣网址挖掘方法,其特征在于,所述提取匹配成功的所述元素对应的网址信息,包括:当所述元素对应的网址信息的个数大于一个时,获取元素的网页浏览时间属性值;提取与所述实时浏览行为的发生时间最接近的网页浏览时间属性值对应的网址信息。6.根据权利要求1至3任意一项所述的用户兴趣网址挖掘方法,其特征在于,所述提取匹配成功的所述元素对应的网址信息,包括:判断所述元素对应的网址信息的是否为已被操作过的网址信息,其中所述操作包括删除操作、添加操作和/或推送...

【专利技术属性】
技术研发人员:罗媛胡海燕满征瑞邵斌
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1