数据处理方法、推荐源信息组织和信息推荐方法及装置制造方法及图纸

技术编号:12029354 阅读:63 留言:0更新日期:2015-09-10 15:14
本发明专利技术公开了一种数据处理方法、推荐源信息组织和信息推荐方法及装置,其中,数据处理方法包括:对收集到的多个用户进行网络访问的行为记录数据进行过滤,以从所述收集到的行为记录数据中获取带类别的样本数据;针对所述带类别的样本数据,对各类别的样本数据分别进行特征词抽取;存储所述抽取的特征词与相应的类别之间的对应关系。

【技术实现步骤摘要】

本专利技术涉及网络信息
,特别是涉及一种基于特征词抽取与处理的信息推 荐方法及装置。
技术介绍
随着网络技术的发展,推荐系统已经在各个领域得到了广泛的普及,成为网络信 息技术(InformationTechnology,IT)的一个重要的研究内容,获得了越来越多的关注。例 如,各种大型的电子商务系统(如淘宝网、各大网上书店等)都采用了各式各样的推荐系统。在推荐系统中,如何组织推荐源信息以及向用户推送的推荐源信息是否符合用户 的需求是非常重要的。
技术实现思路
本专利技术提供了一种数据处理方法、推荐源信息组织和信息推荐方法及装置,能够 基于用户进行网络访问的行为记录数据自动设置特征词与类别之间的对应关系,并能够进 一步的根据该对应关系有效的组织推荐源信息以及信息推荐。 依据本专利技术的第一个方面,提供了一种数据处理方法,包括:对收集到的多个用户 进行网络访问的行为记录数据进行过滤,以从所述收集到的行为记录数据中获取带类别的 样本数据;针对所述带类别的样本数据,对各类别的样本数据分别进行特征词抽取;存储 所述抽取的特征词与相应的类别之间的对应关系。 依据本专利技术的第二个方面,提供了一种推荐源信息组织方法,包括上述数据处理 方法,且该推荐源信息组织方法还包括:根据所述抽取的特征词与相应的类别之间的对应 关系组织推荐源信息。 依据本专利技术的第三个方面,提供了一种信息推荐方法,包括上述推荐源信息组织 方法,且该信息推荐方法还包括:从所述组织的推荐源信息中选取用户感兴趣的推荐源信 息,并向所述用户推送所述选取的推荐源信息。 依据本专利技术的第四个方面,提供了一种数据处理装置,包括:样本数据获取模块, 用于对收集到的多个用户进行网络访问的行为记录数据进行过滤,以从所述收集到的行为 记录数据中获取带类别的样本数据;特征词抽取模块,用于针对所述带类别的样本数据,对 各类别的样本数据分别进行特征词抽取;存储模块,用于存储所述抽取的特征词与相应的 类别之间的对应关系。 依据本专利技术的第五个方面,提供了一种推荐源信息组织装置,包括上述数据处理 装置,且该推荐源信息组织装置还包括:组织模块,用于根据所述抽取的特征词与相应的 类别之间的对应关系组织推荐源信息。 依据本专利技术的第六个方面,提供了一种信息推荐装置,包括上述推荐源信息组织 装置,且该信息推荐装置还包括:信息推荐模块,用于从所述组织的推荐源信息中选取用户 感兴趣的推荐源信息,并向所述用户推送所述选取的推荐源信息。 根据本专利技术提供的一种数据处理方法、推荐源信息组织和信息推荐方法及装置, 对多个用户的行为记录数据进行过滤获得样本数据,并对获取的每一类别的样本数据进行 特征词的抽取,这样,可以基于用户进行网络访问的行为记录数据自动的设置特征词与类 别之间的对应关系;通过利用上述设置的对应关系来组织推荐源信息,可以使各推荐源信 息能够更准确的分类,从而可以有效的为用户提供更准确的信息推荐服务。【附图说明】 为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所 需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施 例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获 得其他的附图。 图1示出了本专利技术实施例一提供的包括数据处理方法和推荐源信息组织方法在 内的信息推荐方法流程图; 图2示出了本专利技术实施例一提供的获得样本数据过程的示意图; 图3示出了本专利技术实施例一提供的网页的url对应的anchor示意图; 图4示出了本专利技术实施例一提供的从样本数据中抽取特征词的方法流程图; 图5示出了本专利技术实施例一提供的获取实体词的替代词的示意图; 图6示出了本专利技术实施例一提供的获取实体词的替代词的一个具体例子的示意 图; 图7示出了本专利技术提供实施例二提供的包括数据处理装置和推荐源信息组织装 置在内的信息推荐装置示意图。【具体实施方式】 下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于 本专利技术中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本专利技术保护的 范围。 实施例一、包括数据处理方法和推荐源信息组织方法在内的信息推荐方法。下面 结合图1对本专利技术提供的方法进行详细说明。 图1中,S101、对收集到的多个用户进行网络访问的行为记录数据进行过滤获取 样本数据,以从收集到的行为记录数据中获取带类别的样本数据。 具体的,在用户浏览网页的过程中,浏览器客户端会向相应的网站服务器发送访 问请求,通常浏览器客户端向网站服务器发送的访问请求中承载的请求信息包括用户希望 访问的URL(Uniform/UniversalResourceLocator,统一资源定位符,也称为网页地址)、 请求类型以及http(Hypertexttransferprotocol,超文本传输协议)版本等信息。网 站服务器根据浏览器客户端发送的访问请求,将与访问请求相关的内容推送给浏览器客户 端。而目前有很多支持用户个性化服务的推荐系统,根据用户的访问请求向用户推荐用户 真正感兴趣的内容。在组织推荐系统的推荐源信息之前,需要收集多个用户的行为记录数 据(理想的状态是能够收集到全网所有用户进行网络访问的行为记录数据),具体的,用户 通过浏览器客户端进行网络访问时,浏览器客户端会将用户进行网络访问的行为记录数据 上报给相应的网络侧设备如浏览器的管理设备(即浏览器服务端),这样,浏览器的管理设 备就会收集到多个用户的行为记录数据。在优选实施例中,浏览器的管理设备可以收集到 网络中所有使用浏览器客户端的用户进行网络访问的行为记录数据。推荐系统中的词常用 于表示用户的个性化信息,可以从预先组织好的推荐源信息中查找与词相关的信息,并将 该信息推荐给用户。词的表示方法及词的抽取质量对推荐系统的推荐效果会产生较大的影 响。因此需要对收集到的用户进行网络访问的行为记录数据中的样本数据进行高质量的特 征词提取,然后根据抽取的特征词组织推荐源信息。要想实现高质量的特征词提取,首先需 要保证从用户的行为记录数据(如用户的浏览日志数据或用户的收藏夹数据等)中能够获 得高质量的样本数据。 在特征词的抽取过程中,样本数据的质量对于特征词的抽取质量有很大的影响, 若样本数据中包含大量噪音(即与用户访问的内容无关的内容),则很难抽取到合理的特征 词。因此,在优选实施例中,采用模板过滤的方法从用户的行为记录数据中抽取高质量的样 本数据,其中,模板具有一定的规则,且带有一定的类别,可以将符合模板类别的用户的行 为记录数据过滤出来。具体的,主要是对用户浏览日志和/或收藏夹中的URL进行模板过 滤,在优选实施例中,定义三种URL模板:带类别的refer页url模板(可以简称为refer页 url模板)、带类别的最终页的url模板(可以简称为最终页的url模板)和通用的最终页的 url模板;其中,refer页url模板是针对用户访问的当前页面的前一个页面的url设置了 一定规则的模板,如在用户访问的当前页面的前一个页面的url满足一定的规则时,该模 板可以识别出该当前页面的前一个页面的url本文档来自技高网...

【技术保护点】
一种数据处理方法,其特征在于,包括:对收集到的多个用户进行网络访问的行为记录数据进行过滤,以从所述收集到的行为记录数据中获取带类别的样本数据;针对所述带类别的样本数据,对各类别的样本数据分别进行特征词抽取;存储所述抽取的特征词与相应的类别之间的对应关系。

【技术特征摘要】

【专利技术属性】
技术研发人员:郭奇肖镜辉商胜崔华
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1