一种兴趣信息的识别方法及装置制造方法及图纸

技术编号:15299758 阅读:62 留言:0更新日期:2017-05-12 01:58
本发明专利技术公开了一种兴趣信息的识别方法及装置,涉及信息技术领域,解决了在域名标签系统中网页域名信息对应的标签信息不完整的条件下,对用户的兴趣信息的识别精度较低的问题。本发明专利技术的主要技术方案为:获取用户的页面访问记录信息,所述页面访问记录信息包括网页标题信息;从预置存储位置获取与所述网页标题信息对应的标签信息,所述预置存储位置保存有不同网页标题信息分别对应的标签信息;将所述标签信息配置为所述用户的兴趣信息。本发明专利技术主要用于互联网营销时,对用户兴趣爱好和关注点的识别。

Method and device for identifying interest information

The invention discloses a method and device for identifying interest information, relates to the field of information technology, to solve the \domain name in the domain name condition information corresponding to the label information of the tag system is not complete, the user interest information to identify the low precision problem. The main technical scheme of the invention is: to get the user's page access record information, the page access record information includes information acquisition and page title; corresponding to the page title tag information from the preset information storage location, the preset storage location to save different web page header information corresponding to the tag information; the label configuration information for the user interest information. The invention is mainly used for identifying the interests, interests and concerns of users during Internet marketing.

【技术实现步骤摘要】

本专利技术涉及信息
,尤其涉及一种兴趣信息识别的方法及装置。
技术介绍
随着信息技术的快速发展,用户的兴趣爱好和关注点受到商家越来越多的关注,通过识别用户的兴趣爱好和关注点标签,可以增加互联网营销的精准性。通常,由于互联网用户不会主动填写和提交此类信息,只能通过被动采集互联网用户的行为数据获取用户的兴趣爱好和关注点等兴趣信息信息。其中,用户的行为数据包括用户访问的访问页URL(UniformResourceLocator,URL,即统一资源定位符)、访问页域名、访问页标题等信息。目前,通常通过域名标签系统对用户兴趣信息进行识别。具体是通过从域名标签系统中获取与用户访问的网页域名信息对应的标签信息作为用户兴趣信息。但是,由于域名标签系统中保存的网页域名信息局限性较大,无法对所有网页域名信息进行覆盖,从而造成现有兴趣信息的识别精度较低。
技术实现思路
有鉴于此,本专利技术实施例提供一种兴趣信息的识别方法及装置,主要目的是提高兴趣信息的识别精度。依据本专利技术一个方面,提供了一种兴趣信息的识别方法,包括:获取用户的页面访问记录信息,所述页面访问记录信息包括网页标题信息;从预置存储位置获取与所述网页标题信息对应的标签信息,所述预置存储位置保存有不同网页标题信息分别对应的标签信息;将所述标签信息配置为所述用户的兴趣信息。依据本专利技术一个方面,提供了一种兴趣信息的识别装置,包括:获取单元,用于获取用户的页面访问记录信息,所述页面访问记录信息包括网页标题信息;所述获取单元,还用于从预置存储位置获取与所述网页标题信息对应的标签信息,所述预置存储位置保存有不同网页标题信息分别对应的标签信息配置单元,用于将所述标签信息配置为所述用户的兴趣信息。借由上述技术方案,本专利技术实施例提供的技术方案至少具有下列优点:本专利技术实施例提供的一种兴趣信息的识别方法及装置,首先获取用户的页面访问记录信息,所述页面访问记录信息包括网页标题信息;然后从预置存储位置获取与所述网页标题信息对应的标签信息,所述预置存储位置保存有不同网页标题信息分别对应的标签信息;将所述标签信息配置为所述用户的兴趣信息。与目前通过域名标签系统识别用户兴趣信息相比,本专利技术通过网页标题信息识别用户兴趣信息,可以避免由于域名标签系统中保存的域名信息局限性较大,无法对所有域名信息进行覆盖造成的兴趣信息的识别精度较低的问题,进而可以提高识别兴趣信息的识别精度。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1为本专利技术实施例提供的一种兴趣信息的识别方法流程图;图2为本专利技术实施例提供的另一种兴趣信息的识别方法流程图;图3为本专利技术实施例提供的一种兴趣信息的识别装置的方框图;图4为本专利技术实施例提供的另一种兴趣信息的识别装置的方框图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本专利技术实施例提供一种兴趣信息的识别方法,如图1所示,所述方法包括:101、获取用户的页面访问记录信息。其中,所述页面访问记录信息包括网页标题信息,所述网页标题信息根据用户访问的访问页面获取,网页标题信息可以为电影、新闻、游戏,本专利技术实施例不做具体限定。其中,可以通过WD系统(GridsumWebDissector,即在线营销效果优化和用户行为分析系统)获取页面访问记录信息。例如,用户浏览WD系统监测的某网站,当用户点击新闻图标时,WD系统自动获取该用户访问的网页标题信息。对于本专利技术实施例,所述获取用户的页面访问记录信息具体可以为:首先,启动WD系统监测用户预访问的网站;其次,WD系统自动获取用户的页面访问记录信息,其中,用户的页面访问记录信息包含网页标题信息。例如,WD系统正在监测某电影类网站,用户浏览电影时讯网页时,WD系统自动对“电影时讯”的网页标题信息进行采集。102、从预置存储位置获取与所述网页标题信息对应的标签信息。其中,所述预置存储位置保存有不同网页标题信息分别对应的标签信息。所述标签信息为可以反应网页标题信息特征的信息。例如,对于电影购票网页标题信息,标签信息可以为电影。对于本专利技术实施例,可以通过预置算法对预置存储位置中的网页标题信息进行分类,并按类别为网页标题信息配置对应的标签信息。其中,预置存储位置中保存的分类器模型可以为支持向量机、逻辑回归等分类算法,本实施例不做具体限定。例如,首先爬取指定类别的网站标题信息:“易车网”、“51汽车网”,爬取下来的网页标题信息自动配置为“汽车”标签,存储在预置存储位置中;然后根据已知“汽车”标签的网页标题信息训练分类器,将训练后的分类器存储在预置存储位置中;当用户访问58二手车时,将访问的网页标题信息输入已训练好的分类器中,分类器输出“汽车”标签。103、将所述标签信息配置为所述用户的兴趣信息。其中,兴趣信息具体可以为反应用户兴趣爱好和关注点的信息。进一步地,对于本专利技术实施例,当将用户访问的所有网页标题信息均输入分类器分类后获取多个标签,确认最终用户兴趣标签,其中,确认方法可以根据业务要求决定,包括确认所有标签为用户的兴趣标签,或对标签出现次数进行排序,确认出现次数最多的为用户兴趣标签,本专利技术实施例不做具体限定。例如,从分类器获取的标签包括“汽车”、“家电”、“游戏”,根据业务要求将所有用户访问的网页标题信息产生的标签均确认为用户的兴趣标签,则用户的兴趣标签为“汽车”、“家电”、“游戏”。对于本专利技术实施例,具体的应用场景可以如下所示,但不限于此,包括:如关注标签为财经和汽车,如“财经网”、“和讯网”、“网易财经”、“汽车之家”、“太平洋汽车网”,通过爬虫爬取汽车类网页标题信息和财经类网页标题信息,通过输入给支持向量机分类器进行训练,建立模型,用户浏览WD系统监测的网站时,将用户访问的网页标题信息“易车网”、“和讯网”输入给分类器进行分类,根据业务要求获取所有标签为用户兴趣标签,确认得到标签为汽车和财经。本专利技术实施例提供的一种兴趣信息的识别方法,首先获取用户的页面访问记录信息,所述页面访问记录信息包括网页标题信息;然后从预置存储位置获取与所述网页标题信息对应的标签信息,所述预置存储位置保存有不同网页标题信息分别对应的标签信息;将所述标签信息配置为所述用户的兴趣信息。与目前通过域名标签系统识别用户兴趣信息相比,本专利技术通过网页标题信息识别用户兴趣信息,可以避免由于域名标签系统中保存的域名信息局限性较大,无法对所有域名信息进行覆盖造成的兴趣信息的识别精度较低的问题,进而可以提高识别兴趣信息的识别精度。进一步地,本专利技术实施例提供另一种兴趣信本文档来自技高网...
一种兴趣信息的识别方法及装置

【技术保护点】
一种兴趣信息的识别方法,其特征在于,包括:获取用户的页面访问记录信息,所述页面访问记录信息包括网页标题信息;从预置存储位置获取与所述网页标题信息对应的标签信息,所述预置存储位置保存有不同网页标题信息分别对应的标签信息;将所述标签信息配置为所述用户的兴趣信息。

【技术特征摘要】
1.一种兴趣信息的识别方法,其特征在于,包括:获取用户的页面访问记录信息,所述页面访问记录信息包括网页标题信息;从预置存储位置获取与所述网页标题信息对应的标签信息,所述预置存储位置保存有不同网页标题信息分别对应的标签信息;将所述标签信息配置为所述用户的兴趣信息。2.根据权利要求1所述的兴趣信息的识别方法,其特征在于,所述获取用户的页面访问记录信息之前,所述方法还包括:从各个数据源中分别获取对应的网页标题信息;将所述网页标题信息划分为不同类别;为每一类别中的网页标题信息配置与所述类别对应的标签信息;将各个网页标题信息以及与所述各个网页标题信息分别对应的标签信息保存在所述预置存储位置。3.根据权利要求2所述的兴趣信息的识别方法,其特征在于,所述从各个数据源中分别获取对应的网页标题信息之前,所述方法还包括:从所述各个数据源中获取符合预置条件的热点数据源;所述从各个数据源中分别获取对应的网页标题信息包括:从所述热点数据源中分别获取对应的网页标题信息。4.根据权利要求2所述的兴趣信息的识别方法,其特征在于,所述从各个数据源中分别获取对应的网页标题信息包括:按照预设时间间隔从各个数据源中分别获取对应的网页标题信息。5.根据权利要求1所述的兴趣信息的识别方法,其特征在于,所述页面访问记录信息还包括网页域名信息,所述从预置存储位置获取与所述网页标题信息对应的标签信息之前,还包括:判断域名标签系统中是否存在所述网页域名信息对应的标签信息,所述域名标签系统中保存有不同网页域名信息分别对应的标签信息;所述从预置存储位置获取与所述网页标题信息对应的标签信息包括:若不存在,则从所述预置存储位置获取与所述网页标题信息对应的标
\t签信息;若存在,则从所述域名标签系统中获取与所述网页域名信息对应的标签信息。6.一种兴趣信息的识别装置,其特征在于,包括...

【专利技术属性】
技术研发人员:郭琦
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1