一种提取信息的方法和装置制造方法及图纸

技术编号:15650016 阅读:62 留言:0更新日期:2017-06-17 02:56
本发明专利技术公开了一种提取信息的方法和装置,该方法包括:设置匹配规则以及获取需要处理的用户网络行为日志;根据设置的匹配规则在获得的用户网络行为日志中获取包含用户信息的匹配信息;按照预先设置的提取规则从获得的匹配信息中提取用户信息。本发明专利技术技术方案通过从Cookie以及URL中提取出需要的用户信息,更好地实现了精准化的营销和用户隐私保护。

【技术实现步骤摘要】
一种提取信息的方法和装置
本专利技术涉及网络
,尤指一种提取信息的方法和装置。
技术介绍
用户网络行为日志记录了用户上网时留下的使用记录,包含有用户的上网账户、IP地址、访问页面的统一资源定位符(URL)、Cookie、来源页面的URL(ReferURL)、UA和时间戳等信息。用户网络行为日志里蕴含的用户信息,主要出现在URL、Cookie和UA中。其中,URL是用户上网产生的超文本传送协议(HTTP,Hypertexttransferprotocol)请求链接,Cookie是用户访问网站时产生的用于识别用户、进行会话(session)跟踪的数据,而UA则被用来辨别浏览器版本以及向用户所访问的网站的服务器提供某些系统信息的细节。由于网络行为日志里含有大量有价值的信息,这些信息可用于发掘用户的兴趣特征和行为模式,从而实现个性化的精准营销。目前,对于上网日志(即网络行为日志)的数据挖掘主要有两种方式:一是从日志中发现用户浏览模式,分析页面与来源页面的引用关系,挖掘频繁的浏览跳转路径;二是根据日志里URL、时间、IP地址以及浏览的页面的内容构造多维视图,建立多个用户与多个页面之间的关联性,以发掘现在的顾客、用户与和市场等。第一种方式侧重于页面之间的跳转关系,无法分析用户长时间跨度内的上网行为;第二种方式侧重于用户与访问的页面内容的关系,往往需要爬虫对超文本标记语言(html)页面进行定向抓取和分析。这两种方式都忽视了网络日志本身尤其是URL和Cookie中含有的与用户相关的信息,另外,由于同一个上网账户下可能存在大量不同的用户(如公共Wifi以及公司上网账户,就算是家庭宽带用户,往往一个上网账户也对应着若干个现实中的自然人),所以挖掘往往很难准确地定位到个人。那么,如何从Cookie以及URL中提取出需要的用户信息,则成为亟需解决的难题。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种提取信息的方法和装置,能够从Cookie以及URL中提取出需要的用户信息,更好地实现精准化的营销和用户隐私保护。为了达到本专利技术目的,本专利技术提供了一种提取信息的方法,包括:设置匹配规则以及获取需要处理的用户网络行为日志;根据设置的匹配规则在获得的用户网络行为日志中获取包含用户信息的匹配信息;按照预先设置的提取规则从获得的匹配信息中提取用户信息。进一步地,所述匹配规则包括:统一资源定位符URL域名的第一匹配条件D,以及Cookie的键值对的第二匹配条件C,和/或路径Path的第三匹配条件P,和/或查询Query的键值对的第四匹配条件Q;所述获取包含用户信息的匹配信息包括:将所述获得的用户网络行为日志进行所述第一匹配条件D的匹配以获取匹配结果;对获得的所述匹配结果进行所述第二匹配条件C的匹配,和/或所述第三匹配条件P的匹配,和/或所述第四匹配条件Q的匹配,以获取所述包含用户信息的匹配信息。进一步地,所述对获得的匹配结果进行所述第二匹配条件C的匹配,和/或所述第三匹配条件P的匹配,和/或所述第四匹配条件Q的匹配,以获取所述包含用户信息的匹配信息,包括:分别建立与所述第二匹配条件C对应的Cookie规则索引树、与所述第三匹配条件P对应的Path规则索引树,与所述第四匹配条件Q对应的Query规则索引树;根据所述Cookie规则索引树或者所述Path规则索引树或者所述Query规则索引树对所述匹配结果进行由大到小的深度匹配的域名节点的匹配,以获取所述包含用户信息的匹配信息;其中,所述Cookie规则索引树、所述Path规则索引树和所述Query规则索引树均包括由大到小的深度匹配的域名节点。进一步地,所述预先设置的提取规则包括:用户信息类型I和正则表达式R。进一步地,所述预先设置的提取规则还包括:自定义V,和/或特殊情况E。进一步地,所述按照预先设置的提取规则从获得的匹配信息中提取用户信息包括:根据所述I对获得的所述包含用户信息的匹配信息进行所述R校验,以提取用户信息。进一步地,所述按照预先设置的提取规则从获得的匹配信息中提取用户信息包括:根据所述I对获得的所述包含用户信息的匹配信息进行所述R校验之后,再进行所述V校验,和/或所述E校验,以提取用户信息。本专利技术还提供了一种提取信息的装置,包括:设置模块、获取模块、匹配模块和提取模块;其中,设置模块,用于设置匹配规则;获取模块,用于获取需要处理的用户网络行为日志;匹配模块,用于根据设置的匹配规则在获得的用户网络行为日志中获取包含用户信息的匹配信息;提取模块,用于按照预先设置的提取规则从获得的匹配信息中提取用户信息。进一步地,所述匹配规则包括:统一资源定位符URL域名的第一匹配条件D,以及Cookie的键值对的第二匹配条件C,和/或路径Path的第三匹配条件P,和/或查询Query的键值对的第四匹配条件Q;所述匹配模块包括:第一匹配单元和第二匹配单元;其中,所述第一匹配单元,用于将所述获得的用户网络行为日志进行所述第一匹配条件D的匹配以获取匹配结果;所述第二匹配单元,用于对获得的所述匹配结果进行所述第二匹配条件C的匹配,和/或所述第三匹配条件P的匹配,和/或所述第四匹配条件Q的匹配,以获取包含所述用户信息的匹配信息。进一步地,所述第二匹配单元,具体用于:分别建立与所述第二匹配条件C对应的Cookie规则索引树、与所述第三匹配条件P对应的Path规则索引树,与所述第四匹配条件Q对应的Query规则索引树;根据所述Cookie规则索引树或者所述Path规则索引树或者所述Query规则索引树对所述匹配结果进行由大到小的深度匹配的域名节点的匹配,以获取包含所述用户信息的匹配信息;其中,所述Cookie规则索引树、所述Path规则索引树和所述Query规则索引树均包括由大到小的深度匹配的域名节点。进一步地,所述预先设置的提取规则包括:用户信息类型I和正则表达式R。进一步地,所述预先设置的提取规则还包括:自定义V,和/或特殊情况E。进一步地,所述提取模块,具体用于:根据所述I对获得的所述包含用户信息的匹配信息进行所述R校验,以提取用户信息。进一步地,所述提取模块,还具体用于:根据所述I对获得的包含用户信息的匹配信息进行所述R校验之后,再进行所述V校验,和/或所述E校验,以提取用户信息。本专利技术技术方案包括:设置匹配规则以及获取需要处理的用户网络行为日志;根据设置的匹配规则在获得的用户网络行为日志中获取包含用户信息的匹配信息;按照预先设置的提取规则从获得的匹配信息中提取用户信息。本专利技术技术方案通过从Cookie以及URL中提取出需要的用户信息,更好地实现了精准化的营销和用户隐私保护。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术提取信息的方法的流程图;图2为本专利技术提取信息的装置的结构示意图;图3为本专利技术实施例的Cookie规则索引树的示意图;图4为本专利技术实施例的Query规则索引树的示意图;图5为本专利技术实施例的Cookie规则索引树的示意图。具体实施方式下面将结合附图及实施例对本专利技术的技术方案进行更详细的说明。现在将参考附图描述实现本专利技术各个实施例的本文档来自技高网
...
一种提取信息的方法和装置

【技术保护点】
一种提取信息的方法,其特征在于,包括:设置匹配规则以及获取需要处理的用户网络行为日志;根据设置的匹配规则在获得的用户网络行为日志中获取包含用户信息的匹配信息;按照预先设置的提取规则从获得的匹配信息中提取用户信息。

【技术特征摘要】
1.一种提取信息的方法,其特征在于,包括:设置匹配规则以及获取需要处理的用户网络行为日志;根据设置的匹配规则在获得的用户网络行为日志中获取包含用户信息的匹配信息;按照预先设置的提取规则从获得的匹配信息中提取用户信息。2.根据权利要求1所述的方法,其特征在于,所述匹配规则包括:统一资源定位符URL域名的第一匹配条件D,以及Cookie的键值对的第二匹配条件C,和/或路径Path的第三匹配条件P,和/或查询Query的键值对的第四匹配条件Q;所述获取包含用户信息的匹配信息包括:将所述获得的用户网络行为日志进行所述第一匹配条件D的匹配以获取匹配结果;对获得的所述匹配结果进行所述第二匹配条件C的匹配,和/或所述第三匹配条件P的匹配,和/或所述第四匹配条件Q的匹配,以获取所述包含用户信息的匹配信息。3.根据权利要求2所述的方法,其特征在于,所述对获得的匹配结果进行所述第二匹配条件C的匹配,和/或所述第三匹配条件P的匹配,和/或所述第四匹配条件Q的匹配,以获取所述包含用户信息的匹配信息,包括:分别建立与所述第二匹配条件C对应的Cookie规则索引树、与所述第三匹配条件P对应的Path规则索引树,与所述第四匹配条件Q对应的Query规则索引树;根据所述Cookie规则索引树或者所述Path规则索引树或者所述Query规则索引树对所述匹配结果进行由大到小的深度匹配的域名节点的匹配,以获取所述包含用户信息的匹配信息;其中,所述Cookie规则索引树、所述Path规则索引树和所述Query规则索引树均包括由大到小的深度匹配的域名节点。4.根据权利要求2或3所述的方法,其特征在于,所述预先设置的提取规则包括:用户信息类型I和正则表达式R。5.根据权利要求4所述的方法,其特征在于,所述预先设置的提取规则还包括:自定义V,和/或特殊情况E。6.根据权利要求4所述的方法,其特征在于,所述按照预先设置的提取规则从获得的匹配信息中提取用户信息包括:根据所述I对获得的所述包含用户信息的匹配信息进行所述R校验,以提取用户信息。7.根据权利要求5或6所述的方法,其特征在于,所述按照预先设置的提取规则从获得的匹配信息中提取用户信息包括:根据所述I对获得的所述包含用户信息的匹配信息进行所述R校验之后,再进行所述V校验,和/或所述E校验,以提...

【专利技术属性】
技术研发人员:朱振华李国杰吴明辉
申请(专利权)人:北京秒针信息咨询有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1