一种提取信息的方法和装置制造方法及图纸

技术编号：15650016 阅读：62 留言：0更新日期：2017-06-17 02:56

本发明专利技术公开了一种提取信息的方法和装置，该方法包括：设置匹配规则以及获取需要处理的用户网络行为日志；根据设置的匹配规则在获得的用户网络行为日志中获取包含用户信息的匹配信息；按照预先设置的提取规则从获得的匹配信息中提取用户信息。本发明专利技术技术方案通过从Cookie以及URL中提取出需要的用户信息，更好地实现了精准化的营销和用户隐私保护。

全部详细技术资料下载

【技术实现步骤摘要】
一种提取信息的方法和装置
本专利技术涉及网络
，尤指一种提取信息的方法和装置。
技术介绍
用户网络行为日志记录了用户上网时留下的使用记录，包含有用户的上网账户、IP地址、访问页面的统一资源定位符(URL)、Cookie、来源页面的URL(ReferURL)、UA和时间戳等信息。用户网络行为日志里蕴含的用户信息，主要出现在URL、Cookie和UA中。其中，URL是用户上网产生的超文本传送协议(HTTP，Hypertexttransferprotocol)请求链接，Cookie是用户访问网站时产生的用于识别用户、进行会话(session)跟踪的数据，而UA则被用来辨别浏览器版本以及向用户所访问的网站的服务器提供某些系统信息的细节。由于网络行为日志里含有大量有价值的信息，这些信息可用于发掘用户的兴趣特征和行为模式，从而实现个性化的精准营销。目前，对于上网日志(即网络行为日志)的数据挖掘主要有两种方式：一是从日志中发现用户浏览模式，分析页面与来源页面的引用关系，挖掘频繁的浏览跳转路径；二是根据日志里URL、时间、IP地址以及浏览的页面的内容构造多维视图，建立多个用户与多个页面之间的关联性，以发掘现在的顾客、用户与和市场等。第一种方式侧重于页面之间的跳转关系，无法分析用户长时间跨度内的上网行为；第二种方式侧重于用户与访问的页面内容的关系，往往需要爬虫对超文本标记语言(html)页面进行定向抓取和分析。这两种方式都忽视了网络日志本身尤其是URL和Cookie中含有的与用户相关的信息，另外，由于同一个上网账户下可能存在大量不同的用户(如公共Wifi以及公司上网账...
一种提取信息的方法和装置

【技术保护点】
一种提取信息的方法，其特征在于，包括：设置匹配规则以及获取需要处理的用户网络行为日志；根据设置的匹配规则在获得的用户网络行为日志中获取包含用户信息的匹配信息；按照预先设置的提取规则从获得的匹配信息中提取用户信息。

【技术特征摘要】
1.一种提取信息的方法，其特征在于，包括：设置匹配规则以及获取需要处理的用户网络行为日志；根据设置的匹配规则在获得的用户网络行为日志中获取包含用户信息的匹配信息；按照预先设置的提取规则从获得的匹配信息中提取用户信息。2.根据权利要求1所述的方法，其特征在于，所述匹配规则包括：统一资源定位符URL域名的第一匹配条件D，以及Cookie的键值对的第二匹配条件C，和/或路径Path的第三匹配条件P，和/或查询Query的键值对的第四匹配条件Q；所述获取包含用户信息的匹配信息包括：将所述获得的用户网络行为日志进行所述第一匹配条件D的匹配以获取匹配结果；对获得的所述匹配结果进行所述第二匹配条件C的匹配，和/或所述第三匹配条件P的匹配，和/或所述第四匹配条件Q的匹配，以获取所述包含用户信息的匹配信息。3.根据权利要求2所述的方法，其特征在于，所述对获得的匹配结果进行所述第二匹配条件C的匹配，和/或所述第三匹配条件P的匹配，和/或所述第四匹配条件Q的匹配，以获取所述包含用户信息的匹配信息，包括：分别建立与所述第二匹配条件C对应的Cookie规则索引树、与所述第三匹配条件P对应的Path规则索引树，与所述第四匹配条件Q对应的Query规则索引树；根据所述Cookie规则索引树或者所述Path规则索引树或者所述Query规则索引树对所述匹配结果进行由大到小的深度匹配的域名节点的匹配，以获取所述包含用户信息的匹配信息；其中，所述Cookie规则索引树、所述Path规则索引树和所述Query规则索引树均包括由大到小的深度匹配的域名节点。4.根据权利要求2或3所述的方法，其特征在于，所述预先设置的提取规则包括：用户信息类型I和正则表达式R。5.根据权利要求4所述的方法，其特征在于，所述预先设置的提取规则还包括：自定义V，和/或特殊情况E。6.根据权利要求4所述的方法，其特征在于，所述按照预先设置的提取规则从获得的匹配信息中提取用户信息包括：根据所述I对获得的所述包含用户信息的匹配信息进行所述R校验，以提取用户信息。7.根据权利要求5或6所述的方法，其特征在于，所述按照预先设置的提取规则从获得的匹配信息中提取用户信息包括：根据所述I对获得的所述包含用户信息的匹配信息进行所述R校验之后，再进行所述V校验，和/或所述E校验，以提...

【专利技术属性】
技术研发人员：朱振华，李国杰，吴明辉，
申请(专利权)人：北京秒针信息咨询有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人