【技术实现步骤摘要】
一种互联网访问日志解析方法及装置
本专利技术实施例涉及互联网
,尤其涉及一种互联网访问日志解析方法及装置。
技术介绍
随着大数据在业界的广泛引入,基础数据的采集越来越重要。互联网访问日志作为0域数据中重要的组成部分,对其进行解析,分类是很有必要的。由于访问日志量大,很难对管道中的数据进行全量处理,且大量移动端应用的后台通信都采用了Http协议进行通信。因此,目前的互联网日志解析的重点放在对Http日志解析上面。在对Http协议日志的解析过程中,现有技术通常针对域名、流量等数据进行解析,其流程如下:1)为不同统一资源标识符(UniformResourceIdentifier,Uri)与其所对应的网站、应用建立一一对应的规则库,并定期对该规则库进行更新。2)从数据源逐条读取日志,与规则库中的记录进行比对,从而确认访问目标地址,并得到用户访问资源的编码。3)通过爬虫爬取指定网站中对应资源的具体编码以及相关信息,如根据图书编码爬取图书的作者图书名等基本信息。4)将用户的访问记录与爬虫爬取的资源信息,输出到数据仓库中;对 ...
【技术保护点】
1.一种互联网访问日志解析方法,其特征在于,包括:/n采集访问日志,每条访问日志至少包括用户信息和Uri;其中,所述Uri至少包括域名、规则和资源编码;/n根据所述域名和资源编码从与所述域名和规则对应的知识库中找到与所述Uri对应的页面信息;其中,所述知识库至少包括一个页面信息和与每个页面信息一一对应的一组域名和资源编码,每个知识库与至少一组域名和规则相对应;/n将所述页面信息与所述用户信息合并为访问记录后存入数据仓库。/n
【技术特征摘要】
1.一种互联网访问日志解析方法,其特征在于,包括:
采集访问日志,每条访问日志至少包括用户信息和Uri;其中,所述Uri至少包括域名、规则和资源编码;
根据所述域名和资源编码从与所述域名和规则对应的知识库中找到与所述Uri对应的页面信息;其中,所述知识库至少包括一个页面信息和与每个页面信息一一对应的一组域名和资源编码,每个知识库与至少一组域名和规则相对应;
将所述页面信息与所述用户信息合并为访问记录后存入数据仓库。
2.根据权利要求1所述的方法,其特征在于,所述采集访问日志,每条访问日志至少包括用户信息和Uri;其中,所述Uri至少包括域名、规则和资源编码;具体为:
采集访问日志,每条访问日志至少包括用户信息和Uri;其中,Uri至少包括域名和资源编码;
若所述域名存在于预存的域名列表中,则从与所述域名的规则列表中查找到与所述Uri对应的规则;其中,所述规则列表包括至少一个域名,以及与每个域名对应的至少一种规则。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据页面信息的类型,将爬取到的所有页面信息分为预设数量的类,每个类分别与一个知识库和一个数据仓库一一对应,并将每个页面信息存入对应类的知识库中;
建立每个页面信息的域名、规则与类的对应关系;相应地,根据所述域名和资源编码从与所述域名和规则对应的知识库中找到与所述Uri对应的页面信息;其中,所述知识库至少包括一个页面信息和与每个页面信息一一对应的一组域名和资源编码,每个知识库与至少一组域名和规则相对应;将所述页面信息与所述用户信息合并为访问记录后存入数据仓库;具体为:
根据所述域名和规则得到对应的类,以及与所述类对应的知识库和数据仓库;
根据所述域名和资源编码从所述知识库中找到与所述Uri对应的页面信息;
将所述页面信息与所述用户信息合并为访问记录后存入对应的数据仓库。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
若根据所述域名和资源编码没有从对应的知识库中找到与所述Uri对应的页面信息,则将所述Uri所在访问日志存入待更新列表中,同时在所述数据仓库中存入一条空记录;
定期从所述待更新列表中依次提取出所述访问日志,并根据所述Uri从对应的网页爬取与所述页面信息;
将所述页面信息存入与所述类对应的知识库。
5.根据权利要求4所述方法,其特征在于,所述方法还包括:
若没有从所述域名的规则列表中查找到与所述Uri对应的规则,则将所述Uri所在访问日志存入待更新列表中,同时在所述数据仓库中存入一条空记录;相应地,所述将所述页面信息存入与所述类对应的知识库;具体为:
在所述Uri的域名下建立新的规则,并更新所述规则列表;<...
【专利技术属性】
技术研发人员:全东方,储晶星,张昭,傅一平,
申请(专利权)人:中国移动通信集团浙江有限公司,中国移动通信集团有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。