日志管理方法技术

技术编号:10702238 阅读:97 留言:0更新日期:2014-12-03 11:04
本发明专利技术提供了一种日志管理方法。涉及计算机应用领域;解决了分布式存储管理日志数据的问题。该方法包括:收集流量日志和点击日志;对收集得到的日志进行预处理;分布式存储预处理后的日志。本发明专利技术提供的技术方案适用于数据挖掘,实现了基于HDFS架构的日志文件分布式存储。

【技术实现步骤摘要】
【专利摘要】本专利技术提供了一种。涉及计算机应用领域;解决了分布式存储管理日志数据的问题。该方法包括:收集流量日志和点击日志;对收集得到的日志进行预处理;分布式存储预处理后的日志。本专利技术提供的技术方案适用于数据挖掘,实现了基于HDFS架构的日志文件分布式存储。【专利说明】
本专利技术涉及计算机应用领域,尤其涉及一种。
技术介绍
随着互联网的急速发展,互联网用户量也急剧增长,用户的访问日志也得到迅速的膨胀。对于互联网来说,web日志是非常重要的信息。特别是对于一些大型的电子商务网站或者社交网站,可以通过对web日志的挖掘,找出用户的潜在访问模式,从而设计出更便于用户访问的网页组织模式。然而如何在这些海量的日志中挖掘出对企业有用的信息,并依此来做出正确的决策是非常重要的工作。由于Web日志是由众多用户生成的,它具有数据源多样性、海量性、传输条件不确定性等特点,而完整的日志是对后面分析工作的保证。从收集日志到日志分析是一项非常复杂的工作,它不仅要求有较高的可靠性,还需要时效性。所以单台主机不管是在日志存储还是计算方面,尽管硬件配置很高,它的处理能力还是有限的。故采用分布式存储和计算己经成为了必然的发展趋势。 在分布式计算方面,全球约有上百种不同的方案。Hadoop就是一个使用较为广泛的分布式存储和分布式计算框架,适用于大规模的分布式计算,越来越得到重视,在广告计算、日志分析、网页搜索以及数据挖掘等方面都得到了广泛的应用。近些年来,硬盘的存储量在快速的增加,但是硬盘的访问速度却不能与时俱进。当数据量非常大时,读取操作就会花费较长的时间
技术实现思路
本专利技术提供了一种,解决了分布式存储管理日志数据的问题。 一种,包括: 收集流量日志和点击日志; 对收集得到的日志进行预处理; 分布式存储预处理后的日志。 优选的,收集流量日志和点击日志包括: 在用户打开web页面时,将所需要的信息拼成字符串传送给前端服务器,所述信息包括以下内容的任一或任意多项: 时间、客户端IP、用户信息、访问地址、refer地址。 优选的,对收集得到的日志进行预处理包括: 计算出每次访问的页面停留时间、访问的页面的层级以及一次连续访问中浏览的页面个数; 将收集到的日志根据用户的UID信息与用户信息库进行连接,获取访问用户的用户信息,所述用户信息库保存有所有用户详细信息; 将收集到的流量日志转化为流量日志标准格式,将收集到的点击日志转化为点击日志标准格式。 优选的,分布式存储预处理后的日志包括: 对所述预处理后的日志进行块大小和副本数的配置; 向HDFS文件系统上传所述预处理后的日志,以LZO格式存储于所述HDFS文件系统中。 优选的,该方法还包括: 读取数据表的配置信息,按日志类型分别导入不同文件中; 对日志进行Map操作,将日志处理成key-value格式,得到Map结果; 对所述Map结果进行合并操作,得到合并结果; 对所述合并进行Reduce操作,得到数据分析结果,将该数据分析结果存放于所述HDFS文件系统中; 从所述HDFS文件系统中将所述数据分析结果导入数据库,供用户查询。 优选的,读取数据表的配置信息,按日志类型分别导入不同文件中包括: 从数据库中读取数据表的配置信息,所述配置信息包括列信息、指标的配置信息、维度和维度值; 将所述配置信息按日志类型分别导入不同文件中,并上传到HDFS中。 优选的,对日志进行Map操作,将日志处理成key-value格式,得到Map结果包括: 循环遍历每种日志类型的每一个指标; 根据预置的每一个指标的计算规则,选择适合的计算类型对日志进行,将志处理成key-value的格式,以该key-value格式的日志作为Map结果。 优选的,所述计算类型包括: 计数类型,将符合当前计算规则的日志格式化为key =日期+指标ID, value =I ; 累加类型,将符合当前计算规则的日志处理为key =日期+指标ID, value =计算列的值; 分组计数类型,将符合当前计算规则的日志记录格式化为key =日期+指标ID+组 ID, value = I。 分组累加类型,将符合当前计算规则的日志处理为key =日期+指标ID+组ID,value =计算列的值。 优选的,对所述Map结果进行合并操作,得到合并结果包括: 对Map结果进行合并至每一个key-value值只对应一条日志。 本专利技术提供了一种,收集流量日志和点击日志,对收集得到的日志进行预处理,分布式存储预处理后的日志。实现了基于HDFS架构的日志文件分布式存储,解决了分布式存储管理日志数据的问题。 【专利附图】【附图说明】 图1为本专利技术的实施例一提供的一种日志管理系统的结构示意图。 【具体实施方式】 在分布式计算方面,全球约有上百种不同的方案。Hadoop就是一个使用较为广泛的分布式存储和分布式计算框架,适用于大规模的分布式计算,越来越得到重视,在广告计算、日志分析、网页搜索以及数据挖掘等方面都得到了广泛的应用。近些年来,硬盘的存储量在快速的增加,但是硬盘的访问速度却不能与时俱进。当数据量非常大时,读取操作就会花费较长的时间。但如果并行的从多个磁盘上读写数据,将会节省很多时间。 因此为了提高日志处理速度,改善目前企业在数据处理方面遇到的一些问题,需要基于分布式存储和计算,设计一个流程化、统一化的日志分析系统,这个系统以收集到得web日志为数据基础,由数据分析师或其他人员配置指标和维度,系统可以根据用户的配置定时运行后台计算程序,最后把数据直接展示给需要的人员。该系统能够节省需求方和技术人员之间的沟通成本,进一步提高了日志分析工作效率。 为了解决上述问题,本专利技术的实施例提供了一种。下文中将结合附图对本专利技术的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。 首先结合附图,对本专利技术的实施例一进行说明。 本专利技术实施例提供了一种日志管理系统,该系统利用Hadoop提供的HDFS和Map/Reduce两个核心的技术。在系统中,用户可以自定义的配置数据表,这样增加了报表的可定制性。该系统的结构如图1所示包括:日志收集服务器101、日志预处理服务器102、HDFS文件系统103、统计分析模块104以及用户界面模块105。 如附图1所示,当用户在浏览网页的时候,用户的一些操作行为都被记录了下来,由前端的日志收集服务器负责收集这些记录。前端的日志收集服务器并不是存储所有的日志,它会定时的将收集到的日志推送给中间日志处理服务器。日志的预处理操作就是在中间服务器上进行的,其中预处理操作包括日志的清洗、分类和格式的统一。预处理后的日志会被定时的存放到Hadoop分布式集群中的HDFS文件系统中,作为后面数据统计的应用程序的输入数据。 下面,对本专利技术的实施例二进行说明。 本专利技术实施例提供了一种。针对上文所涉及的两种日志类型,本专利技术实施例采用的是页面布码的方式来收集日志。在进行页面布码之前,需要一个JS文件,这个JS文件主要实现三个功能。 I)当用户打web页面时,将所需要的信息,包括时间、客户端IP本文档来自技高网
...

【技术保护点】
一种日志管理方法,其特征在于,包括:收集流量日志和点击日志;对收集得到的日志进行预处理;分布式存储预处理后的日志。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘璧怡郭美思吴楠
申请(专利权)人:浪潮北京电子信息产业有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1