日志管理方法技术

技术编号：10702238 阅读：97 留言：0更新日期：2014-12-03 11:04

本发明专利技术提供了一种日志管理方法。涉及计算机应用领域；解决了分布式存储管理日志数据的问题。该方法包括：收集流量日志和点击日志；对收集得到的日志进行预处理；分布式存储预处理后的日志。本发明专利技术提供的技术方案适用于数据挖掘，实现了基于HDFS架构的日志文件分布式存储。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术提供了一种。涉及计算机应用领域；解决了分布式存储管理日志数据的问题。该方法包括：收集流量日志和点击日志；对收集得到的日志进行预处理；分布式存储预处理后的日志。本专利技术提供的技术方案适用于数据挖掘，实现了基于HDFS架构的日志文件分布式存储。【专利说明】
本专利技术涉及计算机应用领域，尤其涉及一种。
技术介绍
随着互联网的急速发展，互联网用户量也急剧增长，用户的访问日志也得到迅速的膨胀。对于互联网来说，web日志是非常重要的信息。特别是对于一些大型的电子商务网站或者社交网站，可以通过对web日志的挖掘，找出用户的潜在访问模式，从而设计出更便于用户访问的网页组织模式。然而如何在这些海量的日志中挖掘出对企业有用的信息，并依此来做出正确的决策是非常重要的工作。由于Web日志是由众多用户生成的，它具有数据源多样性、海量性、传输条件不确定性等特点，而完整的日志是对后面分析工作的保证。从收集日志到日志分析是一项非常复杂的工作，它不仅要求有较高的可靠性，还需要时效性。所以单台主机不管是在日志存储还是计算方面，尽管硬件配置很高，它的处理能力还是有限的。故采用分布式存储和计算己经成为了必然的发展趋势。在分布式计算方面,全球约有上百种不同的方案。Hadoop就是一个使用较为广泛的分布式存储和分布式计算框架，适用于大规模的分布式计算，越来越得到重视，在广告计算、日志分析、网页搜索以及数据挖掘等方面都得到了广泛的应用。近些年来，硬盘的存储量在快速的增加，但是硬盘的访问速度却不能与时俱进。当数据量非常大时，读取操作就会花费较长的时间...

【技术保护点】
一种日志管理方法，其特征在于，包括：收集流量日志和点击日志；对收集得到的日志进行预处理；分布式存储预处理后的日志。

【技术特征摘要】

【专利技术属性】
技术研发人员：刘璧怡，郭美思，吴楠，
申请(专利权)人：浪潮北京电子信息产业有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人