当前位置: 首页 > 专利查询>余帝乾专利>正文

一种万维网日志挖掘的方法技术

技术编号:17796715 阅读:82 留言:0更新日期:2018-04-25 20:12
本发明专利技术的目的是提供一种万维网日志挖掘的方法,通过采集日志数据,将日志数据上传至HDFS上进行存储;预处理数据,将错误的、杂乱的、不完整的数据去掉;识别用户,通过借助识别算法对万维网日志识别出所涉及到的访问用户;识别会话,判断用户从初次进入万维网站点到离开站点的操作的用户行为;识别路径,补充和优化数据;选取合适的数据挖掘算法可以对数据进行分析处理;输出万维网日志挖掘结果等七个步骤很大的程度上弥补了传统技术对海量数据处理的限制,同时也可以对用户搜索相关行为进行研究,用户可以获得高效的、高质量的挖掘数据。

A method of Web Log Mining in the World Wide Web

The purpose of the present invention is to provide a method of Web log mining. By collecting log data, the log data is uploaded to HDFS for storage; the data is preprocessed to remove the wrong, messy and incomplete data; identify the user and identify the access to the web log by the recognition algorithm. Users; identify the conversation, judge the user's behavior from the initial entry to the web site, identify the path, supplement and optimize the data; select the appropriate data mining algorithm to analyze the data; the seven steps, such as the output of the web log mining, make up for the tradition. The technology can restrict the processing of massive data, and can also study the user's search related behavior, and users can obtain high efficient and high quality data mining.

【技术实现步骤摘要】
一种万维网日志挖掘的方法
本专利技术涉及网络数据
,特别是涉及一种万维网日志挖掘的方法。
技术介绍
万维网日志保存了用户访问网站时在后台留下的操作记录,包括访问动作、查询关键词、用户IP和用户的其他信息,用户每一次的访问动作都会产生一条记录,所以对于诸如搜索引擎或电商平台这样的大型网站来说,这种万维网日志数量是非常大的。数以亿计的用户产生的记录少说TB,到PB级也是可能的,如果有能力从中得到一些用户、或者某个用户群的习惯,那么对制定网站运营策略则有很大帮助,所以处理并且分析这些海量数据是具有现实意义的。而且如今在自己的网站宣传自己的产品,甚至投放其他的广告来获得可观的收益已经是几乎每个互联网企业都会做的工作。这样做的好处有很多,不但会使用户在浏览网站的同时了解关注到自己的产品,还会宣传到其他的产品,从而了解用户的关注点。由此可知,如何能够高效的、高质量的挖掘数据成为了重要的问题。由于网站的使用者——用户,是数据产生的一个重要来源,是决定网站设计的方向的重要参考标准,所以对用户行为的分析,是一个大型网站必须要研究的方向。
技术实现思路
本专利技术的目的是提供一种万维网日志挖掘的方法,本文档来自技高网...
一种万维网日志挖掘的方法

【技术保护点】
一种万维网日志挖掘的方法,其特征在于,所述方法包括:步骤S101:采集日志数据,将日志数据上传至HDFS上进行存储;步骤S102:预处理数据,将错误的、杂乱的、不完整的数据去掉;步骤S103:识别用户,通过借助识别算法对万维网日志识别出所涉及到的访问用户;步骤S104:识别会话,判断用户从初次进入万维网站点到离开站点的操作的用户行为;步骤S105:识别路径,补充和优化数据;步骤S106:选取合适的数据挖掘算法可以对数据进行分析处理;步骤S107:输出万维网日志挖掘结果。

【技术特征摘要】
1.一种万维网日志挖掘的方法,其特征在于,所述方法包括:步骤S101:采集日志数据,将日志数据上传至HDFS上进行存储;步骤S102:预处理数据,将错误的、杂乱的、不完整的数据去掉;步骤S103:识别用户,通过借助识别算法对万维网日志识别出所涉及到的访问用户;步骤S104:识别会话,判断用户从初次进入万维网站点到离开站点的操作的用户行为;步骤S105:识别路径,补充和优化数据;步骤S106:选取合适的数据挖掘算法可以对数据进行分析处理;步骤S107:输出万维网日志挖掘结果。2.根据权利要求1所述的方法,其特征在于,步骤S101:采集日志数据,将日志数据上传至HDFS上进行存储,包括在正式进行对万维网日志的数据预处理之前,需要确定合适的数据源。3.根据权利要求2所述的方法,其特征在于,所述数据源为服务器端的Apache日志文件。4.根据权利要求1所述的方法,其特征在...

【专利技术属性】
技术研发人员:余帝乾
申请(专利权)人:余帝乾
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1