一种网络日志挖掘中的Web建模方法及系统技术方案

技术编号:6875333 阅读:227 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种网络日志挖掘中的Web建模方法及系统,达到提高网站服务质量的目的。该方法包括:对网络日志进行预处理,获得可信网络日志;根据用户的访问兴趣以及该可信网络日志,进行特征网页选取和网址分段,基于加权随机索引的方法建立用户浏览访问模式矩阵;使用基于混沌蚁群优化的聚类算法对该用户访问模式矩阵进行优化聚类,并根据预设的类别标签标记用户所属的类别,建立用户公共档案;根据该用户公共档案以及预设的预取概率阈值,将预取概率超过预设的预取概率阈值的页面提取并保存到服务器的缓存中。本发明专利技术与现有预取技术相比,准确率有了大幅度的提高。

【技术实现步骤摘要】

本专利技术涉及Web用户建模技术,尤其涉及一种网络日志挖掘中的Web建模方法及系统
技术介绍
随着^ternet的迅速发展和广泛普及,信息快速增长与人们注意力有限性的矛盾在不断增加,网络用户日益关注如何能够在最短的时间内找到最适合自己的信息。各网站的运营商也越来越希望了解访问者在网站的活动情况,从庞大用户群的数据海洋中挖掘客户活动信息,根据用户的浏览模式来改进网站结构,以提高Web服务质量,并最终实现网站的个性化推荐,从而为用户提供更好的服务。为了方便网络日志挖掘的应用,需要对Web日志中的数据进行形式化表示,使其成为聚类算法可以理解的输入形式。当前的Web用户建模技术只关注用户在页面级别的浏览行为,而对于Web用户活动之间的潜在联系或隐含特征很少关注,对与某种特定浏览模式之间有关的隐藏或无法观察的因素也研究甚少。在现有的Web用户行为分析方法中,都是考虑用户点击的URL集合或时间序列,研究对象都是以一个完整的URL为单位,而没有利用到URL的结构信息。随着处理任务的原始输入数据的维度急剧增大,现有的Web用户建模技术的性能也逐渐下降。
技术实现思路
本专利技术所要解决的技术问题是在于需要提供一种网络日志挖掘中的Web建模技术,达到提高网站服务质量的目的。为了解决上述技术问题,本专利技术首先提供了一种网络日志挖掘中的Web建模方法,包括如下步骤对网络日志进行预处理,获得可信网络日志;根据用户访问兴趣以及该可信网络日志,进行特征网页选取和网址分段,并基于加权随机索引的方法建立用户浏览访问模式矩阵;使用基于混沌蚁群优化的聚类算法对该用户浏览访问模式矩阵进行优化聚类,并根据预设的类别标签标记用户所属的类别,建立用户公共档案;根据该用户公共档案以及预设的预取概率阈值,将预取概率超过预取概率阈值的页面提取并保存到服务器的缓存中。其中,对该网络日志进行预处理的步骤,包括对该网络日志进行数据清洗、用户识别以及会话识别。其中,对该网络日志进行该数据清洗的步骤,包括过滤网页中的图片,过滤动态网页以及点击率低于预设点击阈值的网页。其中,根据用户访问兴趣以及该可信网络日志,进行特征网页选取和网址分段,并基于加权随机索引的方法建立用户浏览访问模式矩阵,包括从可信网络日志中过滤掉单个用户请求的页面以及只在一个会话中出现的页面, 获得由众多用户感兴趣的页面所组成一个兴趣页面集合,这个兴趣页面集合中的网页就作为用户聚类的特征网页;使用网址其中的斜线,将用户兴趣页面集合中的网址进行分段,得到一个网址分段之后的段落集合;为每个用户建立上下文向量,对于出现在用户会话之中顺序出现的每个网址段落,为其选取一个上下文窗口,并生成该段落的随机索引向量,通过遍历文档,根据加权函数定义并计算该段落的权重,然后叠加到已有的上下文向量中,实现对该段落上下文向量的更新,迭代更新过程结束,获得一组单个用户的浏览模式向量(上下文向量),该组向量形成一个可以反映了单个用户的浏览行为的矩阵,便是该用户浏览访问模式矩阵,得到后续用户聚类算法的输入。其中,使用该基于混沌蚁群优化的聚类算法对该用户浏览访问模式矩阵进行该优化聚类,并根据该预设的类别标签标记用户所属的类别,建立该用户公共档案的步骤,包括使用该基于混沌蚁群优化的聚类算法对该用户浏览访问模式矩阵进行优化聚类, 得到聚类中心的位置;根据用户与各聚类中心的距离,采用该预设的类别标签标记用户所属的类别,根据用户所属的类别建立该用户公共档案。本专利技术还提供了一种网络日志挖掘中的Web建模系统,包括预处理模块,用于对网络日志进行预处理,获得可信网络日志;第一建立模块,用于根据用户的访问兴趣以及该可信网络日志,进行特征网页选取和网址分段,并基于加权随机索引的方法建立用户浏览访问模式矩阵;第二建立模块,用于使用基于混沌蚁群优化的聚类算法对该用户浏览访问模式矩阵进行优化聚类,并根据预设的类别标签标记用户所属的类别,建立用户公共档案;预提取模块,用于根据该用户公共档案以及预设的预取概率阈值,将预取概率超过预取概率阈值的页面提取并保存到服务器的缓存中。其中,该预处理模块用于对该网络日志进行数据清洗、用户识别以及会话识别,获得该可信网络日志。其中,该预处理模块用于过滤网页中的图片,过滤动态网页以及点击率低于预设点击阈值的网页。其中,该第一建立模块包括特征网页选取单元,用于从可信网络日志中过滤掉单个用户请求的页面以及只在一个会话中出现的页面,从而获得众多用户感兴趣的页面所组成一个兴趣页面集合;网址分段单元,用于使用网址其中的斜线将用户兴趣页面集合中的网址进行分段,得到一个网址分段之后的段落集合;用户浏览访问模式矩阵建立单元,用于为每个用户建立上下文向量,对于出现在用户会话之中顺序出现的每个网址段落,为其选取一个上下文窗口,并生成该段落的随机索引向量,通过遍历文档,根据加权函数定义并计算该段落的权重,然后叠加到已有的上下文向量中,实现对该段落上下文向量的更新,迭代更新过程结束,获得一组单个用户的浏览模式向量(上下文向量),该组向量形成一个可以反映了单个用户的浏览行为的矩阵,便是该用户浏览访问模式矩阵,得到后续用户聚类算法的输入。其中,该第二建立模块包括聚类单元,用于使用该基于混沌蚁群优化的聚类算法对该用户浏览访问模式矩阵进行优化聚类,得到聚类中心的位置;建立单元,用于根据用户与各聚类中心的距离,采用该预设的类别标签标记用户所属的类别,根据用户所属的类别建立该用户公共档案。与现有技术相比,本专利技术具有以下优点针对网络日志海量、高维、数据规模多样的特点,本专利技术提出的基于加权随机索引的Web建模技术,适用于处理任务的原始输入数据的维度急剧增大的情况,在用户建模的过程中,能够将浏览模式中的隐藏信息加入其中,可以较为有效地指导Web用户聚类算法, 改进网络日志挖掘的效果。同时,基于群体智能优化的混沌蚁群优化的聚类(CAS-C)技术, 具有收敛效果好、适用于包含的类具有多个大小和密度的数据集、适用于高维数据的优点。 这些优点可以解决网络用户聚类的难题,可以使聚类结果更加准确和稳定。另外,本专利技术提出的群组网页预取方案,与现有预取技术相比,准确率有了大幅度的提高。本专利技术的技术方案可以用于众多通用或专用的计算系统环境或配置中。例如个人计算机、服务器计算机、多处理器系统、网络PC、大型计算机、包括以上任何系统或设备的分布式计算环境等等。附图说明图1是本专利技术实施例网络日志挖掘中的Web建模方法的流程示意图;图2是本专利技术实施例网络日志挖掘中的Web建模系统的组成示意图。具体实施例方式以下将结合附图及实施例来详细说明本专利技术的实施方式。本专利技术设计了一种网络日志挖掘中的Web建模方法及系统,以达到降低响应时间,提高网站服务质量的目的。Web日志数据有其自身的特点,如数量大、更新速度快、结构复杂等。在网络日志挖掘中,为了方便聚类算法的应用,需要对Web日志中的数据进行形式化表示,使其成为聚类算法可以理解的输入形式。隐含变量模型,比如隐含语义分析(LSA)已经被用来发现Web链接信息中的隐含关系,寻找具有相关性的网页,以便高速有效地改进搜索的性能。针对LSA 模型的一些现有问题和不足,作为LSA模型的改进和替代方案,随机索引(RI)是2000年被提出的一种渐进单词向量空本文档来自技高网...

【技术保护点】
1.一种网络日志挖掘中的Web建模方法,其特征在于,包括如下步骤:对网络日志进行预处理,获得可信网络日志;根据用户的访问兴趣以及该可信网络日志,进行特征网页选取和网址分段,并基于加权随机索引的方法建立用户浏览访问模式矩阵;使用基于混沌蚁群优化的聚类算法对该用户浏览访问模式矩阵进行优化聚类,并根据预设的类别标签,标记用户所属的类别,建立用户公共档案;根据该用户公共档案以及预设的预取概率阈值,将预取概率超过预设的预取概率阈值的页面提取并保存到服务器的缓存中。

【技术特征摘要】

【专利技术属性】
技术研发人员:李丽香彭海朋沈红斌钮心忻
申请(专利权)人:北京邮电大学
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1