一种基于改进的变色龙算法的自适应Web站点方法技术

技术编号:21184784 阅读:18 留言:0更新日期:2019-05-22 15:23
本发明专利技术一种基于改进的变色龙算法的自适应Web站点方法,涉及聚类分析、机器学习和人工智能领域。本发明专利技术目的是克服现有技术中存在的不足,提出了就改进的CHAMELEON算法应用于自适应Web站点构建的方法。该算法在对Web日志进行预处理之后,通过在滑动窗口大小内的不同Web页面问的申请同时发出的次数,建立页面间的距离矩阵,并把应用于改进的CHAMELEON算法,生成初始加权图,通过结构等价相似度的大小排序,合并簇,重复进行直到模块度下降终止。最后根据簇类结果生成索引界面。

An Adaptive Web Site Method Based on Improved Chameleon Algorithms

The invention provides an adaptive Web site method based on an improved chameleon algorithm, which relates to the fields of clustering analysis, machine learning and artificial intelligence. The purpose of the present invention is to overcome the shortcomings in the prior art, and a method for applying the improved CHAMELEON algorithm to the construction of adaptive Web sites is proposed. After preprocessing the Web logs, the distance matrix between pages is established by the number of applications sent at the same time from different Web pages within the sliding window size. The algorithm is applied to the improved CHAMELEON algorithm to generate the initial weighted graph, which is sorted by the size of structural equivalence similarity, merged clusters and repeated until the modularity is reduced and terminated. Finally, the index interface is generated according to the cluster results.

【技术实现步骤摘要】
一种基于改进的变色龙算法的自适应Web站点方法
本专利技术一种基于改进的变色龙算法的自适应Web站点方法,涉及聚类分析、机器学习和人工智能领域。
技术介绍
目前,随着信息技术的发展,各种网站变得越来越复杂,但是它不是智能的。用户浏览网站的行为模式是动态和多样的,而大部分的网站被设计成僵化的HTML或是一些只是动态改变某些信息的站点。如何吸引更多的用户来访问网站,并为用户提供他所感兴趣的信息,成为各个Web站点设计的首要问题。于是各Web站点竞相使用基于Web挖掘的自适应站点构建技术。Chameleon算法可以发现高质量的任意形状、大小和密度的自然簇及一趟聚类算法快速高效的特点,但是该算法存在以下几个缺点:1)、K最近邻图中K值的确定需要人工进行:2)、最小二等分的选取困难:3)、相似度函数的阔值需要人工给定。这些缺点增加了使用难度,影响了聚类的无监督性。
技术实现思路
为了解决上述问题,本专利技术一种基于改进的变色龙算法的自适应Web站点方法,本专利技术目的是克服现有技术中存在的不足,提出了就改进的CHAMELEON算法应用于自适应Web站点构建的方法。专利技术的重点在于通过改进的CHAMELEON算法,不需要K值得人工选取问题,简化了操作难度,避免了相似度函数阀值的人工选取问题,减少了聚类的监督性。按照本专利技术提供的技术方案,一种基于改进变色龙算法的自适应Web站点方法,所述方法包括如下步骤:步骤1、对Web日志文件进行预处理;步骤2、计算在滑动窗口大小内的不同Web页面问的申请同时发出的次数。建立页面间的距离矩阵;步骤3、应用于改进的CHAMELEON算法;步骤4、根据步骤2提供的页面间的距离向量矩阵得到初始加权图,并确定初始加权图的的初始模块度:步骤5、确定初始加权图中任意两个节点或两个簇之间的结构等价相似度,以得到初始加权图的最小结构等价相似度,将与最小结构等价相似度对应的两个节点或两个簇进行合并,以得到当前加权图以及当前加权图的当前模块度;步骤6、将上述当前模块度与初始模块度进行比较,若所述当前模块度小于初始模块度,则将初始加权图作为聚类结果输出,根据聚类结果综合生成索引页面。否则,跳转至步骤5;步骤7、确定当前加权图中任意两个节点或两个簇之间的结构等价相似度,以得到当前加权图的最小结构等价相似度,将与最小结构等价相似度对应的两个节点或两个簇进行合并,以更新所述当前加权图以及对应的当前模块度:将更新前的当前加权图作为初始加权图,更新前当前加权图的当前模块度作为初始模块度,更新后的当前加权图作为当前加权图,跳转至步骤6。步骤8、根据聚类结果综合生成索引界面。本专利技术具有以下优点及效果:(1)可以更好地利用已学习到的聚类知识用于自适应Web网站的构建。(2)简化了操作的难易程度。(3)具有更好的适应性和灵活性。附图说明图1为本专利技术流程图。具体实施方式下面结合图1对本专利技术一种基于改进的变色龙算法的自适应Web站点方法做进一步说明。步骤1、对Web日志文件进行预处理,清除日志文件中由搜索引擎发出的Web申请并将其余的数据装入数据库。删除日志中的图片申请。如果相邻两个Web申请的时间间隔大于某个阈值T的话,就认为它们属于不同的会话过程。根据经验,将时间阈值定为半个小时。步骤2、设置滑动窗口的大小,在相同的一个对话申请过程中,在滑动窗口的内的两个页面可以表示为(Pi,Pj),认为这两个页面是相关联的。统计全部的会话过程,计算出任意两队页面的申请次数Nij。还要计算出每一页面单独的申请次数Ni,Nj。计算P(PiIPj)=Nij/Nj,最后计算出页面的距离向量矩阵。步骤3、根据步骤2提供的页面间的距离向量矩阵得到初始加权图,并确定初始加权图的的初始模块度:步骤4、对象间的距离为基础,能得到的初始加权图G,为G二(V,E,W),其中,偏好向量集合X中每个消费偏好向量x对应点集V中的一个节点,边集E初始化为空,W为边权值函数,连接节点vi、节点vj的边的边权值函数wij其中C是常数,H(vi,vj)为节点vi与节点vj间的欧式距离,无序偶对(vi,vj)表示节点vi∈V与节点vj∈V间的关联。步骤5、确定初始加权图中任意两个节点或两个簇之间的结构等价相似度,以得到初始加权图的最小结构等价相似度,将与最小结构等价相似度对应的两个节点或两个簇进行合并,以得到当前加权图以及当前加权图的当前模块度;本专利技术实施例中,节点Vi与节点Vj间的结构等价相似度Sij为其中,wik是连接节点Vi与节点Vk边的边权值,Wjk是连接节点Vj与节点Vk边的边权值,簇r与簇h之间的结构相似度Sr,h为其中,nr为簇r中的节点个数,nh为簇h中的节点个数步骤5和步骤6中的模块度公式为其中,ki是节点Vi的带权度,A为初始加权图G的邻接矩阵,Wij是加权图中边的边权值总和,ci是节点vi所在的簇标号,本文档来自技高网...

【技术保护点】
1.本专利技术一种基于改进的变色龙算法的自适应Web站点方法,所述的自适应Web站点包括如下步骤:步骤1、对Web日志文件进行处理;步骤2、计算在滑动窗口大小内的不同Web页面问的申请同时发出的次数。建立页面间的距离矩阵;步骤3、应用于改进的CHAMELEON算法;步骤4、根据步骤2提供的页面间的距离向量矩阵得到初始加权图,并确定初始加权图的初始模块度:步骤5、确定初始加权图中任意两个节点或两个簇之间的结构等价相似度,以得到初始加权图的最小结构等价相似度,将与最小结构等价相似度对应的两个节点或两个簇进行合并,以得到当前加权图以及当前加权图的当前模块度:步骤6、将上述当前模块度与初始模块度进行比较,若所述当前模块度小于初始模块度,则将初始加权图作为聚类结果输出,根据聚类结果综合生成索引页面。否则,跳转至步骤5;步骤7、确定当前加权图中任意两个节点或两个簇之间的结构等价相似度,以得到当前加权图的最小结构等价相似度,将与最小结构等价相似度对应的两个节点或两个簇进行合并,以更新所述当前加权图以及对应的当前模块度:将更新前的当前加权图作为初始加权图,更新前当前加权图的当前模块度作为初始模块度,更新后的当前加权图作为当前加权图,跳转至步骤6。步骤8、根据最后的聚类结果综合生成索引界面。...

【技术特征摘要】
1.本发明一种基于改进的变色龙算法的自适应Web站点方法,所述的自适应Web站点包括如下步骤:步骤1、对Web日志文件进行处理;步骤2、计算在滑动窗口大小内的不同Web页面问的申请同时发出的次数。建立页面间的距离矩阵;步骤3、应用于改进的CHAMELEON算法;步骤4、根据步骤2提供的页面间的距离向量矩阵得到初始加权图,并确定初始加权图的初始模块度:步骤5、确定初始加权图中任意两个节点或两个簇之间的结构等价相似度,以得到初始加权图的最小结构等价相似度,将与最小结构等价相似度对应的两个节点或两个簇进行合并,以得到当前加权图以及当前加权图的...

【专利技术属性】
技术研发人员:丁世飞王冬晨
申请(专利权)人:中国矿业大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1