The invention provides an adaptive Web site method based on an improved chameleon algorithm, which relates to the fields of clustering analysis, machine learning and artificial intelligence. The purpose of the present invention is to overcome the shortcomings in the prior art, and a method for applying the improved CHAMELEON algorithm to the construction of adaptive Web sites is proposed. After preprocessing the Web logs, the distance matrix between pages is established by the number of applications sent at the same time from different Web pages within the sliding window size. The algorithm is applied to the improved CHAMELEON algorithm to generate the initial weighted graph, which is sorted by the size of structural equivalence similarity, merged clusters and repeated until the modularity is reduced and terminated. Finally, the index interface is generated according to the cluster results.
【技术实现步骤摘要】
一种基于改进的变色龙算法的自适应Web站点方法
本专利技术一种基于改进的变色龙算法的自适应Web站点方法,涉及聚类分析、机器学习和人工智能领域。
技术介绍
目前,随着信息技术的发展,各种网站变得越来越复杂,但是它不是智能的。用户浏览网站的行为模式是动态和多样的,而大部分的网站被设计成僵化的HTML或是一些只是动态改变某些信息的站点。如何吸引更多的用户来访问网站,并为用户提供他所感兴趣的信息,成为各个Web站点设计的首要问题。于是各Web站点竞相使用基于Web挖掘的自适应站点构建技术。Chameleon算法可以发现高质量的任意形状、大小和密度的自然簇及一趟聚类算法快速高效的特点,但是该算法存在以下几个缺点:1)、K最近邻图中K值的确定需要人工进行:2)、最小二等分的选取困难:3)、相似度函数的阔值需要人工给定。这些缺点增加了使用难度,影响了聚类的无监督性。
技术实现思路
为了解决上述问题,本专利技术一种基于改进的变色龙算法的自适应Web站点方法,本专利技术目的是克服现有技术中存在的不足,提出了就改进的CHAMELEON算法应用于自适应Web站点构建的方法。专利技术的重点在于通过改进的CHAMELEON算法,不需要K值得人工选取问题,简化了操作难度,避免了相似度函数阀值的人工选取问题,减少了聚类的监督性。按照本专利技术提供的技术方案,一种基于改进变色龙算法的自适应Web站点方法,所述方法包括如下步骤:步骤1、对Web日志文件进行预处理;步骤2、计算在滑动窗口大小内的不同Web页面问的申请同时发出的次数。建立页面间的距离矩阵;步骤3、应用于改进的CHAMELEON算 ...
【技术保护点】
1.本专利技术一种基于改进的变色龙算法的自适应Web站点方法,所述的自适应Web站点包括如下步骤:步骤1、对Web日志文件进行处理;步骤2、计算在滑动窗口大小内的不同Web页面问的申请同时发出的次数。建立页面间的距离矩阵;步骤3、应用于改进的CHAMELEON算法;步骤4、根据步骤2提供的页面间的距离向量矩阵得到初始加权图,并确定初始加权图的初始模块度:步骤5、确定初始加权图中任意两个节点或两个簇之间的结构等价相似度,以得到初始加权图的最小结构等价相似度,将与最小结构等价相似度对应的两个节点或两个簇进行合并,以得到当前加权图以及当前加权图的当前模块度:步骤6、将上述当前模块度与初始模块度进行比较,若所述当前模块度小于初始模块度,则将初始加权图作为聚类结果输出,根据聚类结果综合生成索引页面。否则,跳转至步骤5;步骤7、确定当前加权图中任意两个节点或两个簇之间的结构等价相似度,以得到当前加权图的最小结构等价相似度,将与最小结构等价相似度对应的两个节点或两个簇进行合并,以更新所述当前加权图以及对应的当前模块度:将更新前的当前加权图作为初始加权图,更新前当前加权图的当前模块度作为初始模块度,更 ...
【技术特征摘要】
1.本发明一种基于改进的变色龙算法的自适应Web站点方法,所述的自适应Web站点包括如下步骤:步骤1、对Web日志文件进行处理;步骤2、计算在滑动窗口大小内的不同Web页面问的申请同时发出的次数。建立页面间的距离矩阵;步骤3、应用于改进的CHAMELEON算法;步骤4、根据步骤2提供的页面间的距离向量矩阵得到初始加权图,并确定初始加权图的初始模块度:步骤5、确定初始加权图中任意两个节点或两个簇之间的结构等价相似度,以得到初始加权图的最小结构等价相似度,将与最小结构等价相似度对应的两个节点或两个簇进行合并,以得到当前加权图以及当前加权图的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。