基于群体智能的行为聚类系统技术方案

技术编号:12016111 阅读:142 留言:0更新日期:2015-09-09 11:42
本发明专利技术提出基于群体智能的行为聚类系统,该系统的数据表示包括数据结构和数据类型,采用K均值混合聚类算法;采用k均值混合聚类算法,将蚁群聚类算法与k均值聚类算法结合起来,该算法主要分成两个部分,第一部分进行蚁群聚类,第二部分用k均值算法收集蚁群聚类的结果,在k均值混合聚类算法中,相似度公式与蚁群聚类的基本模型及LF算法类似,但采用了更为简单的概率转换函数,它是两条斜率为k的直线,后续的实验证明,这些改进之处使得算法无论是在精度还是效率上都比现有算法表现更为优异。

【技术实现步骤摘要】

本专利技术涉及互联网
,尤其涉及基于群体智能的行为聚类系统
技术介绍
目前,互联网行业发展到一定的程度以后,专业化分工的过程也使其内部结构中产生了比较细致的分化,从而形成了整个互联网产业从低到高分成几个层次:处于不同层次的互联网企业具有不同的客户对象、服务手段和利润来源,这就自然地形成了目前互联网企业的不同商业模式。从目前互联网业界比较通用的角度来划分互联网产业的结构层次,或者说互联网企业的商业模式主要有以下几种:(1)接入与平台(Access and Platforms):这是互联网企业最初的业务形式之一。服务主要包括互联网接入(有线、无线接入服务)、虚拟主机、主机托管等。同时,部分这类企业还提供网站制作、维护等服务。(2)网上内容提供服务(Internet Content Provide):这项服务是指通过在互联网上建立网站向网络的用户(包括个人用户与企业用户)提供各种资讯、信息和社区服务的互联网服务。内容和社区服务类网站根据其所提供内容的广度和深度的不同又可以分为综合类网站和专业类网站两个大类;依据其提供内容的不同类别,又可以分为搜索引擎、门户以及虚拟社区等。(3)电子商务(E—Commerce):是利用Wbe技术、电子化手段在Internet网上完成商业贸易活动的新型方式。电子商务的发展非常迅速,根据商务活动产生的资为电子事物处理(无支付、无物流,如网上报税、网上办公等)和电子贸易处理(有支付、或者有物流,如网上购物、网上直销等商务活动);根据交易对象的不同,电子商务又可以分为企业一企业(B to B,如电子贸易、电子数据交换、电子资金调拨等应用)、企业一个人(B to C)、个人一个人(C to C,如网络拍卖交易)、政府一个人(C to C,如通过网络实现个人身份核实、报税、收税等政府对个人的事务性处理)、政府一企业(G to B,实现网上报关、报税、网上产权交易等企业与政府之间的行为)等形式。而WWW上信息的爆炸性增长,使得人们迫切需要开发自动挖掘技术从大量的WWW数据中发现人们感兴趣的模式和知识,因此Web挖掘越来越成为一个热门的研究领域。但是如何在如此复杂数据类型的数据中找到需要的知识,就提出了一个新的挑战。随着WWW用户的快速增长,人们淹没在网络信息中渴求着有用的知识,在线分析用户的浏览行为以及浏览模式已成为越来越重要的研究领域。Tseng、Petrounias和Chountas给出了一种web挖掘的方法介绍,讨论了在各种限定条件下,如浏览限定、时间的限定(包括浏览时间、会话期、时间区间等)、个性限定等,如何发现频繁的用户浏览模式及行为。Srivastava等人详细描述了web使用挖掘的每个阶段,即预处理、模式发现和模式分析。有些研究者们使用基于关联规则挖掘的方法挖掘web用户浏览模式挖掘。在web日志挖掘中利用关联规则可以发现用户所访问页面间的关联。有些研究者们把用户浏览访问模式的发现归属于序列模式挖掘的范畴。WWW用户在访问感兴趣的信息时,倾向于通过连接或图标来漫游网页。例如,用户为了到达当前主题的一个兄弟主题,总是利用“backward”图标后退至父主题(起源主题),再向前作出选择,而不是打开一个新的URL从头开始。因此在用户日志中的某些结点,被重复访问并非因其内容相关,而是因其结构特殊。为了从原始日志库中抽取有意义的用户访问模式,我们要消除反向关联的影响,因为反向关联旨在方便用户访问,而非满足用户的检索需求。Chen等人中采用的寻找最大向前关联路径的思想与WWW的超链结构特点相结合,用以挖掘用户访问模式。挖掘用户浏览模式的全过程如下:(1)从原始日志库中寻找所有最大向前关联路径;(2)由找到的最大向前关联路径求出频繁关联路径浏览;(3)由频繁关联路径浏览求出最大频繁关联路径浏览。各步骤思想如下:步骤1:当用户访问一个曾经访问过的URL时,称出现了反向关联。反向关联的发生意味着一个正向关联路径的结束,并产生最大向前关联路径。然后回溯到该前向关联路径的起点,再继续寻找其他的前向关联路径。另外,源结点(即无父结点的结点)的出现也意味着前向关联路径的结束及新路径的开始。步骤2:找到所有用户的最大前向关联路径后,我们将发现用户访问模式的间题映射为从所有最大向前关联路径中找最常出现的连续子浏览问题。频繁关联路径浏览定义为出现次数达到某一阂值的序列。这里我们提出了增量式有序概念格算法。步骤3:称一个频繁关联路径浏览为最大的,如果它不包含于任何一个其他的最大频繁关联路径中。关于用户分类的方法很多。目前,很多研究都是从用户价值,特别是用户生命周期价值对用户分类。如最常见的单因素分类方法ABC,其原理是根据网站运营商利润额构成区分用户。我们按照网站运营商利润额来源大小对用户进行排序后发现,网站运营商80%以上的利润来源于20%的用户(A),70%的用户提供了不足20%的利润(B),另有10%的用户不仅不会为网站运营商带来任何利益,甚至会削弱网站运营商的赢利水平(C)。这种方法的缺陷是只考虑用户给网站运营商带来的利润总额度,而没有区分本网站运营商经营中不同用户所带来的利润高低,以及用户的成长情况。另外,常用的还有因素结合的方法。影响到网站运营商赢利能力的因素有多种,有些来自于网站运营商内部,有些来自用户方,因素组合用户分类方法就是根据相关因素组合结果来区分用户类型。双因素结合方法的主要缺陷是分类过程中一般没有考虑用户的动态描述数据,没有充分利用用户数据。而多因素结合方法的不足之处在于影响用户分类的因素选取上。综上所述,针对以上互联网行业的阐述,特别需要基于群体智能的行为聚类系统,以解决现有技术的不足。
技术实现思路
本专利技术的目的是提供互联网行业的基于群体智能的行为聚类系统,解决实际运行中存在的不足。本专利技术为解决其技术问题所采用的技术方案是,基于群体智能的行为聚类系统,该系统的数据表示包括数据结构和数据类型,采用K均值混合聚类算法;数据类型是一组值的集合和定义在这个值集合之上的一组操作的总称,与数据本身相关,包括数值性、布尔型、可分类型、混合型等;数据结构是数据的组织形式,通常指存储在计算机内存中的数据;本系统采用的聚类算法所用的数据主要有以下两种数据结构:1、矢量表示;2、相似矩阵表示;采用k均值混合聚类算法,将蚁群聚类算法与k均值聚类算法结本文档来自技高网
...
基于群体智能的行为聚类系统

【技术保护点】
基于群体智能的行为聚类系统,其特征在于,该系统的数据表示包括数据结构和数据类型,采用K均值混合聚类算法;数据类型是一组值的集合和定义在这个值集合之上的一组操作的总称,与数据本身相关,包括数值性、布尔型、可分类型、混合型等;数据结构是数据的组织形式,通常指存储在计算机内存中的数据;本系统采用的聚类算法所用的数据主要有以下两种数据结构:1、矢量表示;2、相似矩阵表示;采用k均值混合聚类算法,将蚁群聚类算法与k均值聚类算法结合起来,该算法主要分成两个部分,第一部分进行蚁群聚类,第二部分用k均值算法收集蚁群聚类的结果,在k均值混合聚类算法中,相似度公式与蚁群聚类的基本模型及LF算法类似,但采用了更为简单的概率转换函数,它是两条斜率为k的直线,如下所示;pp=1-ϵf(Oi)≤01-k×f(Oi)0<f(Oi)≤1/k0+ϵf(Oi)>1/k]]>pd=1-ϵf(Oi)≥1/k k×f(Oi)0<f(Oi)<1/k0+ϵf(Oi)≤0]]>在基本模型中,概率转换函数的参数包括两个阈值常数k1和k2,并且阈值常数的选取和实验数据相关密切,而在k均值混合聚类算法中,概率转换函数只有k,并且通过实验证明,简化后概率转换函数的参数k并没有根据实验数据变化而变化,因此新算法的概率转换函数变化同样减轻了算法参数选取的复杂度,提高了算法的实用性,K均值混合聚类算法的运行过程如下:算法:K均值混合聚类算法输入:p个模式矢量输出:被标记聚类类别的p个模式方法:步骤l:参数初始化,a,ant_number,k,R,size,dist.最大循环次数n,标注类别值clusterno等;步骤2:将待聚类模式随机分散于一个平面上,即随机赋给每一个模式一对(x,y)坐标;步骤3:给一组蚂蚁赋初始模式值,初始状态为无负载;步骤4:for i=1,2…,n;步骤4.1for j=1,2,…ant_number;步骤4.1.1以本只蚂蚁初始模式对应坐标为中心,r为观察半径,利用群体相似度公式计算此模式在观察半径范围内的群体相似度;步骡4.1.2若本只蚂蚁无负载,则计算拾起概率pp;步骤4.1.3与一随机概率pr相比较,若pp<pr,则蚂蚁不拾起此模式,再随机赋给蚂蚁一个模式值,否则蚂蚁拾起此模式,蚂蚁状态改为有负载,随机给蚂蚁一个新坐标;步骤4.1.4若本只蚂蚁有负载,则计算放下概率pd;步骤4.1.5与一随机概率pr相比较,若pd>pr则蚂蚁放下此模式,将蚂蚁的坐标赋给此模式,蚂蚁状态改为无负载,再随机赋给蚂蚁一个模式值.否则蚂蚁继续携带此模式,蚂蚁状态仍为有负载,再次随机给蚂蚁一个新坐标;步骤5:for i=1,2…,pattern_num;//对于每一个模式步骤5.1若此模式未被标注类别;步骤5.1.1标注此模式的类别;步骤5.1.2用同一类别标注值递归标注所有相距小于dist的模式,即在平面上收集所有属于同一集簇的模式;步骤5.1.3if同一集簇模式数大于1,类别标注值clusterno++;else标注此模式为例外;步骤6:生成聚类中心模板,即计算不包括例外的每一个聚类中心的平均值;步骤7:Repeat;步骤7.1(再次)将每一个模式以距离最近的规则划分到所属聚类中心;步骤7.2更新聚类中心模板;步骤8Until聚类中心模板没有变化;k均值混合聚类算法主要包括两个阶段,第一阶段是实现基于群体智能的聚类过程,第二阶段是以第一阶段得到的聚类中心均值模板和聚类中心个数为参数,实现K均值聚类过程,当然在收集第一阶段聚类结果的时候,由单个模式形成的聚类中心将不列为第二阶段的初始聚类中心模板。...

【技术特征摘要】
1.基于群体智能的行为聚类系统,其特征在于,该系统的数据表示包括
数据结构和数据类型,采用K均值混合聚类算法;
数据类型是一组值的集合和定义在这个值集合之上的一组操作的总称,
与数据本身相关,包括数值性、布尔型、可分类型、混合型等;
数据结构是数据的组织形式,通常指存储在计算机内存中的数据;本系
统采用的聚类算法所用的数据主要有以下两种数据结构:
1、矢量表示;2、相似矩阵表示;
采用k均值混合聚类算法,将蚁群聚类算法与k均值聚类算法结合起来,
该算法主要分成两个部分,第一部分进行蚁群聚类,第二部分用k均值算法
收集蚁群聚类的结果,在k均值混合聚类算法中,相似度公式与蚁群聚类的
基本模型及LF算法类似,但采用了更为简单的概率转换函数,它是两条斜
率为k的直线,如下所示;
pp=1-ϵf(Oi)≤01-k×f(Oi)0<f(Oi)≤1/k0+ϵf(Oi)>1/k]]>pd=1-ϵf(Oi)≥1/kk×f(Oi)0<f(Oi)<1/k0+ϵf(Oi)≤0]]>在基本模型中,概率转换函数的参数包括两个阈值常数k1和k2,并且阈
值常数的选取和实验数据相关密切,而在k均值混合聚类算法中,概率转换
函数只有k,并且通过实验证明,简化后概率转换函数的参数k并没有根据
实验数据变化而变化,因此新算法的概率转换函数变化同样减轻了算法参数
选取的复杂度,提高了算法的实用性,K均值混合聚类算法的运行过程如下:
算法:K均值混合聚类算法
输入:p个模式矢量
输出:被标记聚类类别的p个模式
方法:
步骤l:参数初始化,a,ant_number,k,R,size,dist.最大循环次数n,
标注类别值clusterno等;
步骤2:将待聚类模式随机分散于一个平面上,即随机赋给每一个模式一
对(x,y)坐标;
步骤3:给一组蚂蚁赋初始模式值,初始状态为无负载;
步骤4:for i=1,2…,n;
步骤4.1for j=1,2,…ant_number;
步骤4.1.1以本只蚂蚁初始模式对应坐标为中心,r为观察半径,利用
群体相似度公式计算此模式在观察半径范围内的群体相似度;
步骡4.1.2若本只蚂蚁无负载,则计算拾起概率pp;
步骤4.1.3与一随机概率pr相比较,若pp<pr,则蚂蚁不拾起此模式,
再随机赋给蚂蚁一个模式值,否则蚂蚁拾起此模式,蚂蚁状态改为有负载,
随机给蚂蚁一个新坐标;
步骤4.1.4若本只蚂蚁有负载,则计算放下概率pd;
步骤4.1.5与一随机概率pr相比较,若pd>pr则蚂蚁放下此模式,将蚂
蚁的坐标赋给此模式,蚂蚁状态改为无负载,再随机赋给蚂蚁一个模式值.否
则蚂蚁继续携带此模式,蚂蚁状态仍为有负载,再次随机给蚂蚁一个新坐标;
步骤5:for i=1,2…,pattern_num;//对于每一个模式
步骤5.1若此模式未被标注类别;
步骤5.1.1标注此模式的类别;
步骤5.1.2用同一类别标注值递归标注所有相距小于dist的模式,即在
平面上收集所有属于同一集簇的模式;
步骤5.1.3if同一集簇模式数大于1,类别标注值clusterno++;
else标注此模式为例外;
步骤6:生成聚类中心模板,即计算不包括例外的每一个聚类中心的平
均值;
步骤7:Repeat;
步骤7.1(再次)将每一个模式以距离最近的规则划分到所属聚类中
心;
步骤7.2更新聚类中心模板;
步骤8Until聚类中心模板没有变化;
k均值混合聚类算法主要包括两个阶段,第一阶段是实现基于群体智能
的聚类过程,第二阶段是以第一阶段得到的聚类中心均值模板和聚类中心个
数为参数,实现K均值聚类过程,当然在收集第一阶段聚类结果的时候,由

\t单个模式形成的聚类中心将不列为第二阶段的初始聚类中心模板。
2.根据权利要求1所述的基于群体智能的行为聚类系统,其特征在于,
所述的矢量表示是通过一个多维空间中的矢量来描述一个对象多方面的特
征,矢量的每个维度对应对象的一个特征,多个对象的矢量可以构成一个模
式矩阵(patter...

【专利技术属性】
技术研发人员:李臻纪敏
申请(专利权)人:上海市玻森数据科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1