一种基于密度的文章聚合算法制造技术

技术编号:12852658 阅读:68 留言:0更新日期:2016-02-11 16:53
一种基于密度的文章聚合算法,所述算法步骤包括:1.计算集合中文章的信息熵,形成集合;2.计算文章中词条的互信息;3.将熵集合的向量结合互信息权重投影到高纬度,获得高纬度向量集合;4.对高纬度向量聚合进行距离计算;5.根据距离阈值获取质心进行聚类;6.获得聚类结果。本发明专利技术提供的聚类算法对粒度密度依赖性低,准确度更高,可用于分布式系统进行网络文档处理及挖掘。

【技术实现步骤摘要】

本专利技术涉及一种聚类分析算法,具体来说涉及。
技术介绍
DBSCAN(Density-Based Spatial Clustering of Applicat1ns with Noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划。然而DBSCAN在数据量增大时,要求较大的内存支持,I/O消耗也很大;当空间聚类的密度不均匀,聚类间距离相差很大时,聚类的质量较差,精准度不够。
技术实现思路
本专利技术所要解决的技术问题在于克服上述现有技术中存在的缺陷,而提供一种小粒度切割,适用于分布式系统的高精准度的聚类算法。为实现上述目的,本专利技术提供,所述算法步骤包括:1.计算集合中文章的信息熵,形成集合;2.计算文章中词条的互信息;3.将熵集合的向量结合互信息权重投影到高纬度,获得高纬度向量集合;4.对高纬度向量聚合进行距离计算;5.根据距离阈值获取质心进行聚类;6.获得聚类结果。优选地,所述基于密度的文章聚合算法还包括:建立数据结构K-d tree,将数据集空间划分为多个区域;选择所述每个区域的初始类中心;以所述的初始类中心作为候选中心使用迭代算法找出最优的类中心。优选地,所述的数据结构K-d tree是二叉树。优选地,选择所述每个区域的初始类中心的过程包括:定义每个叶子节点Li的密度P i为:其中,Ni代表叶子节点Li中数据对象的个数,Vi代表叶子节点Li所代表的多维空间的体积。用mi代表叶子结点Li的中心,假设一共有q个叶子结点,1 =? i =? q,(1)第一个初始类中心Cl的选择:首先选出密度最大的叶子节点中心最为第一个初始类中心C1 ;(2)第二个初始类中心C2的选择:在剩余叶子结点中选择使函数T最大的作为第二个初始类中心,函数τ的定义是:T = d(Cl, mi) X p i其中,d(Cl, mi)表示mi到Cl的距离;(3)后续初始类中心的选择:假设已经选择了 X个初始类中心,选择第X+1个初始类中心的策略是选择使下式最大的候选点。优选地,所述基于密度的文章聚合算法还包括一种过滤机制:当选择一个候选点作为候选初始类中心后,判断它与已选中的初始类中心是否属于同一个类,如果属于同一个类则把它过滤掉,否则就选为初始类中心。优选地,所述基于密度的文章聚合算法判断两个点是否属于同一个类的标准是:如果两个点之间是密度可达的,则判断它们属于同一个类,否则就不属于。优选地,所述的密度可达按如下规则判断:(1)给定一个数据对象,以它为圆心,半径为ε的区域成为该对象的邻域;(2)如果一个数据对象的ε -邻域内至少包含了 Mmin个数据对象,则称它为核心对象;(3)给定一个核心对象p,它邻域内的任意一个对象对它来说是直接密度可达;(4)如果存在一个数据对象链,pi,p2,…,ρη,对于任意pi, 1 ( i < n,pi+l是从pi关于ε和Mmin直接密度可达的,那么ρη是从pi关于ε和Mmin密度可达的。优选地,假设已经选择X个类中心,当前选出的候选点为m,m与第i个初始类中心之间的叶子结点集合为si, 1 < i < x,根据以下公式为新的类中心;1 < i < X来选择新的类中心,其中,η代表叶子节点,Ρ η为η的密度,wweight为设定的权重。优选地,所述权重wweight为1。本专利技术提供了一种对粒度密度依赖性低,准确度更高,可用于分布式系统进行网络文档处理及挖掘的聚类算法。【附图说明】:图1是基于密度的文章聚合算法的示意图。【具体实施方式】:下面结合附图对专利技术的实施例进一步详述。如图1所示,,所述算法步骤包括:1.计算集合中文章的信息熵,形成集合;2.计算文章中词条的互信息;3.将熵集合的向量结合互信息权重投影到高纬度,获得高纬度向量集合;4.对高纬度向量聚合进行距离计算;5.根据距离阈值获取质心进行聚类;6.获得聚类结果。如图1所示,所述基于密度的文章聚合算法还包括:建立数据结构K-d tree,将数据集空间划分为多个区域;选择所述每个区域的初始类中心;以所述的初始类中心作为候选中心使用迭代算法找出最优的类中心。如图1所示,所述的数据结构K-d tree是二叉树。如图1所示,选择所述每个区域的初始类中心的过程包括:定义每个叶子节点Li的密度p i为:其中,Ni代表叶子节点Li中数据对象的个数,Vi代表叶子节点Li所代表的多维空间的体积。用mi代表叶子结点Li的中心,假设一共有q个叶子结点,(1)第一个初始类中心Cl的选择:首先选出密度最大的叶子节点中心最为第一个初始类中心Cl ;(2)第二个初始类中心C2的选择:在剩余叶子结点中选择使函数T最大的作为第二个初始类中心,函数T的定义是:T = d(Cl, mi) X p i其中,d(Cl,mi)表示mi到Cl的距离;(3)后续初始类中心的选择:假设已经选择了 X个初始类中心,选择第X+1个初始类中心的策略是选择使下式最大的候选点。如图1所示,所述基于密度的文章聚合算法还包括一种过滤机制:当选择一个候选点作为候选初始类中心后,判断它与已选中的初始类中心是否属于同一个类,如果属于同一个类则把它过滤掉,否则就选为初始类中心。如图1所示,所述基于密度的文章聚合算法判断两个点是否属于同一个类的标准是:如果两个点之间是密度可达的,则判断它们属于同一个类,否则就不属于。如图1所示,所述的密度可达按如下规则判断:(1)给定一个数据对象,以它为圆心,半径为ε的区域成为该对象的邻域;(2)如果一个数据对象的ε -邻域内至少包含了 Mmin个数据对象,则称它为核心对象;(3)给定一个核心对象p,它邻域内的任意一个对象对它来说是直接密度可达;(4)如果存在一个数据对象链,pi,p2,…,ρη,对于任意pi, 1 ( i < n,pi+l是从pi关于ε和Mmin直接密度可达的,那么ρη是从pi关于ε和Mmin密度可达的。优选地,假设已经选择X个类中心,当前选出的候选点为m,m与第i个初始类中心之间的叶子结点集合为si, 1 < i < x,根据以下公式为新的类中心;1 < i < X来选择新的类中心,其中,η代表叶子节点,Ρ η为η的密度,wweight为设定的权重。如图1所示,所述权重wweight为1。以上对本专利技术的实施例进行了详细说明,但所述内容仅为本专利技术的较佳实施例,不能被认为用于限定本专利技术的实施范围。凡依本专利技术申请范围所作的均等变化与改进等,均应仍归属于本专利技术的专利涵盖范围之内。【主权项】1.,所述算法步骤包括: (1)计算集合中文章的信息熵,形成集合; (2)计算文章中词条的互信息; (3)将熵集合的向量结合互信息权重投影到高纬度,获得高纬度向量集合; (4)对高纬度向量聚合进行距离计算; (5)根据距离阈值获取质心进行聚类; (6)获得聚类结果。2.根据权利要求1中所述的基于密度的文章聚合算法,其特征在于:所述基于密度的文章聚合算法还包括:建立数据结构K-d tree,将数据集空间划分为多个区域;选择所述每个区域的初始类中心;以所述的初始类中心作为候选中心使用迭代算法找出最优的类中心。3.根据权本文档来自技高网...

【技术保护点】
一种基于密度的文章聚合算法,所述算法步骤包括:(1)计算集合中文章的信息熵,形成集合;(2)计算文章中词条的互信息;(3)将熵集合的向量结合互信息权重投影到高纬度,获得高纬度向量集合;(4)对高纬度向量聚合进行距离计算;(5)根据距离阈值获取质心进行聚类;(6)获得聚类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:吕永强
申请(专利权)人:广州市邦富软件有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1