一种基于密度的文章聚合算法制造技术

技术编号：12852658 阅读：68 留言：0更新日期：2016-02-11 16:53

一种基于密度的文章聚合算法，所述算法步骤包括：1.计算集合中文章的信息熵，形成集合；2.计算文章中词条的互信息；3.将熵集合的向量结合互信息权重投影到高纬度，获得高纬度向量集合；4.对高纬度向量聚合进行距离计算；5.根据距离阈值获取质心进行聚类；6.获得聚类结果。本发明专利技术提供的聚类算法对粒度密度依赖性低，准确度更高，可用于分布式系统进行网络文档处理及挖掘。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种聚类分析算法，具体来说涉及。
技术介绍
DBSCAN(Density-Based Spatial Clustering of Applicat1ns with Noise)是一个比较有代表性的基于密度的聚类算法。与划分和层次聚类方法不同，它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划。然而DBSCAN在数据量增大时，要求较大的内存支持，I/O消耗也很大；当空间聚类的密度不均匀，聚类间距离相差很大时，聚类的质量较差，精准度不够。
技术实现思路
本专利技术所要解决的技术问题在于克服上述现有技术中存在的缺陷，而提供一种小粒度切割，适用于分布式系统的高精准度的聚类算法。为实现上述目的，本专利技术提供，所述算法步骤包括:1.计算集合中文章的信息熵，形成集合；2.计算文章中词条的互信息；3.将熵集合的向量结合互信息权重投影到高纬度，获得高纬度向量集合；4.对高纬度向量聚合进行距离计算；5.根据距离阈值获取质心进行聚类；6.获得聚类结果。优选地，所述基于密度的文章聚合算法还包括:建立数据结构K-d tree，将数据集空间划分为多个区域；选择所述每个区域的初始类中心；以所述的初始类中心作为候选中心使用迭代算法找出最优的类中心。优选地，所述的数据结构K-d tree是二叉树。优选地，选择所述每个区域的初始类中心的过程包括:定义每个叶子节点Li的密度P i为:其中，Ni代表叶子节点Li中数据对象的个数，Vi代表叶子节点Li所代表的多维空间的体积。用mi代表叶子结点Li的中心，假设一共有q个叶子结点，1 =? i =? q,(1)第...

【技术保护点】
一种基于密度的文章聚合算法，所述算法步骤包括：(1)计算集合中文章的信息熵，形成集合；(2)计算文章中词条的互信息；(3)将熵集合的向量结合互信息权重投影到高纬度，获得高纬度向量集合；(4)对高纬度向量聚合进行距离计算；(5)根据距离阈值获取质心进行聚类；(6)获得聚类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：吕永强，
申请(专利权)人：广州市邦富软件有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人