当前位置: 首页 > 专利查询>盐城工学院专利>正文

基于随机近邻嵌入的文本聚类方法技术

技术编号:13969720 阅读:63 留言:0更新日期:2016-11-10 04:36
本发明专利技术公开了一种基于随机近邻嵌入的文本聚类方法,包括以下步骤:对文本集进行预处理,将文本集表示为标准化词‑文本共现矩阵;通过t‑分布随机近邻嵌入(t‑SNE)将高维文本数据嵌入到低维空间,使高维空间相似度较低的文本对应的低维嵌入点距离较远,相似度较高的文本对应的低维嵌入点距离较近;将多个低维嵌入点作为K均值算法的初始质心,并根据低维空间映射点坐标,采用K均值算法进行聚类。解决了因文本高维稀疏特性带来的维数灾难问题,降低了文本数据的维数,缩短了聚类算法的运行时间,提高了聚类算法的精度。

【技术实现步骤摘要】

本专利技术涉及一种文本聚类集成方法,具体地涉及一种基于随机近邻嵌入的文本聚类方法
技术介绍
随着网络信息的飞速增长和搜索引擎等技术的日趋成熟,人类社会所面临的主要问题已经不再是信息匮乏,而是如何提高信息获取和信息访问的效率。当前,网上的信息绝大部分以文本形式呈现,因此,如何有效组织大规模文本集已成为一个极富挑战的问题。文本/文档聚类(text/document clustering)依据著名的聚类假设:同类的文本相似度较大,而不同类的文本相似度较小。作为一种最主要的无监督机器学习方法,聚类不需要训练,也不需要预先对文本手工标注类别,因此具有较强的自动化处理能力,已经成为对文本数据集进行有效组织、摘要和导航的重要手段,引起越来越多的研究人员关注。文本聚类典型应用包括:①文本聚类可以作为多文本自动文摘等自然语言处理应用的预处理步骤,例如可以对每天的重要新闻进行聚类,对同主题新闻文档进行冗余消除、信息融合、文本生成等处理,从而生成简明扼要的摘要;②对搜索引擎返回的结果进行聚类,根据用户输入的检索关键词,对检索到的文档进行聚类,并输出多个不同类别的简要描述,缩小检索范围,使用户迅速定位到感兴趣的主题。③对用户感兴趣的文档聚类,发现用户的兴趣模式,并用于信息过滤和信息主动推荐等服务。④文本聚类技术还有助于改善文本分类的结果。⑤数字图书馆服务。通过文本聚类方法,将高维空间的文档映射到二维空间,使得聚类结果可视化;⑥文本集合的自动整理。由于近义词及歧义词的普遍存在,即使具有相同语义的文本数据集生成的向量空间也是高维稀疏的,另外,由于向量空间模型在文本表示能力方面具有局限性,使得现有的降维技术面临小样本问题,从而给聚类算法带来挑战。现有的聚类算法在处理文本数据时难以同时兼顾以下两点要求:(1)聚类精度高;(2)运行速度快。总体来看,速度快的聚类算法以牺牲精度为代价,而精度高的聚类算法则运行缓慢。
技术实现思路
针对上述技术问题,本专利技术目的是:提供一种基于随机近邻嵌入的文本聚类方法,解决了因文本高维稀疏特性带来的维数灾难问题,降低了文本数据的维数,缩短了聚类算法的运行时间,提高了聚类算法的精度。本专利技术的技术方案是:一种基于随机近邻嵌入的文本聚类方法,其特征在于,包括以下步骤:S01:对文本集进行预处理,将文本集表示为标准化词-文本共现矩阵;S02:通过t-分布随机近邻嵌入(t-SNE)将高维文本数据嵌入到低维空间,使高维空间相似度较低的文本对应的低维嵌入点距离较远,相似度较高的文本对应的低维嵌入点距离较近;S03:将多个低维嵌入点作为K均值算法的初始质心,并根据低维空间映射点坐标,采用K均值算法进行聚类。优选的,所述步骤S01中标准化词-文本共现矩阵的构建步骤包括:S11:对文本集进行分词,移除低频词,生成特征词集W;S12:统计词wi在文本向量dj中出现的次数tij,词频tfij=tij/Σitij;S13:统计词wi在文本集中的次数ni,逆文本频率idfi=log(n/ni),计算归一化因子sj=(Σni=1(tfij×idfi)2)1/2,n为文本集的大小;S14:计算加权文本向量u.j:uij=tfij×idfi×sj,构建标准化词-文本共现矩阵A:A.j=u.j。优选的,所述步骤S02包括以下步骤:S21:高维数据点xi,xj之间的距离被转换为低维映射点的联合概率分布P,其元素pij为:σ表示高斯函数的方差,表示第k个文本与第l个文本之间的距离;S22:定义高维数据点xi,xj所对应的低维映射点yi与yj的联合概率qij,用qij来建模pii,两个分布P,Q的差异以KL散度衡量: C ( Y ) = K L ( P | | Q ) = Σ i Σ j ≠ i p i j l o g p i j q i j ]]>上式的梯度为: δ C δy i = 4 Σ j ( p i j - q i j ) ( y i - y j ) ( 1 + | | y i - y j | | ) - 1 ]]>使用1个自由度的t分布测量yi,yj之间的相似度不同: q i j = ( 1 + | | y i - y j 本文档来自技高网
...

【技术保护点】
一种基于随机近邻嵌入的文本聚类方法,其特征在于,包括以下步骤:S01:对文本集进行预处理,将文本集表示为标准化词‑文本共现矩阵;S02:通过t‑分布随机近邻嵌入(t‑SNE)将高维文本数据嵌入到低维空间,使高维空间相似度较低的文本对应的低维嵌入点距离较远,相似度较高的文本对应的低维嵌入点距离较近;S03:将多个低维嵌入点作为K均值算法的初始质心,并根据低维空间映射点坐标,采用K均值算法进行聚类。

【技术特征摘要】
1.一种基于随机近邻嵌入的文本聚类方法,其特征在于,包括以下步骤:S01:对文本集进行预处理,将文本集表示为标准化词-文本共现矩阵;S02:通过t-分布随机近邻嵌入(t-SNE)将高维文本数据嵌入到低维空间,使高维空间相似度较低的文本对应的低维嵌入点距离较远,相似度较高的文本对应的低维嵌入点距离较近;S03:将多个低维嵌入点作为K均值算法的初始质心,并根据低维空间映射点坐标,采用K均值算法进行聚类。2.根据权利要求1所述的基于随机近邻嵌入的文本聚类方法,其特征在于,所述步骤S01中标准化词-文本共现矩阵的构建步骤包括:S11:对文本集进行分词,移除低频词,生成特征词集W;S12:统计词wi在文本向量dj中出现的次数tij,词频tfij=tij/Σitij;S13:统计词wi在文本集中的次数ni,逆文本频率idfi=log(n/ni),计算归一化因子sj=(Σni=1(tfij×idfi)2)1/2,n为文本集的大小;S14:计算加权文本向量u.j:uij=tfij×idfi×sj,构建标准化词-文本共现矩阵A:A.j=u.j。3.根据权利要求1所述的基于随机近邻嵌入的文本聚类方法,其特征在于,所述步骤S02包括以下步骤:S21:高维数据点xi,xj之间的距离被转换为低维映射点的联合概率分布P,其元素pij为:σ表示高斯函数的方差,表示第k个文本与第l个文本之间的距离;S22:定义高维数据点xi,xj所对应的低维映射点yi与yj的联合概率qij,用qij来建模pii,两个分布P,Q的差异以KL散度衡量: C ( Y ) = K L ( P | | Q ) = Σ i Σ j ≠ i p i j l o g p i j q i j ]]>上式的梯度为: δ C δy i = 4 Σ j ( p i j - q i j ) ( y i - y j ) ( 1 + | | y i - y j | | ) - 1 ]]>使用1个自由度的t分布测量yi,yj之间的相似度不同: q i j = ( ...

【专利技术属性】
技术研发人员:徐森徐静花小朋李先锋徐秀芳安晶皋军曹瑞
申请(专利权)人:盐城工学院
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1