一种基于词向量语义分析的海量短文本聚类方法技术

技术编号：15542163 阅读：133 留言：0更新日期：2017-06-05 11:13

本发明专利技术提供一种基于词向量语义分析的海量短文本聚类方法，该方法针对海量短文本提供一种基于词向量语义分析的聚类方法。首先利用使用海量文本数据进行word2vec的训练，将文本单词映射到256维的向量空间，然后对需要聚类的文本进行单词tfidf值的计算作为权重，将预处理后的文本进行加权求和，将短文本的向量化，相对于传统的tfidf模型，加入了word2vec训练好的词向量语义信息。得到更高质量的“文本向量”，从而提高聚类效果，采用大数据实时流处理框架Spark进行K‑means或Dbscan算法进行聚类，加速得到聚类结果。

A method of massive short text clustering based on semantic analysis of word vectors

The invention provides a massive short text clustering method based on word vector semantic analysis, which provides a semantic clustering method based on word vector analysis for massive short texts. Firstly, the use of the word2vec massive text data, text word is mapped to the 256 dimensional vector space, then the text clustering is calculated as weight value of the word TFIDF, the text after pretreatment of the weighted sum of the short text to quantify, compared with the traditional TFIDF model, adding the word vector of semantic information of word2vec trained. Higher quality \text vector\, so as to improve the clustering results, using Spark real time stream processing framework data K means or Dbscan clustering algorithm, the clustering results are accelerated.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于词向量语义分析的海量短文本聚类方法
本专利技术涉及语义分析领域，更具体地，涉及一种基于词向量语义分析的海量短文本聚类方法。
技术介绍
传统的文档空间向量模型(VSM)中，文档被表示成由特征词出现概率组成的多维向量，但还存在不少问题。0-1向量空间模型：将每个词的出现与否作为其值，过于简单暴力，忽略了单词出现的频率、顺序等问题，同时中文的切词难以规范也是很大问题。词袋模型考虑了单词出现的次数，词频逆文档tfidf模型，同时兼顾了单词在所有文档中出现的频率而计算单词的“重要度”，但对同义词都完全无法处理。如“奥巴马来了北京发表讲话”与“美国总统到了中国首都演讲”，传统的词向量空间模型将会看成完全不相同的两句话。传统的向量空间模型与概率模型构建的“文档——单词”矩阵，由于单词表巨大，一般都接近10万级别，而短文本会真正会出现的单词极少，因此，会出现向量化后的文本矩阵中出现大量未0的稀疏性问题，和维度太大计算量大的“维度爆炸”的问题。PLSA等概率模型，在词与文本引入了“主题”(topic)中间概念，考虑了单词在所有文本中的分布，一定程度上解决了近义词的问题，但实现困难，计算复杂度大，对与几十到上百字的短文本效果也很差。因此，对于日益增长的海量的短文本数据不太实用。在聚类算法方面，传统的K-Means算法简单方便，效果良好，但存在初始值需要聚类的簇数目K难以确定和计算时需要两两比较，复杂度大两个缺点。
技术实现思路
本专利技术提供一种基于词向量语义分析的海量短文本聚类方法，该方法聚类效果好，聚类速度快。为了达到上述技术效果，本专利技术的技术方案如下：一种基于词...

【技术保护点】
一种基于词向量语义分析的海量短文本聚类方法，其特征在于，包括以下步骤：S1：收集海量文本数据，并对每一文本数据进行预处理；S2：对预处理后的文本进行word2vec模型训练得到词向量模型；S3：将待处理的文本利用得到的词向量模型处理得到该待处理的文本的向量；S4：对待处理的文本的向量利用K‑Means聚类算法或Dbscan聚类算法进行聚类处理得到聚类结果。

【技术特征摘要】
1.一种基于词向量语义分析的海量短文本聚类方法，其特征在于，包括以下步骤：S1：收集海量文本数据，并对每一文本数据进行预处理；S2：对预处理后的文本进行word2vec模型训练得到词向量模型；S3：将待处理的文本利用得到的词向量模型处理得到该待处理的文本的向量；S4：对待处理的文本的向量利用K-Means聚类算法或Dbscan聚类算法进行聚类处理得到聚类结果。2.根据权利要求1所述的基于词向量语义分析的海量短文本聚类方法，其特征在于，所述步骤S1的具体过程是：对收集的文本数据采用基于知识库的方法对部分词语进行消歧，包括常规的高频词、停用词、标点符号、表情符号、简繁体转换的去除处理。3.根据权利要求1所述的基于词向量语义分析的海量短文本聚类方法，其特征在于，所述步骤S3的具体过程如下：将待处理的文本利用得到的词向量模型处理得到若干个单词的词向量，对每一个单词的词向量进行tfidf值计算，以计算出的tfidf值作为word2vec处理的权重，对每一个单词的词向量进行word2vec处理并加权求和得到待处理文本的256维度的向量：

【专利技术属性】
技术研发人员：缪伟宏，潘嵘，
申请(专利权)人：中山大学，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人