当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于词向量语义分析的海量短文本聚类方法技术

技术编号:15542163 阅读:133 留言:0更新日期:2017-06-05 11:13
本发明专利技术提供一种基于词向量语义分析的海量短文本聚类方法,该方法针对海量短文本提供一种基于词向量语义分析的聚类方法。首先利用使用海量文本数据进行word2vec的训练,将文本单词映射到256维的向量空间,然后对需要聚类的文本进行单词tfidf值的计算作为权重,将预处理后的文本进行加权求和,将短文本的向量化,相对于传统的tfidf模型,加入了word2vec训练好的词向量语义信息。得到更高质量的“文本向量”,从而提高聚类效果,采用大数据实时流处理框架Spark进行K‑means或Dbscan算法进行聚类,加速得到聚类结果。

A method of massive short text clustering based on semantic analysis of word vectors

The invention provides a massive short text clustering method based on word vector semantic analysis, which provides a semantic clustering method based on word vector analysis for massive short texts. Firstly, the use of the word2vec massive text data, text word is mapped to the 256 dimensional vector space, then the text clustering is calculated as weight value of the word TFIDF, the text after pretreatment of the weighted sum of the short text to quantify, compared with the traditional TFIDF model, adding the word vector of semantic information of word2vec trained. Higher quality \text vector\, so as to improve the clustering results, using Spark real time stream processing framework data K means or Dbscan clustering algorithm, the clustering results are accelerated.

【技术实现步骤摘要】
一种基于词向量语义分析的海量短文本聚类方法
本专利技术涉及语义分析领域,更具体地,涉及一种基于词向量语义分析的海量短文本聚类方法。
技术介绍
传统的文档空间向量模型(VSM)中,文档被表示成由特征词出现概率组成的多维向量,但还存在不少问题。0-1向量空间模型:将每个词的出现与否作为其值,过于简单暴力,忽略了单词出现的频率、顺序等问题,同时中文的切词难以规范也是很大问题。词袋模型考虑了单词出现的次数,词频逆文档tfidf模型,同时兼顾了单词在所有文档中出现的频率而计算单词的“重要度”,但对同义词都完全无法处理。如“奥巴马来了北京发表讲话”与“美国总统到了中国首都演讲”,传统的词向量空间模型将会看成完全不相同的两句话。传统的向量空间模型与概率模型构建的“文档——单词”矩阵,由于单词表巨大,一般都接近10万级别,而短文本会真正会出现的单词极少,因此,会出现向量化后的文本矩阵中出现大量未0的稀疏性问题,和维度太大计算量大的“维度爆炸”的问题。PLSA等概率模型,在词与文本引入了“主题”(topic)中间概念,考虑了单词在所有文本中的分布,一定程度上解决了近义词的问题,但实现困难,计算复杂度大,对与几十到上百字的短文本效果也很差。因此,对于日益增长的海量的短文本数据不太实用。在聚类算法方面,传统的K-Means算法简单方便,效果良好,但存在初始值需要聚类的簇数目K难以确定和计算时需要两两比较,复杂度大两个缺点。
技术实现思路
本专利技术提供一种基于词向量语义分析的海量短文本聚类方法,该方法聚类效果好,聚类速度快。为了达到上述技术效果,本专利技术的技术方案如下:一种基于词向量语义分析的海量短文本聚类方法,包括以下步骤:S1:收集海量文本数据,并对每一文本数据进行预处理;S2:对预处理后的文本进行word2vec模型训练得到词向量模型;S3:将待处理的文本利用得到的词向量模型处理得到该待处理的文本的向量;S4:对待处理的文本的向量利用K-Means聚类算法或Dbscan聚类算法进行聚类处理得到聚类结果。进一步地,所述步骤S1的具体过程是:对收集的文本数据采用基于知识库的方法对部分词语进行消歧,包括常规的高频词、停用词、标点符号、表情符号、简繁体转换的去除处理。进一步地,所述步骤S3的具体过程如下:将待处理的文本利用得到的词向量模型处理得到若干个单词的词向量,对每一个单词的词向量进行tfidf值计算,以计算出的tfidf值作为word2vec处理的权重,对每一个单词的词向量进行word2vec处理并加权求和得到待处理文本的256维度的向量:其中,doc表示文本向量,Token表示文本的每个单词的词向量,n为文本中单词个数,m为文本词向量的具体维度为256,Wk,j为第i个单词在文档j中的tfidf值。进一步地,所述步骤S4的具体过程如下:1)从n个单词中数随机动态选取k个词向量作为初始聚类中心;2)分别计算未选中的词向量与这k个聚类中心的距离,根据最小距离对这些词向量进行划分得到新的聚类;3)计算第2)中得到的聚类的每一个词向量的均值作为聚类中心;4)迭代计算标准测度函数,如当迭代次数达到一定阈值,或者标准测度函数收敛K值不再变化时,算法终止,否则跳转至步骤2)。进一步地,所述将待处理的文本利用得到的词向量模型处理得到若干个单词的词向量的过程是:对预处理后的文本作为word2vec模型的输入,词向量维度设为256,上下窗口为5,利用连续空间词向量技术CBOW方法进行训练得到文本的单词的词向量。与现有技术相比,本专利技术技术方案的有益效果是:本专利技术针对海量短文本提供一种基于词向量语义分析的聚类方法。首先利用使用海量文本数据进行word2vec的训练,将文本单词映射到256维的向量空间,然后对需要聚类的文本进行单词tfidf值的计算作为权重,将预处理后的文本进行加权求和,将短文本的向量化,相对于传统的tfidf模型,加入了word2vec训练好的词向量语义信息。得到更高质量的“文本向量”,从而提高聚类效果,采用大数据实时流处理框架Spark进行K-means或Dbscan算法进行聚类,加速得到聚类结果。附图说明图1为本专利技术方法流程图;图2为本专利技术方法在实施例1中的问答系统中的应用流程图。具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本专利技术的技术方案做进一步的说明。实施例1如图1所示,一种基于词向量语义分析的海量短文本聚类方法,包括以下步骤:S1:收集海量文本数据,并对每一文本数据进行预处理;S2:对预处理后的文本进行word2vec模型训练得到词向量模型;S3:将待处理的文本利用得到的词向量模型处理得到该待处理的文本的向量;S4:对待处理的文本的向量利用K-Means聚类算法或Dbscan聚类算法进行聚类处理得到聚类结果。步骤S1的具体过程是:对收集的文本数据采用基于知识库的方法对部分词语进行消歧,包括常规的高频词、停用词、标点符号、表情符号、简繁体转换的去除处理。步骤S3的具体过程如下:将待处理的文本利用得到的词向量模型处理得到若干个单词的词向量,对每一个单词的词向量进行tfidf值计算,以计算出的tfidf值作为word2vec处理的权重,对每一个单词的词向量进行word2vec处理并加权求和得到待处理文本的256维度的向量:其中,doc表示文本向量,Token表示文本的每个单词的词向量,n为文本中单词个数,m为文本词向量的具体维度为256,Wk,j为第i个单词在文档j中的tfidf值。步骤S4的具体过程如下:1)从n个单词中数随机动态选取k个词向量作为初始聚类中心;2)分别计算未选中的词向量与这k个聚类中心的距离,根据最小距离对这些词向量进行划分得到新的聚类;3)计算第2)中得到的聚类的每一个词向量的均值作为聚类中心;4)迭代计算标准测度函数,如当迭代次数达到一定阈值,或者标准测度函数收敛K值不再变化时,算法终止,否则跳转至步骤2)。将待处理的文本利用得到的词向量模型处理得到若干个单词的词向量的过程是:对预处理后的文本作为word2vec模型的输入,词向量维度设为256,上下窗口为5,利用连续空间词向量技术CBOW方法进行训练得到文本的单词的词向量。本实施例中以某银行的用户客户问答日志记录作为例子,来说明本专利技术的方法的过程:(1)收集数据集通过将用户输入问题进行聚类分析,从而协助构建智能客服FAQ常用问答库。实际应用中可使用任何文本。(2)文本预处理相对于传统的词袋模型,尤其针对用户查询语句的短文本,高维性和稀疏性缺点突出,而且不能刻画词与词直接的相似性,可采用基于知识库的方法对部分词语进行消歧,如中文的《知网》,英文的WordNet等。然后,进行常规的高频词、停用词、标点符号、表情符号、简繁体转换的去除处理。(3)训练词向量为了让机器“读懂”文字,本专利技术采用了向量空间模型,将每个文档表示为256维的实数向量序列。向量的特征项为文档中的词语,词向量的值由word2vec训练而来。Word2vec是Google公司开源的一个用于将词语进行本文档来自技高网...
一种基于词向量语义分析的海量短文本聚类方法

【技术保护点】
一种基于词向量语义分析的海量短文本聚类方法,其特征在于,包括以下步骤:S1:收集海量文本数据,并对每一文本数据进行预处理;S2:对预处理后的文本进行word2vec模型训练得到词向量模型;S3:将待处理的文本利用得到的词向量模型处理得到该待处理的文本的向量;S4:对待处理的文本的向量利用K‑Means聚类算法或Dbscan聚类算法进行聚类处理得到聚类结果。

【技术特征摘要】
1.一种基于词向量语义分析的海量短文本聚类方法,其特征在于,包括以下步骤:S1:收集海量文本数据,并对每一文本数据进行预处理;S2:对预处理后的文本进行word2vec模型训练得到词向量模型;S3:将待处理的文本利用得到的词向量模型处理得到该待处理的文本的向量;S4:对待处理的文本的向量利用K-Means聚类算法或Dbscan聚类算法进行聚类处理得到聚类结果。2.根据权利要求1所述的基于词向量语义分析的海量短文本聚类方法,其特征在于,所述步骤S1的具体过程是:对收集的文本数据采用基于知识库的方法对部分词语进行消歧,包括常规的高频词、停用词、标点符号、表情符号、简繁体转换的去除处理。3.根据权利要求1所述的基于词向量语义分析的海量短文本聚类方法,其特征在于,所述步骤S3的具体过程如下:将待处理的文本利用得到的词向量模型处理得到若干个单词的词向量,对每一个单词的词向量进行tfidf值计算,以计算出的tfidf值作为word2vec处理的权重,对每一个单词的词向量进行word2vec处理并加权求和得到待处理文本的256维度的向量:

【专利技术属性】
技术研发人员:缪伟宏潘嵘
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1