一种社交媒体在线短文本聚类和话题检测方法技术

技术编号:14589524 阅读:115 留言:0更新日期:2017-02-08 18:18
本发明专利技术公开一种社交媒体在线短文本聚类和话题检测方法,通过文本预处理、文本在线聚类、相似类的检测合并和热门话题的识别,一定程度克服现有在线短文本聚类方法因词向量空间高维稀疏而导致类聚和不充分的问题,实现了在线大规模短文本的有效聚类。本发明专利技术提出的可扩展词向量空间解决了高维稀疏词向量的存储和降低了计算复杂度;本发明专利技术采用的利用词语索引加速了聚类方法;改进的“相似胜者合并后全得”的聚类方式和“熵不增加”的相似类合并准则缓解了因短文本特征高维稀疏带来的相同话题类合并不充分问题;本发明专利技术采用的热门话题检测识别的方法能对有价值和无价值的话题能做一个比较简单但有效的分类,挖掘跟踪有价值的话题。

Short text clustering and topic detection method for Social Media Online

The invention discloses a social media online short text clustering and topic detection method, through recognition preprocessing, text clustering, similarity class online detection and combined hot topic of the text, to a certain extent overcome the existing online short text clustering method for word vector space of High Dimensional Sparse Clustering and caused the problem of insufficient, effectively online massive short text clustering. The invention provides a scalable word vector space to solve the high-dimensional sparse vector storage and reduces the computational complexity; the invention adopts the use of word index accelerated clustering method; clustering method improved \after the merger of similar winner all\ and \similar class merging criteria of entropy increase\ easing the problem with the same topic class due to short text features of high dimension sparse is not sufficient; hot topic detection and recognition method adopted by the invention can have on the value and value of the topic can do a relatively simple but effective classification, mining the value of the topic tracking.

【技术实现步骤摘要】

本专利技术属于数据挖掘领域,特别涉及一种社交媒体数据挖掘技术。
技术介绍
社交媒体的话题检测兴起于最近十年内,由于国外类似推特、Facebook等,国内类似微博的社交平台的爆发性发展,让社交媒体成为了巨大的实时信息交流平台和商业市场,对社交媒体数据进行挖掘具有很高的价值。这类社交媒体产品改变了传统长文博客的社交方式,对文本字数进行限制,使得信息传播更加快速、高效。但是最近,推特、微博等社交网络又开始放宽文本字数限制,不过在快节奏的现代生活中,用户还是习惯于短文本的交流方式,因此在这些社交平台上的信息依然以短文本为主流。文本聚类是对文本信息进行挖掘的重要手段,对简化文本数据、加速文本检索、文本信息和语意分析等方面具有重要意义。由于目前社交网络中短文本信息大量存在,对短文本进行聚类分析是社交媒体数据挖掘的重点。社交媒体短文本具有信息不完整(字数限制导致文本的省略)、表达不规范(口语化、词语的谐音、不规范缩写、流行语、符号表情)、可用特征少(文本短)等特点,使得社交媒体短文本聚类比传统长文本聚类困难很多。现有文本聚类方法主要基于传统的聚类方法,和传统聚类方法一样,可分为层次法、划分法、基于密度的方法、基于网格的方法和基于模型的方法,这些方法同样也能应用于短文本聚类上。层次聚类算法根据其聚类方向分为凝聚式层次聚类与分裂式层次聚类。凝聚式层次聚类起初把每一个数据对象作为一个簇,计算簇之间的两两相似度,选择相似度最高的两个簇进行合并,并重新计算新合成的簇与其他簇之间的相似度,迭代直到聚为一类或者最大的相似度小于设定的阈值;分裂式层次聚类算法正好是凝聚式算法的逆过程,最终都是形成一颗层次树,每次合并和分裂都需要计算簇之间的距离,计算复杂度高,不适合对大规模文本整体聚类,代表算法有BIRCH、CURE。基于划分的方法是文本聚类中使用频率较高的方法,代表算法是K-means,该算法按照样本与簇中心的平均最近距离把样本集分为k个簇,对新得到的各个簇重新计算簇中心从而进行不断迭代逼近最优。该算法迭代次数较多,,不太适合对大规模文本进行聚类。基于密度的方法根据样本在空间中的密度进行聚类,代表算法有DBSCAN算法。基于网格的方法将数据空间划分成为有限个单元的网格结构,所有的处理都是以单个的单元为对象的,代表算法有STING算法、CLIQUE算法、WAVE-CLUSTER算法。基于模型的方法代表有LDA模型聚类,SOM神经网络聚类。虽然现有很多文本聚类的方法,但现有方法在短文本聚类应用中还存在三方面问题:一、大部分方法难以扩展到在线增量聚类。在社交平台上,数据量随用户发布不断增加,同时获取全部的数据进行聚类十分困难,也不实用,增量的在线聚类方法对社交媒体文本数据处理更有意义。但是现有的文本聚类方法不适合增量聚类,如大部分层次聚类的层次树生成按照一定顺序而无法插入和调整节点,能够增量层次聚类的方法却具有较高的计算复杂度。K-means聚类每次添加新样本相当于重新进行迭代过程,迭代次数较多时处理速度很慢。基于模型的聚类的样本完整性影响着概率模型,所以需要样本一次性全部输入,增量聚类难以实现。二、词向量空间的维度无法动态变化。通常聚类都会先构建词向量空间来描述文本或文本类,向量空间通常选择文本的词汇和其他特征。在社交平台上,新鲜事物的增加和人们个性的抒发让文本中的特征不断增加,若采用固定维度的特征空间会损失比一般长文本更大量的信息,社交媒体上的短文本可能因此丧失大量特征空间对聚类产生巨大的影响。而现有绝大部分增量聚类算法的词向量空间维数无法增加,这些方法将样本文本中的全部词语作为词向量的各个维度,建立固定的词向量空间,聚类时计算这个固定维度的词向量之间的相似度,如基于密度算法的DBSCAN,增量SOM算法。三、词向量空间的稀疏性问题较为严重。词向量空间的稀疏性是指每一条文本的特征向量中不为零的分量占总向量空间的比例很小。社交媒体中单条短文本的词语数较少而不同词语的总数量却很大,导致了词向量高维稀疏。词向量高维稀疏会导致词向量存储的代价变高,词向量之间的相似性计算代价变高,文本聚类的效果变差。
技术实现思路
本专利技术为解决上述技术问题,提出了一种社交媒体在线短文本聚类和话题检测方法,通过文本预处理、文本在线聚类、相似类的检测合并和热门话题的识别,一定程度克服现有在线短文本聚类方法因词向量空间高维稀疏而导致类聚和不充分的问题。本专利技术采用的技术方案是:一种社交媒体在线短文本聚类和话题检测方法,包括:S1、对社交媒体短文本进行预处理,得到纯净的带标记的词语序列;S2、对经步骤S1预处理后的社交媒体短文本进行在线聚类,包括以下分步骤:S21、短文本的可扩展词向量构建;S22、短文本与类的余弦相似度计算;S23、根据步骤S22计算新出的文本与类的余弦相似度,选出与新文本余弦相似度高于第一阈值的类,将与新文本余弦相似度最高的类称为最相似类,把与新文本余弦相似度高于阈值的除最相似类以外其他所有相似类称为候选相似类,分别计算每一个候选相似类和最相似类的词频数向量相加合并后与新文本词向量的余弦相似度,如果该余弦相似度和合并前的最相似类与新文本的余弦相似度相比减小量小于第三阈值,或该余弦相似度和合并前的最相似类与新文本的余弦相似度相比有增加,则把该候选相似类合并入最相似类;S24、检测和合并相似短文本类,根据两个类的相似度来检测识别出这些未充分合并的类;S3、热门话题的检测,根据类文本总数、类文本平均到达率、类文本当前平均到达率对话题的热度进行推测,对热门话题进行识别。进一步地,所述步骤S1包括:文本标准化、文本分词、命名实体标注、词性标注、词形还原以及去停止词;所述文本标准化是将短文本转换成标准格式,包括过滤掉除英语字母和部分拉丁字母以外的字母,过滤掉除断句相关的所有符号;所述文本分词通过对标准化后的文本以空格为分割符分词,得到单词和部分符号的有序序列;所述命名实体标注采用现有命名实体标注主要提取出人名、地名和组织名;所述词性标注则使用现有方法对单词进行名词、动词、形容词、副词等简单几类标注;所述词形还原使用现有方法将词语转化为原形,降低词语向量空间的维度;所述去停止词,通过将文本全转为小写,去掉停止词和全部符号,得到纯净的带标记的词语序列。进一步地,所述步骤S21包括:单条短文本词频数向量构建以及短文本类的词频数向量构建;单条短文本词频数向量构建:将预处理得到的词语根据对应的词性或命名实体转化为加权词频数向量;短文本类的词频数向量构建:当一条新短文本聚合入一类时,将该新文本的词频数向量和该类的词频数向量相加。进一步地,所述步骤S22计算式为:sim(t→,c→)=(t→·c→)t→∩c→||t→||·||c→||;]]>其中,表示单个文本的词频数向量,表示短文本类的词频数向量,表示单个文本与类的余弦相似度,表示与取交空间,表示与的内积;表示取与的2范数之积。进一步地,所述步骤S24包括:在聚类一定量的文本后检测现有的每一个类本文档来自技高网
...

【技术保护点】
一种社交媒体在线短文本聚类和话题检测方法,其特征在于,包括:S1、对社交媒体短文本进行预处理,得到纯净的带标记的词语序列;S2、对经步骤S1预处理后的社交媒体短文本进行在线聚类,包括以下分步骤:S21、短文本的可扩展词向量构建;S22、短文本与类的余弦相似度计算;S23、根据步骤S22计算新出的文本与类的余弦相似度,选出与新文本余弦相似度高于第一阈值的类,将与新文本余弦相似度最高的类称为最相似类,把与新文本余弦相似度高于阈值的除最相似类以外其他所有相似类称为候选相似类,分别计算每一个候选相似类和最相似类的词频数向量相加合并后与新文本词向量的余弦相似度,如果该余弦相似度和合并前的最相似类与新文本的余弦相似度相比减小量小于第三阈值,或该余弦相似度和合并前的最相似类与新文本的余弦相似度相比有增加,则把该候选相似类合并入最相似类;S24、检测和合并相似短文本类,根据两个类的相似度来检测识别出这些未充分合并的类;S3、热门话题的检测,根据类文本总数、类文本平均到达率、类文本当前平均到达率对话题的热度进行推测,对热门话题进行识别。

【技术特征摘要】
1.一种社交媒体在线短文本聚类和话题检测方法,其特征在于,包括:S1、对社交媒体短文本进行预处理,得到纯净的带标记的词语序列;S2、对经步骤S1预处理后的社交媒体短文本进行在线聚类,包括以下分步骤:S21、短文本的可扩展词向量构建;S22、短文本与类的余弦相似度计算;S23、根据步骤S22计算新出的文本与类的余弦相似度,选出与新文本余弦相似度高于第一阈值的类,将与新文本余弦相似度最高的类称为最相似类,把与新文本余弦相似度高于阈值的除最相似类以外其他所有相似类称为候选相似类,分别计算每一个候选相似类和最相似类的词频数向量相加合并后与新文本词向量的余弦相似度,如果该余弦相似度和合并前的最相似类与新文本的余弦相似度相比减小量小于第三阈值,或该余弦相似度和合并前的最相似类与新文本的余弦相似度相比有增加,则把该候选相似类合并入最相似类;S24、检测和合并相似短文本类,根据两个类的相似度来检测识别出这些未充分合并的类;S3、热门话题的检测,根据类文本总数、类文本平均到达率、类文本当前平均到达率对话题的热度进行推测,对热门话题进行识别。2.根据权利要求1所述的一种社交媒体在线短文本聚类和话题检测方法,其特征在于,所述步骤S1包括:文本标准化、文本分词、命名实体标注、词性标注、词形还原以及去停止词;所述文本标准化是将短文本转换成标准格式,包括过滤掉除英语字母和部分拉丁字母以外的字母,过滤掉除断句相关的所有符号;所述文本分词通过对标准化后的文本以空格为分割符分词,得到单词和部分符号的有序序列;所述命名实体标注采用现有命名实体标注主要提取出人名、地名和组织名;所述词性标注则使用现有方法对单词进行名词、动词、形容词、副词等简单几类标注;所述词形还原使用现有方法将词语转化为原形,降低词语向量空间的维度;所述去停止词,通过将文本全转为小写,去掉停止词和全部符号,得到纯净的带标记的词语序列。3.根据权利要求1所述的一种社交媒体在线短文本聚类和话题检测方法,其特征在于,所述步骤S21包括:单条短文本词频数向量构建以及短文本类的词频数向量构建;单条短文本词频数向量构建:将预处理得到的词语根据对应的词性或命名实体转化为加权词频数向量;短文本类的词频数向量构建:当一条新短文本聚合入一类时,将该新文本的词频数...

【专利技术属性】
技术研发人员:费高雷蒲昊雨胡光岷焦程波许舟军
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1