一种社交媒体在线短文本聚类和话题检测方法技术

技术编号：14589524 阅读：115 留言：0更新日期：2017-02-08 18:18

本发明专利技术公开一种社交媒体在线短文本聚类和话题检测方法，通过文本预处理、文本在线聚类、相似类的检测合并和热门话题的识别，一定程度克服现有在线短文本聚类方法因词向量空间高维稀疏而导致类聚和不充分的问题，实现了在线大规模短文本的有效聚类。本发明专利技术提出的可扩展词向量空间解决了高维稀疏词向量的存储和降低了计算复杂度；本发明专利技术采用的利用词语索引加速了聚类方法；改进的“相似胜者合并后全得”的聚类方式和“熵不增加”的相似类合并准则缓解了因短文本特征高维稀疏带来的相同话题类合并不充分问题；本发明专利技术采用的热门话题检测识别的方法能对有价值和无价值的话题能做一个比较简单但有效的分类，挖掘跟踪有价值的话题。

Short text clustering and topic detection method for Social Media Online

The invention discloses a social media online short text clustering and topic detection method, through recognition preprocessing, text clustering, similarity class online detection and combined hot topic of the text, to a certain extent overcome the existing online short text clustering method for word vector space of High Dimensional Sparse Clustering and caused the problem of insufficient, effectively online massive short text clustering. The invention provides a scalable word vector space to solve the high-dimensional sparse vector storage and reduces the computational complexity; the invention adopts the use of word index accelerated clustering method; clustering method improved \after the merger of similar winner all\ and \similar class merging criteria of entropy increase\ easing the problem with the same topic class due to short text features of high dimension sparse is not sufficient; hot topic detection and recognition method adopted by the invention can have on the value and value of the topic can do a relatively simple but effective classification, mining the value of the topic tracking.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据挖掘领域，特别涉及一种社交媒体数据挖掘技术。
技术介绍
社交媒体的话题检测兴起于最近十年内，由于国外类似推特、Facebook等，国内类似微博的社交平台的爆发性发展，让社交媒体成为了巨大的实时信息交流平台和商业市场，对社交媒体数据进行挖掘具有很高的价值。这类社交媒体产品改变了传统长文博客的社交方式，对文本字数进行限制，使得信息传播更加快速、高效。但是最近，推特、微博等社交网络又开始放宽文本字数限制，不过在快节奏的现代生活中，用户还是习惯于短文本的交流方式，因此在这些社交平台上的信息依然以短文本为主流。文本聚类是对文本信息进行挖掘的重要手段，对简化文本数据、加速文本检索、文本信息和语意分析等方面具有重要意义。由于目前社交网络中短文本信息大量存在，对短文本进行聚类分析是社交媒体数据挖掘的重点。社交媒体短文本具有信息不完整(字数限制导致文本的省略)、表达不规范(口语化、词语的谐音、不规范缩写、流行语、符号表情)、可用特征少(文本短)等特点，使得社交媒体短文本聚类比传统长文本聚类困难很多。现有文本聚类方法主要基于传统的聚类方法，和传统聚类方法一样，可分为层次法、划分法、基于密度的方法、基于网格的方法和基于模型的方法，这些方法同样也能应用于短文本聚类上。层次聚类算法根据其聚类方向分为凝聚式层次聚类与分裂式层次聚类。凝聚式层次聚类起初把每一个数据对象作为一个簇，计算簇之间的两两相似度，选择相似度最高的两个簇进行合并，并重新计算新合成的簇与其他簇之间的相似度，迭代直到聚为一类或者最大的相似度小于设定的阈值；分裂式层次聚类算法正好是凝聚式算法的逆过程，...

【技术保护点】
一种社交媒体在线短文本聚类和话题检测方法，其特征在于，包括：S1、对社交媒体短文本进行预处理，得到纯净的带标记的词语序列；S2、对经步骤S1预处理后的社交媒体短文本进行在线聚类，包括以下分步骤：S21、短文本的可扩展词向量构建；S22、短文本与类的余弦相似度计算；S23、根据步骤S22计算新出的文本与类的余弦相似度，选出与新文本余弦相似度高于第一阈值的类，将与新文本余弦相似度最高的类称为最相似类，把与新文本余弦相似度高于阈值的除最相似类以外其他所有相似类称为候选相似类，分别计算每一个候选相似类和最相似类的词频数向量相加合并后与新文本词向量的余弦相似度，如果该余弦相似度和合并前的最相似类与新文本的余弦相似度相比减小量小于第三阈值，或该余弦相似度和合并前的最相似类与新文本的余弦相似度相比有增加，则把该候选相似类合并入最相似类；S24、检测和合并相似短文本类，根据两个类的相似度来检测识别出这些未充分合并的类；S3、热门话题的检测，根据类文本总数、类文本平均到达率、类文本当前平均到达率对话题的热度进行推测，对热门话题进行识别。

【技术特征摘要】
1.一种社交媒体在线短文本聚类和话题检测方法，其特征在于，包括：S1、对社交媒体短文本进行预处理，得到纯净的带标记的词语序列；S2、对经步骤S1预处理后的社交媒体短文本进行在线聚类，包括以下分步骤：S21、短文本的可扩展词向量构建；S22、短文本与类的余弦相似度计算；S23、根据步骤S22计算新出的文本与类的余弦相似度，选出与新文本余弦相似度高于第一阈值的类，将与新文本余弦相似度最高的类称为最相似类，把与新文本余弦相似度高于阈值的除最相似类以外其他所有相似类称为候选相似类，分别计算每一个候选相似类和最相似类的词频数向量相加合并后与新文本词向量的余弦相似度，如果该余弦相似度和合并前的最相似类与新文本的余弦相似度相比减小量小于第三阈值，或该余弦相似度和合并前的最相似类与新文本的余弦相似度相比有增加，则把该候选相似类合并入最相似类；S24、检测和合并相似短文本类，根据两个类的相似度来检测识别出这些未充分合并的类；S3、热门话题的检测，根据类文本总数、类文本平均到达率、类文本当前平均到达率对话题的热度进行推测，对热门话题进行识别。2.根据权利要求1所述的一种社交媒体在线短文本聚类和话题检测方法，其特征在于，所述步骤S1包括：文本标准化、文本分词、命名实体标注、词性标注、词形还原以及去停止词；所述文本标准化是将短文本转换成标准格式，包括过滤掉除英语字母和部分拉丁字母以外的字母，过滤掉除断句相关的所有符号；所述文本分词通过对标准化后的文本以空格为分割符分词，得到单词和部分符号的有序序列；所述命名实体标注采用现有命名实体标注主要提取出人名、地名和组织名；所述词性标注则使用现有方法对单词进行名词、动词、形容词、副词等简单几类标注；所述词形还原使用现有方法将词语转化为原形，降低词语向量空间的维度；所述去停止词，通过将文本全转为小写，去掉停止词和全部符号，得到纯净的带标记的词语序列。3.根据权利要求1所述的一种社交媒体在线短文本聚类和话题检测方法，其特征在于，所述步骤S21包括：单条短文本词频数向量构建以及短文本类的词频数向量构建；单条短文本词频数向量构建：将预处理得到的词语根据对应的词性或命名实体转化为加权词频数向量；短文本类的词频数向量构建：当一条新短文本聚合入一类时，将该新文本的词频数...

【专利技术属性】
技术研发人员：费高雷，蒲昊雨，胡光岷，焦程波，许舟军，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人