【技术实现步骤摘要】
基于优质主题扩展的微博文本分类方法及系统
本专利技术涉及于文本分类
,具体而言,尤其涉及一种基于优质主题扩展的微博文本分类方法及系统。
技术介绍
作为新兴媒介之一,微博至今已有上亿的用户群,在中国社交网络平台中占据领先地位。微博操作简单、内容更新迅速,具有较高的研究价值。过去的几十年里,文本分类已经有较多研究,但对于微博这类短文本分类的效果始终不理想。针对微博文本篇幅短小、特征稀疏,再经分词和停用词处理,过滤掉一些词语,再次经过特征选择之后更是保留了极少的特征,这虽然降低了计算的复杂性,但使得分类的准确率明显下降所以为了更好地进行分类,需要对微博文本的进行扩展特征。LDA模型是由单词、主题和文档构成的三层贝叶斯概率模型。假设每篇文档由多个隐含主题构成,依据词汇间的共现关系挖掘潜在主题,将文本表示为主题的概率分布,将主题表示为一系列单词构成的概率分布。利用主题分布实现短文本的特征扩展是提升短文本分类的有效方式,但主题模型训练出的主题并非所有主题都能完整表述一个主题内容,存在主题混杂及主题不明确现象,直接进行短文本扩充可能引入其他不相符特征。
技术实现思路
根据上述提出的利用主题模型进行微博文本扩充存在的技术问题,而提供一种基于优质主题扩展的微博文本分类方法及系统。本专利技术该方法有效提取出优质的主题,用于微博特征扩展后有效解决了特征稀疏导致的分类效果较差的缺点。本专利技术采用的技术手段如下:一种基于优质主题扩展的微博文本分类方法,包括如下步骤:S1、对微博文本进行数据预处理并进行特征选择,通过预处理后的文本构建训练集与测试集;S2、将预处理后的训练集数据作 ...
【技术保护点】
1.一种基于优质主题扩展的微博文本分类方法,其特征在于,包括如下步骤:S1、对微博文本进行数据预处理并进行特征选择,通过预处理后的文本构建训练集与测试集;S2、将预处理后的训练集数据作为LDA模型的输入,得到训练集数据的主题的概率分布及主题词的概率分布;S3、将信息熵应用于主题词的概率分布计算出主题熵,同时计算相对熵和主题的平均相似度,从而计算主题优质系数,设定阈值筛选出优质主题;S4、分别对训练集与测试集进行主题划分,通过LDA模型主题分布划分出每个文本在优质主题中的概率最大值对应主题的主题词,将所述主题词作为扩展词分别添加至训练集与测试集的文本特征中;S5、利用向量空间模型对扩展后的文本进行文本表示,并用TF‑IDF计算每个特征词的权重,将训练数据与测试数据文档转变为向量,选取有用特征,通过分类器SVM训练训练集,继而对测试集进行分类预测,产生分类结果。
【技术特征摘要】
1.一种基于优质主题扩展的微博文本分类方法,其特征在于,包括如下步骤:S1、对微博文本进行数据预处理并进行特征选择,通过预处理后的文本构建训练集与测试集;S2、将预处理后的训练集数据作为LDA模型的输入,得到训练集数据的主题的概率分布及主题词的概率分布;S3、将信息熵应用于主题词的概率分布计算出主题熵,同时计算相对熵和主题的平均相似度,从而计算主题优质系数,设定阈值筛选出优质主题;S4、分别对训练集与测试集进行主题划分,通过LDA模型主题分布划分出每个文本在优质主题中的概率最大值对应主题的主题词,将所述主题词作为扩展词分别添加至训练集与测试集的文本特征中;S5、利用向量空间模型对扩展后的文本进行文本表示,并用TF-IDF计算每个特征词的权重,将训练数据与测试数据文档转变为向量,选取有用特征,通过分类器SVM训练训练集,继而对测试集进行分类预测,产生分类结果。2.根据权利要求1所述的基于优质主题扩展的微博文本分类方法,其特征在于,所述对微博文本进行数据预处理并进行特征选择包括如下步骤:S11、对文本进行中文分词预处理,将完整的句子划分成词汇,从而得到文本语料特征集;S12、剔除分词后文本中的常见的连词、代词类停用词,利用中文停用词表进行预处理操作,若特征词存在停用词表则删除该特征词,再对标点符号进行剔除;S13、将预处理后文本根据所属类别划分构建词典,统计不同类别词的信息,对特征词出现总次数进行降序排列,选择每类排在前n的词作为该类的特征词,进行汇总后作为分类的总体特征。3.根据权利要求1所述的基于优质主题扩展的微博文本分类方法,其特征在于,所述步骤S2中,通过如下步骤得到训练集数据的主题的概率分布:S21、设置主题模型参数α,主题数目K,从参数为α的Dirichlet分布中抽取出微博的主题分布doc-topic矩阵θm,θm~Dir(α),m∈[1,M],θm表示文档m的主题概率分布其中nm,k表示第m篇微博的第k号主题词的个数;通过如下步骤得到训练集数据的主题词的概率分布:S22、设置主题模型参数β,主题数目K,从参数为β的Dirichlet分布中抽取出主题的词分布topic-word矩阵表示主题k的词的概率分布其中nk,v表示主题k下词v出现的次数。4.根据权利要求1所述的基于优质主题扩展的微博文本分类方法,其特征在于,所述步骤S3具体包括:S31、计算主题信息熵TE,具体为:TE(k)=-∑P(w|k)*lnP(w|k)其中,P(w|k)表示词w出现在主题k下的概率;S32、计算主题的相对熵,具体为:其中,P、Q表示待度量分布,当两个随机分布相同时,相对熵为零,当两个随机分布的差别增大时,相对熵也会增大;S33、计算主题的平均相似度,具体为:利用相对熵计算出主题的JS距离,用于度量主题间相似度,具体为:平均相似度是用来计算某一分布相对其他分布的独立性,主题的平均相似度计算方法具体为:其中j不等于K其中K表示主题总数;S34、筛选优质主题根据主题熵与平均相似度计算主题优质系数,计算方法具体为:若主题优质系数满足G(k)&...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。