当前位置: 首页 > 专利查询>东北大学专利>正文

基于优质主题扩展的微博文本分类方法及系统技术方案

技术编号:20363262 阅读:41 留言:0更新日期:2019-02-16 16:42
本发明专利技术提供一种基于优质主题扩展的微博文本分类方法及系统。适用于微博等短文本分类中文本的特征扩展,能够实现微博有效分类。将训练集微博数据作为LDA模型的输入,得到主题概率分布与词概率分布;利用信息熵提取出的高表征性主题根据主题的相似度提取出优质主题;对测试集微博进行主题推断;选取优质主题特征词对微博文本进行特征扩展;对扩展后的微博文本使用支持向量机算法进行分类预测。本方法适用于解决利用主题模型扩展微博文本特征时主题词混杂所致文本特征扩展不精确问题。

【技术实现步骤摘要】
基于优质主题扩展的微博文本分类方法及系统
本专利技术涉及于文本分类
,具体而言,尤其涉及一种基于优质主题扩展的微博文本分类方法及系统。
技术介绍
作为新兴媒介之一,微博至今已有上亿的用户群,在中国社交网络平台中占据领先地位。微博操作简单、内容更新迅速,具有较高的研究价值。过去的几十年里,文本分类已经有较多研究,但对于微博这类短文本分类的效果始终不理想。针对微博文本篇幅短小、特征稀疏,再经分词和停用词处理,过滤掉一些词语,再次经过特征选择之后更是保留了极少的特征,这虽然降低了计算的复杂性,但使得分类的准确率明显下降所以为了更好地进行分类,需要对微博文本的进行扩展特征。LDA模型是由单词、主题和文档构成的三层贝叶斯概率模型。假设每篇文档由多个隐含主题构成,依据词汇间的共现关系挖掘潜在主题,将文本表示为主题的概率分布,将主题表示为一系列单词构成的概率分布。利用主题分布实现短文本的特征扩展是提升短文本分类的有效方式,但主题模型训练出的主题并非所有主题都能完整表述一个主题内容,存在主题混杂及主题不明确现象,直接进行短文本扩充可能引入其他不相符特征。
技术实现思路
根据上述提出的利用主题模型进行微博文本扩充存在的技术问题,而提供一种基于优质主题扩展的微博文本分类方法及系统。本专利技术该方法有效提取出优质的主题,用于微博特征扩展后有效解决了特征稀疏导致的分类效果较差的缺点。本专利技术采用的技术手段如下:一种基于优质主题扩展的微博文本分类方法,包括如下步骤:S1、对微博文本进行数据预处理并进行特征选择,通过预处理后的文本构建训练集与测试集;S2、将预处理后的训练集数据作为LDA模型的输入,得到训练集数据的主题的概率分布及主题词的概率分布;S3、将信息熵应用于主题词的概率分布计算出主题熵,同时计算相对熵和主题的平均相似度,从而计算主题优质系数,设定阈值筛选出优质主题;S4、分别对训练集与测试集进行主题划分,通过LDA模型主题分布划分出每个文本在优质主题中的概率最大值对于主题的主题词,将所述主题词作为扩展词分别添加至训练集与测试集的文本特征中;S5、利用向量空间模型对扩展后的文本进行文本表示,并用TF-IDF计算每个特征词的权重,将训练数据与测试数据文档转变为向量,选取有用特征,通过分类器SVM训练训练集,继而对测试集进行分类预测,产生分类结果。进一步地,所述对微博文本进行数据预处理并进行特征选择包括如下步骤:S11、对文本进行中文分词预处理,将完整的句子划分成词汇,从而得到文本语料特征集;S12、剔除分词后文本中的常见的连词、代词类停用词,利用中文停用词表进行预处理操作,若特征词存在停用词表则删除该特征词,再对标点符号进行剔除;S13、将预处理后文本根据所属类别划分构建词典,统计不同类别词的信息,对特征词出现总次数进行降序排列,选择每类排在前n的词作为该类的特征词,进行汇总后作为分类的总体特征。进一步地,所述步骤S2中,通过如下步骤得到训练集数据的主题的概率分布:S21、设置主题模型参数α,主题数目K,从参数为α的Dirichlet分布中抽取出微博的主题分布doc-topic矩阵θm,θm~Dir(α),m∈[1,M],θm表示文档m的主题概率分布其中nm,k表示第m篇微博的第k号主题词的个数。进一步地,所述步骤S2中,通过如下步骤得到训练集数据的主题词的概率分布:S22、设置主题模型参数β,主题数目K,从参数为β的Dirichlet分布中抽取出主题的词分布topic-word矩阵表示主题k的词的概率分布其中nk,v表示主题k下词v出现的次数。进一步地,所述步骤S3具体包括:S31、计算主题信息熵TE,具体为:TE(k)=-∑P(w|k)*lnP(w|k)其中,P(w|k)表示词w出现在主题k下的概率;S32、计算主题的相对熵,具体为:其中,P、Q表示待度量分布,当两个随机分布相同时,相对熵为零,当两个随机分布的差别增大时,相对熵也会增大;S33、计算主题的平均相似度,具体为:利用相对熵计算出主题的JS距离,用于度量主题间相似度,具体为:平均相似度是用来计算某一分布相对其他分布的独立性,主题的平均相似度计算方法具体为:其中j不等于K其中K表示主题总数;S34、筛选优质主题根据主题熵与平均相似度计算主题优质系数,计算方法具体为:若主题优质系数满足G(k)>μ,μ是阈值,则判定该主题属于优质主题,作为扩展备选,否则不是优质主题,进而得到优质主题集S。进一步地,所述步骤S4中,对训练集进行主题划分具体为:S41、对训练集训练出的主题模型得到的主题分布,选择每篇微博所在优质主题中概率最大值所属主题,将所属主题对应的主题词选择概率排名最高的λ个特征词w={w1,w2,…wλ}作为扩展词添加至训练集的文本特征中,若原文档中不存在扩展词则将词w并入到文档中。进一步地,所述步骤S4中,测试集进行主题推断并进行特征扩展具体为:S42、利用训练集训练出的主题模型对测试集进行主题推断,得到测试文本的文档-主题分布矩阵;对每篇测试文本选择在优质主题集S中概率最大值所属主题选择概率排名最高的λ个特征词w={w1,w2,…wλ}作为扩展词添加至测试集的文本特征中。进一步地,所述步骤S5具体为:S51、将步骤S41得到的扩展文本使用向量空间模型进行文本表示,将文档d看作向量空间中的n维向量,利用TF-IDF计算出特征的权重,向量v=(ε1,ε2,…,εn),εi表示第i个词的权重,权重的计算具体为:其中,tfij是指某个特征词在某篇文本中出现的频率,dfi表示语料中包含特征词的文本数,M是语料文本总数;S52、使用LIBSVM工具进行文本分类,文档转换的数据格式为label1:value2:value…,其中,label为类别标识,1、2为特征值即tf-idf计算权值;S53、记录训练集类别标签Y={y1,y2,…,yn},对训练集训练模型后对测试集进行分类预测。本专利技术还提供了一种基于优质主题扩展的微博文本分类系统,包括:文本采集单元,用于对自行采集的微博文本数据进行采集,构建训练集与测试集;文本数据预处理单元,用于对原始文本样本进行预处理并进行特征选择,其包括:中文分词模块,用于将完整的句子划分成词汇,并剔除文本中的停用词,中文停用词表模块,用于删除文本中出现的停用词表中的特征词,并剔除标点符号,词典构建模块,用于对文本中特征词进行排序,并对特征词进行汇总;LDA模型训练单元,用于通过训练集数据得出文档主题分布及主题词分布情况,其包括:数据处理模块,用于通过主题词分布数据计算优质系数,通过设定阈值划分出优质主题;所述LDA模型训练单元还用于将优质特征词作为训练集的文本扩展和测试集的文本扩展;文本分类单元,用于通过LIBSVM工具对文本扩展后的训练集进行文本分类,同时对测试集的待测数据进行分类,产生分类结果。较现有技术相比,本专利技术具有以下优点:本方法通过基于优质主题扩展的微博文本分类方法,有效提取出优质的主题,用于微博特征扩展后有效解决了特征稀疏导致的分类效果较差的缺点,与现有技术相比,准确率更高,更加适用于微博等短文本分类中文本的特征扩展,能够实现微博有效分类。有效地解决了解决利用主题模型扩展微博文本特征时主题词混杂所致文本特征本文档来自技高网...

【技术保护点】
1.一种基于优质主题扩展的微博文本分类方法,其特征在于,包括如下步骤:S1、对微博文本进行数据预处理并进行特征选择,通过预处理后的文本构建训练集与测试集;S2、将预处理后的训练集数据作为LDA模型的输入,得到训练集数据的主题的概率分布及主题词的概率分布;S3、将信息熵应用于主题词的概率分布计算出主题熵,同时计算相对熵和主题的平均相似度,从而计算主题优质系数,设定阈值筛选出优质主题;S4、分别对训练集与测试集进行主题划分,通过LDA模型主题分布划分出每个文本在优质主题中的概率最大值对应主题的主题词,将所述主题词作为扩展词分别添加至训练集与测试集的文本特征中;S5、利用向量空间模型对扩展后的文本进行文本表示,并用TF‑IDF计算每个特征词的权重,将训练数据与测试数据文档转变为向量,选取有用特征,通过分类器SVM训练训练集,继而对测试集进行分类预测,产生分类结果。

【技术特征摘要】
1.一种基于优质主题扩展的微博文本分类方法,其特征在于,包括如下步骤:S1、对微博文本进行数据预处理并进行特征选择,通过预处理后的文本构建训练集与测试集;S2、将预处理后的训练集数据作为LDA模型的输入,得到训练集数据的主题的概率分布及主题词的概率分布;S3、将信息熵应用于主题词的概率分布计算出主题熵,同时计算相对熵和主题的平均相似度,从而计算主题优质系数,设定阈值筛选出优质主题;S4、分别对训练集与测试集进行主题划分,通过LDA模型主题分布划分出每个文本在优质主题中的概率最大值对应主题的主题词,将所述主题词作为扩展词分别添加至训练集与测试集的文本特征中;S5、利用向量空间模型对扩展后的文本进行文本表示,并用TF-IDF计算每个特征词的权重,将训练数据与测试数据文档转变为向量,选取有用特征,通过分类器SVM训练训练集,继而对测试集进行分类预测,产生分类结果。2.根据权利要求1所述的基于优质主题扩展的微博文本分类方法,其特征在于,所述对微博文本进行数据预处理并进行特征选择包括如下步骤:S11、对文本进行中文分词预处理,将完整的句子划分成词汇,从而得到文本语料特征集;S12、剔除分词后文本中的常见的连词、代词类停用词,利用中文停用词表进行预处理操作,若特征词存在停用词表则删除该特征词,再对标点符号进行剔除;S13、将预处理后文本根据所属类别划分构建词典,统计不同类别词的信息,对特征词出现总次数进行降序排列,选择每类排在前n的词作为该类的特征词,进行汇总后作为分类的总体特征。3.根据权利要求1所述的基于优质主题扩展的微博文本分类方法,其特征在于,所述步骤S2中,通过如下步骤得到训练集数据的主题的概率分布:S21、设置主题模型参数α,主题数目K,从参数为α的Dirichlet分布中抽取出微博的主题分布doc-topic矩阵θm,θm~Dir(α),m∈[1,M],θm表示文档m的主题概率分布其中nm,k表示第m篇微博的第k号主题词的个数;通过如下步骤得到训练集数据的主题词的概率分布:S22、设置主题模型参数β,主题数目K,从参数为β的Dirichlet分布中抽取出主题的词分布topic-word矩阵表示主题k的词的概率分布其中nk,v表示主题k下词v出现的次数。4.根据权利要求1所述的基于优质主题扩展的微博文本分类方法,其特征在于,所述步骤S3具体包括:S31、计算主题信息熵TE,具体为:TE(k)=-∑P(w|k)*lnP(w|k)其中,P(w|k)表示词w出现在主题k下的概率;S32、计算主题的相对熵,具体为:其中,P、Q表示待度量分布,当两个随机分布相同时,相对熵为零,当两个随机分布的差别增大时,相对熵也会增大;S33、计算主题的平均相似度,具体为:利用相对熵计算出主题的JS距离,用于度量主题间相似度,具体为:平均相似度是用来计算某一分布相对其他分布的独立性,主题的平均相似度计算方法具体为:其中j不等于K其中K表示主题总数;S34、筛选优质主题根据主题熵与平均相似度计算主题优质系数,计算方法具体为:若主题优质系数满足G(k)&...

【专利技术属性】
技术研发人员:张曦元孙福权
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1