The invention discloses a method of short text filtering and classification based on category related words. The theme of the traditional theme model is divided into \category theme\ and \common theme\ based on function, and pseudo text set is constructed, and SSCF is trained by pseudo text set as the training set of the model. After the end of the training, the word distribution of the two categories of subjects is calculated. According to the distribution of each word in the short text, the correlation theme of the short text is calculated, and then whether the short text is an unrelated text or not, if it is concerned, the category of the text belongs to it. Using \category theme\ and \common theme\, the invention can extract text related to specified categories from short text well and complete the classification at the same time. Because this method is an unsupervised method, it does not need manual data tagging, so the invention can be widely applied to various short text data, which has extensive practical significance and commercial value.
【技术实现步骤摘要】
一种基于类别相关单词的短文本过滤与分类方法
本专利技术属于计算机
,涉及一种文本挖掘、文本分类、主题建模的方法,具体涉及一种借助人工选词和构建伪文本来估计语料中的词与类别间的关系,进而实现短文本的分类与过滤的主题建模方法。
技术介绍
随着互联网的兴起,我们逐步进入大数据时代。与此同时,短文本已经成为互联网上一种越来越流行的文本数据。而短文本指的是长度较短,通常不超过140个字符的文本,且表述内容丰富,组合比较灵活。常见的有网页页面摘要、新闻标题、文本广告、微博、Twitter、朋友圈更新等等。数量庞大的短文本中蕴含着庞杂的信息,建立一种高效的主题模型并从大量的短文本数据集快速准确得过滤掉包含无关信息的文本,同时对包含相关信息的文本实现准确分类是极具现实意义的。传统的主题模型,旨在构建一个更为完全概率生成模型的主题模型方法,使得不同长度的文本可以以相同的维度向量进行表示。例如2003年,Bei.在JournalofMachineLearningResearch发表的一篇名为“LatentDirichletAllocation”,常用于传统文本的分析。要想更进一 ...
【技术保护点】
1.一种基于类别相关单词的短文本过滤与分类方法,模型名称为SSCF,其特征在于,包括以下步骤:步骤1:根据上下文,为短文本数据集中出现过的每一个单词构建伪文本;步骤2:利用伪文本集训练标准主题模型LDA,确定出各个伪文本的主题分布和单词在主题下的分布,为后续SSCF主题模型的构建提供先验信息;步骤3:根据步骤2得到的单词在主题下的分布,为每个类别选出若干相关词,记为“种子词”;步骤4:利用步骤2中确定出的结果和步骤3中选出的种子词,计算每个词与每个类别之间的关联度;步骤5:每篇短文本中的每个词被认为是由“类别主题”或是“普通主题”所生成,根据步骤4得到的词与类别之间的相似度 ...
【技术特征摘要】
1.一种基于类别相关单词的短文本过滤与分类方法,模型名称为SSCF,其特征在于,包括以下步骤:步骤1:根据上下文,为短文本数据集中出现过的每一个单词构建伪文本;步骤2:利用伪文本集训练标准主题模型LDA,确定出各个伪文本的主题分布和单词在主题下的分布,为后续SSCF主题模型的构建提供先验信息;步骤3:根据步骤2得到的单词在主题下的分布,为每个类别选出若干相关词,记为“种子词”;步骤4:利用步骤2中确定出的结果和步骤3中选出的种子词,计算每个词与每个类别之间的关联度;步骤5:每篇短文本中的每个词被认为是由“类别主题”或是“普通主题”所生成,根据步骤4得到的词与类别之间的相似度构建SSCF主题模型,经过训练得到单词关于主题的分布;步骤6:根据步骤5的单词主题分布确定该文本的分类结果。2.根据权利要求1所述的基于类别相关单词的短文本过滤与分类方法,其特征在于,步骤1的具体实现包括以下子步骤:步骤1.1:对于短文本数据集词汇表中的每一个词w一次执行步骤1.2到1.4;步骤1.2:对于短文本数据集中的每一篇文档d依次执行步骤1.3;步骤1.3:用滑动窗口扫描短文本,同时窗口每滑动一次就记录所有与词w出现在同一窗口中的词;步骤1.4:用步骤1.3记录的词组成属于词w的伪文本dw。3.根据权利要求1所述的基于类别相关单词的短文本过滤与分类方法,其特征在于,步骤2的具体实现包括以下子步骤:步骤2.1:给定标准主题模型LDA的超参数α和β,其中α是文档到主题的狄利克雷分布的先验参数,β是主题到单词的狄利克雷分布的先验参数,主题数目T,模型训练迭代次数Iter;步骤2.2:遍历伪文本数据集中每一篇文档d,随机为d中的每一个词赋予一个主题k,关联到主题k下的单词数量,记为nk,各个主题k下各个单词w与主题k所关联的数量,记为在伪文本d中关联到主题k下的单词数量记为步骤2.3:对于短文本数据集中的每一篇文档d依次执行步骤2.4至步骤2.6;步骤2.4:对于文档d的每一个单词w,以及上一轮迭代中文档d赋予的主题k,首先从计数器中和减去当前词带来的影响,即分别从计数器中减去1;步骤2.5:对词w采样出一个新主题knew;步骤2.6:得到knew后,依次更新相关计数器和即分别在计数器中加上1;步骤2.7:循环执行步骤2.3至步骤2.6,直到运行完预设迭代次数Iter后,计算出该短文本数据集下的主题单词分布pLDA(w|k),伪文本主题分布pLDA(k│dw),其中,pLDA(w|k)表示单词在主题下的分布,pLDA(k│dw)表示主题在伪文本下的分布。4.根据权利要求3所述的基于类别相关单词的短文本过滤与分类方法,其特征在于,步骤2.5中采样公式为:其中,表示减去当前词的影响,V表示文本集词汇表,K表示主题数。5.根据权利要求4所述的基于类别相关单词的短文本过滤与分类方法,其特征在于,步骤2.7中:6.根据权利要求5所述的基于类别相关单词的短文本过滤与分类方法,其特征在于,步骤3的具体实现过程是:对每个主题z,取单词w在主题z下分布pLDA(w|k)中最大的前30个词,人工判断这些词与每个类别的语义关联,若单词w与在经验上看来与类别c相关,则取词w为类别c的种子词。7.根据权利要求5所述的基于类别相关单词的短文本过滤与分类方法,其特征在于,步骤4中所述每个词与每个类别之间的关联度πw,c为:其中,s表示种子词,|Sc|表示属于类别c的种子词数量,ds表示种子词s对应的伪文本,σ,υ为可调参数,K表示步骤2中标准主题模型LD...
【专利技术属性】
技术研发人员:李晨亮,张芷芊,陈诗倩,
申请(专利权)人:武汉大学,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。