基于词汇链特征扩展和LDA模型的微博短文本分类方法技术

技术编号:19634999 阅读:41 留言:0更新日期:2018-12-01 15:44
基于词汇链特征扩展和LDA模型的微博分类方法,针对微博文本长度短、内容少、特征稀疏等问题,提出了词汇链特征扩展方法。在《同义词词林》的基础上生成基础词汇链,再利用基础词汇链去扩展微博文本。词汇链不仅能够涵盖到被《同义词词林》收录的词汇,而且还能涵盖到未被《同义词词林》收录的其他词汇,并且在扩展微博文本的同时还能不断丰富词汇链。针对向量空间模型在微博文本分类中高维数、语义特征不明显的问题,使用LDA主题模型的主题概率分布来表示微博文本,有效地降低了相似度计算的维度,并且融合了一定的语义特征。本方法综合了词汇链特征扩展和LDA模型的各自的优势,提出了微博分类方法。实验结果表明,这个方法有效地提高了微博文本的分类性能。

Microblog Short Text Classification Method Based on Lexical Chain Feature Extension and LDA Model

Based on the lexical chain feature expansion and LDA model of micro-blog classification, a lexical chain feature expansion method is proposed to solve the problems of short text length, less content and sparse features of micro-blog. On the basis of Synonym Words Forest, the basic vocabulary chain is generated, and then the basic vocabulary chain is used to expand the micro-blog text. The vocabulary chain can cover not only the words included in Synonyms, but also other words not included in Synonyms, and it can enrich the vocabulary chain while expanding the text of Weibo. In order to solve the problem of high dimension and unclear semantic features of vector space model in micro-blog text categorization, the topic probability distribution of LDA topic model is used to represent micro-blog text, which effectively reduces the dimension of similarity calculation and integrates certain semantic features. This method combines the advantages of lexical chain feature expansion and LDA model, and proposes a microblog classification method. The experimental results show that this method effectively improves the classification performance of micro-blog text.

【技术实现步骤摘要】
基于词汇链特征扩展和LDA模型的微博短文本分类方法
本专利技术涉及一种微博文本的分类方法。
技术介绍
随着微博的普及和发展,它在促进人们交流和沟通的同时也带来了巨大的挑战。日常广泛使用的微博使得信息出现了爆炸式的增长,微博文本的主要特点有:文本篇幅短、内容少、特征稀疏等。由于这些特点,从海量的微博中筛选出用户感兴趣的部分,并将其加以分类,就成为一个研究热点和难点。微博文本的分类方法主要有两类:一类是基于大规模语料库的方法。这类方法针对微博文本特征稀疏等问题,利用知识库进行概念语义扩展,常用的知识库有WordNet、Wikipedia和《同义词词林》等。采用这种方法可以挖掘文本内部词语之间的潜在关系,扩展微博文本的特征信息,但是对未收录在知识库中的词语就没有作用,使用范围有限。另一类是基于搜索引擎的方法,即使用搜索引擎搜索文本关键词并利用所得内容去扩展微博文本。这种方法能够在一定程度解决微博短文本特征稀疏的问题,但是引入特征的同时不可避免的会引入噪声数据,同时这种借助搜索引擎的文本扩展方法也非常耗时。近几年来,采用主题模型进行文本分类的方法成为研究热点,其中隐含狄里克雷分配(LDA:L本文档来自技高网...

【技术保护点】
1.基于词汇链特征扩展和LDA模型的微博分类方法,包括如下步骤:1)获取包含多个不同微博类别的微博文本数据;2)对获取的微博文本进行预处理,包括文本清理、中文分词和去停用词等;首先采用正则表达式来去除微博中的空文本、表情符号、账户名称、网络链接和图片的无关的噪声数据,然后利用分词工具对微博文本进行中文分词和词性标注,并去除那些没有意义且频繁出现的词语;3)输出微博语料库;4)将微博语料库分为训练集和测试集;5)针对训练集,进行基础词汇链的生成;6)开始循环,依次处理训练集中的各个微博类别;7)计算和统计某个微博类别下所有微博词语的出现频率;8)对于该微博类别的微博词语,如果某个词语未被《同义词...

【技术特征摘要】
1.基于词汇链特征扩展和LDA模型的微博分类方法,包括如下步骤:1)获取包含多个不同微博类别的微博文本数据;2)对获取的微博文本进行预处理,包括文本清理、中文分词和去停用词等;首先采用正则表达式来去除微博中的空文本、表情符号、账户名称、网络链接和图片的无关的噪声数据,然后利用分词工具对微博文本进行中文分词和词性标注,并去除那些没有意义且频繁出现的词语;3)输出微博语料库;4)将微博语料库分为训练集和测试集;5)针对训练集,进行基础词汇链的生成;6)开始循环,依次处理训练集中的各个微博类别;7)计算和统计某个微博类别下所有微博词语的出现频率;8)对于该微博类别的微博词语,如果某个词语未被《同义词词林》收录且出现频率大于或等于指定阈值ε,则把该词语归为词汇链L0;如果某个词语未被《同义词词林》收录且出现频率小于阈值ε,则该词语不归入任何词汇链,保留其出现频率,用于下次累计;9)建立该微博类别的候选词汇集,把该微博类别下所有被《同义词词林》收录的词语w1,w2,…,wn划入候选词汇集;10)开始循环,依次处理该微博类别的候选词汇集的词语wi(i=1,2,…,n);11)如果该微博类别除L0外没有其它词汇链,则生成初始词汇链L1,并把词语w1加入词汇链L1,并返回第10步,继续处理下一个词语;否则,继续下一步;12)分别计算词wi与m条词汇链Lj(j=1,…,m)的语义相似度S(wi,Lj),计算公式为:其中,nj为词汇链Lj包含的词语个数,wjk为词汇链Lj的第k个词语,Sim(wi,wjk)为两个词语的语义相似度,采用了基于《同义词词林》的相似度计算方法;13)计算可以得知在所有词汇链Lj(j=1,…,m)中,词语wi与词汇链Lr(1≤r≤m)的相似度S(wi,Lr)最大;14)比较S(wi,Lr)和预设的相似度阈值σ,如果S(wi,Lr)≥σ,就把词语wi加入到对应的词汇链Lr中;如果S(wi,Lr)<σ,就生成一个新词汇链,并把词语wi加入到新生成的词汇链中;15)判断候选词汇集中的词是否处理完毕,如果没有,则返回第10步,继续处理下一个词语;否则,继续下一步;16)判断训练集中的所有微博类别是否处理完毕,如果没有,则返回第6步;否则,继续下一步;17)汇总训练集中所有微博类别的词汇链,形成基础词汇链,用于扩展微博文本,基础词汇链生成完毕;18...

【专利技术属性】
技术研发人员:刘端阳刘坤沈国江刘志朱李楠杨曦阮中远
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1