短文本聚类设备及方法技术

技术编号:8105710 阅读:236 留言:0更新日期:2012-12-21 04:26
本发明专利技术提供了一种短文本聚类设备,包括:主题分析单元,对辅助文本集合与短文本集合中的每一个文本执行主题分析,以获得短文本集合中的每个短文本对应于辅助文本集合的主题和短文本集合的主题的可能性;向量生成单元,将每个短文本对应于辅助文本集合的主题和短文本集合的主题的可能性进行归一化,以生成向量;以及聚类单元,基于生成的向量对短文本集合中的短文本进行聚类。本发明专利技术还提供了一种短文本聚类方法。本发明专利技术实现了辅助文本主题和短文本主题的各自发现,从而能够更准确地对短文本进行聚类。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域,具体涉及一种。
技术介绍
随着手机短信、微博、搜索引擎、在线广告等的广泛应用,短文本被人们使用的越来越频繁,这些文本通常较短,例如一条手机短信不能超过70个字,搜索引擎返回的结果一般也只有几十个字。短文本与长文本(例如新闻)有较大的区别。例如,在长文本环境下,一个主题可以被充分地描述,因而人们可以从这个长文本中了解到主题的几乎所有内容。与此不同,由于短文本的字数受到限制,所以通常只对主题的核心内容进行描述,很多相关信息被省略。 传统的文本挖掘的方法通常是针对长文本的,而应用在短文本上会遇到困难,例如聚类。由于实现聚类常常要使用文字的并发信息(同时出现),而短文本中文字的并发信息比长文本少很多,因此聚类效果会受到影响。例如下面两段新闻文本LI和L2 LI 清华大学第四教学楼被更名为“真维斯楼”,校园内和互联网上一片奚落之声。反对意见主要是清华的教学楼和真维斯的服装品牌形象太不搭。从高校楼房冠名的正当程序这一角度看,清华大学显然有可挑剔之处。抛开这一点不谈,单就清华学子所关注的实质问题一教学楼冠名的所谓品牌形象角度而言,“真维斯楼”是否过于折损清华的形象? ”L2 近日,清华大学一教学楼取名为“真维斯”,在网络上引起了轩然大波。真维斯不是一服装品牌吗?清华大学的教学楼怎么也叫“真维斯”? 23日中午,清华大学第四教学楼外墙挂上“真维斯楼”的牌匾。几个字的右下方,还悬挂有另一牌匾,专用来介绍真维斯这一服装品牌。教学楼以企业品牌冠名,引发清华大学学生和网友的争议。有人认为高校过分的商业化,不应该用企业来冠名。而新浪博友@Young_pig认为,企业给学校提供了赞助,冠个名不影响学校形象。”LI和L2因为都有“清华大学,第四教学楼,真维斯,服装,高校,冠名,形象”等词,所以容易判断出它们很相似,可以聚为一类。而以下两个短文本SI和S2就不那么容易聚为一类了,因为它们共有的重要文字只有“清华大学”(“也,了”这种词因为使用非常普遍,所以不太重要,常常在聚类之前去掉)SI 听说了吗,真维斯楼,和清华大学的形象也太不搭了”S2 不就是一服装品牌吗,清华大学冠名过于商业化了”为了提高短文本聚类的正确性,现有技术中已经提出采用辅助信息来帮助进行聚类。例如,如果要聚类上述SI和S2这样的短文本,就引入LI和L2这样的长文本作为辅助信息,因为SI和LI比较相似(共享“真维斯,清华大学,形象,不搭”等词),而S2和L2比较相似(共享“服装,清华大学,冠名,商业化”等词)。而且,由于LI和L2比较相似,因此SI和S2也就相似了,可以聚为一类。参考文献1(XH Phan, LM Nguyen, S Horiguchi./‘Learning to classifty shortand sparse text & web with hidden topics from large-scale data collections,,,WWW2008)描述了一种根据辅助本文进行聚类的方法。如图I所示,该方法包括以下步骤在步骤S100,对辅助文本集合执行主题分析,得到一些主题和对应的词汇。具体地,参考文献I中采用从维基百科(Wikipedia)下载的文本作为辅助信息,形成辅助文本集合。主题分析使用潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)方法。图2示出了 LDA的模型。LDA是一种生成模型,其主要思想是模拟文本的生成过程对每一个词,先从分布中选一个主题,再从主题中选一个词。参考图2,LDA的算法流程包括I对每一个主题k G ,从Dir (0 )分布中做一个采样,得到一个主题下的词的分布f。2 对每一个文本 m G ,2. I从Dir ( a )分布做一个采样,得到一个主题分布€。2. 2对每一个词n,2. 2. I从多项式分布Mult( 中做一个采样,得到一个主题Z111,n。2. 2. 2从多项式分布Mult(灼)中做一个米样,得到一个词wm,n。算法I-LDA其中,a的值表示各个话题在取样之前的权重分布,0的值表示各个主题词的先验分布。它们是预先确定的参数,称为超参数。LDA的任务是估计参数朽和9 d。其中,所有显变量和隐变量的联合分布密度如下 Pi V m ,Tm, t m, € IcF, d )权利要求1.ー种短文本聚类设备,包括 主题分析単元,对辅助文本集合与短文本集合中的每ー个文本执行主题分析,以获得短文本集合中的每个短文本对应于辅助文本集合的主题和短文本集合的主题的可能性; 向量生成単元,将每个短文本对应于辅助文本集合的主题和短文本集合的主题的可能性进行归一化,以生成向量;以及 聚类单元,基于生成的向量对短文本集合中的短文本进行聚类。2.根据权利要求I所述的短文本聚类设备,其中,所述主题分析単元通过开关參数来确定辅助文本集合与短文本集合中的每ー个文本中的词对应于辅助文本集合的主题还是短文本集合的主题;如果对应于辅助文本集合的主題,则所述主题分析単元通过第一潜在狄利克雷分配执行主题分析,如果对应于短文本集合的主題,则所述主题分析単元通过第ニ潜在狄利克雷分配执行主题分析。3.根据权利要求2所述的短文本聚类设备,其中,所述主题分析単元利用吉布斯采样算法来估计第一潜在狄利克雷分配和第二潜在狄利克雷分配中使用的參数,其中辅助文本集合的主题的采样频率正比于除去当前词在上一个循环中的采样后、所有其它词选中辅助文本集合的主题的次数,短文本集合的主题的采样频率正比于除去当前词在上一个循环中的采样后、所有其它词选中短文本集合的主题的次数。4.根据权利要求I所述的短文本聚类设备,其中,所述向量生成単元在辅助文本集合的主题和短文本集合的主题的合集上生成向量。5.根据权利要求2所述的短文本聚类设备,其中,所述开关參数的值服从ニ项分布。6.根据权利要求2所述的短文本聚类设备,其中,所述主题分析单元确定开关參数以保证辅助文本中的词对应于辅助文本集合的主题的可能性大于对应于短文本集合的主题的可能性,并且短文本中的词对应于短文本集合的主题的可能性大于对应于辅助文本集合的主题的可能性。7.—种短文本聚类方法,包括 主题分析步骤,对辅助文本集合与短文本集合中的每ー个文本执行主题分析,以获得短文本集合中的每个短文本对应于辅助文本集合的主题和短文本集合的主题的可能性; 向量生成步骤,将每个短文本对应于辅助文本集合的主题和短文本集合的主题的可能性进行归一化,以生成向量;以及 聚类步骤,基于生成的向量对短文本集合中的短文本进行聚类。8.根据权利要求7所述的短文本聚类方法,其中,所述主题分析步骤包括通过开关參数来确定辅助文本集合与短文本集合中的每ー个文本中的词对应于辅助文本集合的主题还是短文本集合的主题;如果对应于辅助文本集合的主題,则通过第一潜在狄利克雷分配执行主题分析,如果对应于短文本集合的主題,则通过第二潜在狄利克雷分配执行主题分析。9.根据权利要求8所述的短文本聚类方法,其中,利用吉布斯采样算法来估计第一潜在狄利克雷分配和第二潜在狄利克雷分配中使用的參数,其中辅助文本集合的主题的采样频率正比于除去当前词在上一个循环中的采样后、所有其它词选中辅助文本集合的主题本文档来自技高网...

【技术保护点】
一种短文本聚类设备,包括:主题分析单元,对辅助文本集合与短文本集合中的每一个文本执行主题分析,以获得短文本集合中的每个短文本对应于辅助文本集合的主题和短文本集合的主题的可能性;向量生成单元,将每个短文本对应于辅助文本集合的主题和短文本集合的主题的可能性进行归一化,以生成向量;以及聚类单元,基于生成的向量对短文本集合中的短文本进行聚类。

【技术特征摘要】

【专利技术属性】
技术研发人员:赵凯胡长建王大亮许洪志
申请(专利权)人:日电中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1