短文本聚类设备及方法技术

技术编号：8105710 阅读：236 留言：0更新日期：2012-12-21 04:26

本发明专利技术提供了一种短文本聚类设备，包括：主题分析单元，对辅助文本集合与短文本集合中的每一个文本执行主题分析，以获得短文本集合中的每个短文本对应于辅助文本集合的主题和短文本集合的主题的可能性；向量生成单元，将每个短文本对应于辅助文本集合的主题和短文本集合的主题的可能性进行归一化，以生成向量；以及聚类单元，基于生成的向量对短文本集合中的短文本进行聚类。本发明专利技术还提供了一种短文本聚类方法。本发明专利技术实现了辅助文本主题和短文本主题的各自发现，从而能够更准确地对短文本进行聚类。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域，具体涉及一种。
技术介绍
随着手机短信、微博、搜索引擎、在线广告等的广泛应用，短文本被人们使用的越来越频繁，这些文本通常较短，例如一条手机短信不能超过70个字，搜索引擎返回的结果一般也只有几十个字。短文本与长文本(例如新闻)有较大的区别。例如，在长文本环境下，一个主题可以被充分地描述，因而人们可以从这个长文本中了解到主题的几乎所有内容。与此不同，由于短文本的字数受到限制，所以通常只对主题的核心内容进行描述，很多相关信息被省略。传统的文本挖掘的方法通常是针对长文本的，而应用在短文本上会遇到困难，例如聚类。由于实现聚类常常要使用文字的并发信息(同时出现)，而短文本中文字的并发信息比长文本少很多，因此聚类效果会受到影响。例如下面两段新闻文本LI和L2 LI 清华大学第四教学楼被更名为“真维斯楼”，校园内和互联网上一片奚落之声。反对意见主要是清华的教学楼和真维斯的服装品牌形象太不搭。从高校楼房冠名的正当程序这一角度看，清华大学显然有可挑剔之处。抛开这一点不谈，单就清华学子所关注的实质问题一教学楼冠名的所谓品牌形象角度而言，“真维斯楼”是否过于折损清华的形象？ ”L2 近日，清华大学一教学楼取名为“真维斯”，在网络上引起了轩然大波。真维斯不是一服装品牌吗？清华大学的教学楼怎么也叫“真维斯”？ 23日中午，清华大学第四教学楼外墙挂上“真维斯楼”的牌匾。几个字的右下方，还悬挂有另一牌匾，专用来介绍真维斯这一服装品牌。教学楼以企业品牌冠名，引发清华大学学生和网友的争议。有人认为高校过分的商业化，不应该用企业来冠名。而新浪博友@Young...

【技术保护点】
一种短文本聚类设备，包括：主题分析单元，对辅助文本集合与短文本集合中的每一个文本执行主题分析，以获得短文本集合中的每个短文本对应于辅助文本集合的主题和短文本集合的主题的可能性；向量生成单元，将每个短文本对应于辅助文本集合的主题和短文本集合的主题的可能性进行归一化，以生成向量；以及聚类单元，基于生成的向量对短文本集合中的短文本进行聚类。

【技术特征摘要】

【专利技术属性】
技术研发人员：赵凯，胡长建，王大亮，许洪志，
申请(专利权)人：日电中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人