The invention discloses a single theme for short text mining method and system, wherein, methods: collecting multiple short text; each short text of several short text preprocessing; for each short text by double word single theme theme theme on the algorithm of automatic modeling, and in the Gibbs sampling when defined as a single theme; a single theme underlying each of the short text. The mining method can carry out the theme of automatic modeling of short text, and limit each short text only one subject, in order to obtain the short text single topic potential, improve the efficiency of mining theme, and improve the accuracy of mining, to enhance the user experience.
【技术实现步骤摘要】
面向短文本的单主题挖掘方法及系统
本专利技术涉及计算机应用及社交网络
,特别涉及一种面向短文本的单主题挖掘方法及系统。
技术介绍
随着微博平台的蓬勃发展,越来越多的人开始关注一种新的信息承载方式:短文本。字如其意,短文本最大的特点就是文本长度很短,通常只有100个字。短文本的形式多种多样:微博内容、搜索引擎的query、即时通讯软件的聊天内容、BBS论坛的回帖。短文本的第二个特点就是口语化严重,拼写随意。不同于传统诸如博客、新闻报道等网络长文本,短文本往往是个人用户表达情感,描述生活状态的信息载体,它们往往很随意,其中经常包含错别字、网络用语、文字加拼音的表示方式,甚至语法都不正确。短文本的第三个特点是数量巨大,以微博平台为例,截止2016年12月,微博月活跃人数已达到3.13亿,较2015年同期相比增长34%,使得这么多的用户带来了海量的微博数据。短文本的第四个特点是实时性要求高,由于短文本数量巨大且不断被产生,所以必须要进行实时处理,导致传统的有监督方法效果不如无监督方法。因此,短文本的主题获取较为困难,且准确性较低,有待改进。
技术实现思路
本专利技术旨在 ...
【技术保护点】
一种面向短文本的单主题挖掘方法,其特征在于,包括以下步骤:采集多条短文本;对所述多条短文本的每条短文本进行预处理;对每条短文本采用单主题的双词对主题算法进行主题自动建模,并且在吉布斯采样时,限定为单主题;以及获所述每条短文本潜在的单个主题。
【技术特征摘要】
1.一种面向短文本的单主题挖掘方法,其特征在于,包括以下步骤:采集多条短文本;对所述多条短文本的每条短文本进行预处理;对每条短文本采用单主题的双词对主题算法进行主题自动建模,并且在吉布斯采样时,限定为单主题;以及获所述每条短文本潜在的单个主题。2.根据权利要求1所述的面向短文本的单主题挖掘方法,其特征在于,所述对每条短文本采用单主题的双词对主题算法进行主题自动建模,进一步包括:利用隐含狄利克雷分布主题模型从文本中词项的共现特征来得到文本的主题结构;利用双词对主题模型从建模双词的产生来学习主题。3.根据权利要求2所述的面向短文本的单主题挖掘方法,其特征在于,双词为在同一个上下文中共现的无序词对。4.根据权利要求1所述的面向短文本的单主题挖掘方法,其特征在于,所述对多条短文本的每条短文本进行预处理包括:抽取文本内容,并且清除所述文本内容中杂乱信息;对清理后的所述文本内容进行分词处理,以计算每个词语的词频;去掉词频低于预设值的词语。5.根据权利要求1-4任一项所述的面向短文本的单主题挖掘方法,其特征在于,还包括:在自动建模之后,获取主题下的TopK个关键词;对获取的所述单个主题和所述主题下的TopK个关键词进行可视化展示。6.一种面向短文本的单主题挖...
【专利技术属性】
技术研发人员:徐华,李佳,孙晓民,邓俊辉,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。