The invention relates to a microblog hot topic discovery method based on improved BBTM model, which includes: microblog text pre-processing, microblog data set pre-processing operations such as microblog denoising, word segmentation, word deactivation, feature selection and word pair calorific value probabilization, feature selection using word burst probability, microblog short text forming word pairs, and calculating the calorific value burst probability of word pairs. As a prior probability of BBTM model; automatic determination of the number of topics; call BBTM model to find hot topics, get the distribution of hot topics; micro-blog clustering, determine the topic of each micro-blog text. The microblog hot topic discovery method based on improved BBTM model proposed by the invention can self-adaptively learn the number of topics without preset number of topics, and excavate potential hot topics in microblog.
【技术实现步骤摘要】
基于改进BBTM模型的微博热点话题发现方法
本专利技术涉及自然语言处理中的话题发现与追踪
,特别是一种基于改进BBTM模型的微博热点话题发现方法。
技术介绍
伴随着传统互联网和移动互联网的快速发展,微博得以蓬勃发展。微博允许用户通过网页、外部程序和手机安卓端等发布140字符以内的消息,实现消息共享。微博的短文本性、及时性和交互性等优点受到大众认可,已经逐渐成为了人们获取和发布信息的重要工具。如何从海量的杂乱无章的微博数据中挖掘热点话题已经成为了亟待解决的问题。为了高效准确的挖掘出微博中的热点话题,近些年已经有很多研究人员对其展开深入研究。传统的热点话题发现方法包括基于聚类的方法、基于LDA主题模型的方法等。这些方法虽然在新闻长文本上可以较好的发现热点话题,在微博短文本上效果较差,主要是由于短文本的特征稀疏性特点,所以就有研究员提出了大量基于微博短文本的热点话题发现方法。目前已有很多学者对基于微博的热点话题发现进行研究,也取得了很多成果,但仍然存在以下几个问题:首先微博短文本存在特征稀疏、高维度等问题,因此热点话题发现方法挖掘的热点话题质量不高;其次,热点话题发现方法无法实现自适应学习话题数目,需要人工指定话题数目。
技术实现思路
本专利技术的目的在于提供一种基于改进BBTM模型的微博热点话题发现方法,以克服现有技术中存在的缺陷。为实现上述目的,本专利技术的技术方案是:一种基于改进BBTM模型的微博热点话题发现方法,按照如下步骤实现:步骤S1:对微博文本进行预处理,对微博数据集进行预处理操作,包括:微博去噪、分词、去停用词;步骤S2:特征选择与词对热值概率 ...
【技术保护点】
1.一种基于改进BBTM模型的微博热点话题发现方法,其特征在于,按照如下步骤实现:步骤S1:对微博文本进行预处理,对微博数据集进行预处理操作,包括:微博去噪、分词、去停用词;步骤S2:特征选择与词对热值概率化;采用词的突发概率进行特征选择,将微博短文本形成词对,并计算词对的热值突发概率,作为BBTM模型的先验概率;步骤S3:确定话题数目;步骤S4:调用BBTM模型进行热点话题发现,获得话题热点词分布;步骤S5:进行微博聚类,判定每个微博文本的话题。
【技术特征摘要】
1.一种基于改进BBTM模型的微博热点话题发现方法,其特征在于,按照如下步骤实现:步骤S1:对微博文本进行预处理,对微博数据集进行预处理操作,包括:微博去噪、分词、去停用词;步骤S2:特征选择与词对热值概率化;采用词的突发概率进行特征选择,将微博短文本形成词对,并计算词对的热值突发概率,作为BBTM模型的先验概率;步骤S3:确定话题数目;步骤S4:调用BBTM模型进行热点话题发现,获得话题热点词分布;步骤S5:进行微博聚类,判定每个微博文本的话题。2.根据权利要求1所述的基于改进BBTM模型的微博热点话题发现方法,其特征在于,在所述步骤S1中,还包括如下步骤:步骤S11:按创建日期对微博进行分片,将相同日期的微博归于同一个时隙中;步骤S12:去除噪声微博,计算微博的传播值,将传播值为0的微博标注为噪音微博并剔除:spreadd=γlog(fwd)+χlog10(comd)+μlog10(topd)其中,spreadd表示微博d的传播值,fwd表示微博d被转发的次数,comd表示微博d被评论的次数,topd表示微博d被点赞的次数;γ,χ,μ分别表示传播值中,转发、评论和点赞操作对微博的转播值的影响程度,γ=0.7,χ=0.2,μ=0.1;步骤S13:中文分词和词性标注,将微博文本以词语为单位进行划分,并标注词语的词性,调用HanLP开源工具实现;步骤S14:去停用词,去除非中文字符的词,留下名词、动词、形容词。3.根据权利要求1所述的基于改进BBTM模型的微博热点话题发现方法,其特征在于,在所述步骤S2中,还包括如下步骤:步骤S21:计算每个词的在t时隙内突发值:其中,burstw,t表示词w在t时刻的突发值,Mt表示t间隙内的微博数目,i表示t时隙内的第i条微博,Nw,i表示t时隙内词w在第i条微博中的出现的次数;步骤S22:计算每个词在与t时隙相关的slot个时隙中的历史突发值:其中,burstw,history表示词w的历史突发值,slot表示相关时隙大小;步骤S23:计算词的突发概率:其中,burstRatew,t表示词w在t间隙的突发概率,δ是一个用于过滤低频词的阈值;步骤S24:判断每个词的突发概率是否大于预设阈值ε,如果是,将词作为特征词;步骤S25:统计词对,将每个微博文本中的每个词与其前后10个词构成一个词对;步骤S26:计算每个词对在t时隙内热值:其中,spreadi,b指词对所在微博的传播值;步骤S27:计算每个词对在与t时隙相关的slot个时隙中的历史热值:步骤S28:计算词对的热值概率:4.根据权利要求1所述的基于改进BBTM模型的微...
【专利技术属性】
技术研发人员:郭文忠,黄畅,郭昆,陈羽中,
申请(专利权)人:福州大学,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。