一种基于主题模型的新闻热点检测方法技术

技术编号:15254002 阅读:96 留言:0更新日期:2017-05-02 19:50
本发明专利技术公开了一种基于主题模型的新闻热点检测方法,通过网络爬虫定向爬取新闻流,首先对文章进行分词,去除停用词及无意义字符串等预处理,继而对预处理后的文章进行特征提取,构建文本模型,然后通过文本聚类算法将相似度程度高的文本加入到最相似的类别中,得到主题库,接着对新老主题进行相似度计算,对于相似度高的新老主题进行合并,最后进行主题热度计算,通过排序选出最热的主题。本发明专利技术创新性地将LDA算法应用在热点主题发现中,并提出了爆发性的概念,能够及时有效地发现最新热点新闻,同时提出了主题热度衰减概念,能够实时记录跟踪主题热度,真实地反映了新闻热点的发展变化,对于热点新闻的追踪展示具有重要意义。

A news hot spot detection method based on topic model

The invention discloses a hot news detection method based on topic model, through the web crawler directional crawling news stream, the first word of the article, the removal of stop words and meaningless string pretreatment, then after pretreatment of the feature extraction, the Gou Jianwen model, and then the text is a high degree of similarity join to the most similar categories in the text clustering algorithm, get the theme of the new and old theme library, then calculate the similarity, with the theme for old and new high similarity, and finally the theme of heat calculation, select the most hot topics by sorting. The present invention innovatively applies the LDA algorithm found in hot topic, and put forward the concept of explosive, can timely and effectively find the latest news hot spots, and put forward the concept of the theme of heat attenuation, real-time recording and tracking the theme of heat, a true reflection of the development and change of hot news, is of great significance for the hot news tracking display.

【技术实现步骤摘要】

本专利技术提供了一种基于主题模型的新闻热点检测方法,涉及网络爬虫,聚类分析,文本相似度计算等核心技术与算法,及时有效的检测新闻热点,追踪热点新闻演变。
技术介绍
随着互联网技术的发展,海量信息时代已经来临,各类信息充斥于互联网,但只有少数新闻能引起轰动,即所谓的头条新闻,热点新闻,及时的新闻热点发现能够帮助人们实时关注社会状态。另一方面,一个新闻热点的爆发不是一瞬即逝的,往往伴随着一个跌宕起伏的发展过程,并引发其他潜在问题发生,所以追踪新闻热点的发展过程对于研究社会问题具有重要意义。互联网的发展,大数据的兴起,互联网充斥着大量信息,在这些低质量的信息中发现热点新闻变得极其重要。
技术实现思路
本专利技术的目的在于针对如今互联网信息的繁杂,提供一种基于网络爬虫、聚类分析和主题模型的新闻热点检测方法。本专利技术的目的是通过以下技术方案来实现的:一种基于主题模型的新闻热点检测方法,通过网络爬虫定向爬取新闻流,首先对文章进行分词,去除停用词及无意义字符串等预处理,继而对预处理后的文章进行特征提取,构建文本模型,然后通过文本聚类算法将将相似度程度高的文本加入到最相似的类别中,得到话题库,接着对新老话题进行相似度计算,对于相似度高的新老话题进行合并,最后进行话题热度计算,通过排序选出最热的话题。具体包括以下步骤:(1)采用网络爬虫的方式定向爬取新闻流,每到来N篇新文章进行一次批处理,对爬取数据进行数据清洗、文章分词得到预处理后的文章;(2)构建向量空间模型:经过预处理操作,原始文档可以看做是由一堆词语构成的,如果把文档看做是一个向量的话,那么每个词语就是一维特征,通过将文档转化为向量,文本数据就变为可以被计算机处理的结构化数据,两个文档之间的相似性问题就转化为了两个向量之间的相似性问题。在计算文档向量每一维的权重时,采用改进的B‐TFIDF算法,算法公式如下:公式(1)中w代表单词,A表示新文章中包含单词w的文章数,B表示新文章中不包含单词w的文章数,C表示历史文章中包含单词w的文章数,D表示历史文章中不包含单词w的文章数,公式(2)中di表示第i篇新文章,N表示新文章总数,tf(d,w)表示单词w在文章d中的词频,df(w)表示包含单词w的文章数。该算法将词语的爆发性考虑在内,爆发性即一个词语在短期内突然大量出现。通过以上算法计算构成文档的每个词语的权重,进而生成文章的向量空间模型Di=(weight(di,w1),weight(di,w2),weight(di,w3)…..weight(di,wn)),其中n为总词数。(3)文章聚类:经过步骤2,文本被表示为向量的形式,对文本向量进行聚类;采用LDA主题模型聚类算法,具体为:LDA聚类过程:LDA是一个三层贝叶斯概率模型,包含词、主题和文档三层,将一篇文章的产生看做是这样一个过程:以一定概率选定某个主题,并在这个主题中以一定概率选定某个词,文档到主题服从多项式分布,主题到词服从多项式分布,通过LDA聚类得到“主题‐词语”概率矩阵phi以及“文档‐主题”概率矩阵theta,根据“文档‐主题”概率矩阵theta得到m个主题和m个主题对应N篇文章的概率,theta的每一行i代表一篇文章,每一列j代表一个主题,对应矩阵值thetaij是文章i属于主题j的概率。设置筛选阈值为thresholdT,若thetaij>thresholdT则认为文章i属于主题j,由此选出每个主题对应的文章。LDA聚类个数m的确定:分别设置聚类个数为N/10‐N/5重复执行LDA聚类算法,然后计算每一次执行结果的主题间相似度,选择主题间相似度最低的执行结果对应的主题个数。主题间相似度的计算根据LDA聚类得到的“主题‐词语”概率矩阵phi,phi的每一行j代表一个主题Tj,每一列k代表一个单词wk,phijk代表主题Tj包含单词wk的概率。Phi的一行可以看做主题Tj的向量形式Tj=(w1,w2,w3,…wk…wn),n为总词数。计算主题两两之间的相似度,求相似度平均值,取最小值作为最终的主题间相似度。相似度的计算采用余弦相似度的计算方法,计算公式如下:公式(3)中的Ti和Tj代表两个主题,ωk(Ti)代表主题Ti在维度k上的值,n表示总词数。(4)主题关键词提取:从主题下所有文章的题目中提取关键词,先对文章题目进行分词,过滤掉停止词,无意义词和标点符号,剩下的词作为主题关键词。(5)话题合并:由步骤3得到m个主题和其对应的文章,接下来将m个新主题与旧主题进行合并,计算主题间相似度f1,若f1>0.5则认为两个主题相似,并合并两个主题。主题间相似度f1计算公式如下:f1=2*vectorSim*keywordSim/(vectorSim+keywordSim)(4)公式(4)中的vectorSim代表以主题包含的所有单词作为维度计算主题余弦相似度,keywordSim代表以主题关键词为维度计算主题余弦相似度,余弦相似度的计算公式同公式(3)。(6)热度计算:经过步骤5得到最终的所有主题,接下来计算主题热度h,筛选出热度高的主题,去掉热度低,即过时的主题。根据热点主题新闻聚集度s高的特点,热度计算公式如下:ht=∑sim(di,t)(5)公式(5)中的di表示主题T包含的文章,主题T的热度ht等于主题下文章与主题相似度的和,sim函数同公式(3)。随着时间流逝,一个主题的热度会不断衰减,直至低于阈值该主题被舍弃。热度的衰减,在每次批处理过程中,如果主题T下面有新文章到来,那么主题T的热度ht会相应的增加,ht=ht*Up,如果没有新的文章添加进主题T,那么热度ht会衰减,ht=ht*Down,其中Up>1,Down<1。本专利技术的有益效果是:本专利技术创新性地将LDA算法应用在热点主题发现中,并提出了爆发性的概念,能够及时有效地发现最新热点新闻,同时提出了提出了主题热度衰减概念,能够实时记录跟踪主题热度,真实地反映了新闻热点的发展变化,对于热点新闻的追踪展示具有很重要的意义。附图说明图1是基于主题模型的新闻热点检测流程示意图;图2是文章建模过程示意图;图3是LDA聚类过程示意图;图4是新旧主题合并示意图;图5是主题热度计算示意图。具体实施方式下面结合附图和具体实施例对本专利技术作进一步详细说明。如图1所示,本专利技术提出的一种基于主题模型的新闻热点检测方法,包括以下步骤:(1)采用网络爬虫的方式定向爬取新闻流,每到来N篇文章进行一次批处理,对爬取数据进行数据清洗、文章分词得到预处理后的文章;(2)构建向量空间模型:如图2所示,经过预处理操作,原始文档可以看做是由一堆词语构成的,如果把文档看做是一个向量的话,那么每个词语就是一维特征,通过将文档转化为向量,文本数据就变为可以被计算机处理的结构化数据,两个文档之间的相似性问题就转化为了两个向量之间的相似性问题。在计算文档向量每一维的权重时,采用了改进的B‐TFIDF算法,算法公式如下:公式1中w代表单词,A表示新文章中包含单词w的文章数,B表示新文章中不包含单词w的文章数,C表示历史文章中包含单词w的文章数,D表示历史文章中不包含单词w的文章数,公式2中di表示第i篇新文章,N表示新文章总数,tf(d,w)表示单词w在文章d中的词频,df(w)表示本文档来自技高网...

【技术保护点】
一种基于主题模型的新闻热点检测方法,其特征在于,包括以下步骤:(1)采用网络爬虫的方式定向爬取新闻流,每到来N篇新文章进行一次批处理,对爬取数据进行数据清洗、文章分词得到预处理后的文章;(2)构建向量空间模型:经过预处理操作,原始文档可以看做是由一堆词语构成的,如果把文档看做是一个向量的话,那么每个词语就是一维特征,通过将文档转化为向量,文本数据就变为可以被计算机处理的结构化数据,两个文档之间的相似性问题就转化为了两个向量之间的相似性问题。在计算文档向量每一维的权重时,采用改进的B‐TFIDF算法,算法公式如下:bi(w)=(A+B+C+D)(AD-BC)2(A+B)(C+D)(A+C)(B+D)---(1)]]>weight(di,w)=(tfi(di,w)log((N+1)/(dfi(w)+0.5))·bi(w))Σw′∈d(tf(d,w′)1og((N+1)/(df(w′)+0.5))·b(w′))2---(2)]]>公式(1)中w代表单词,A表示新文章中包含单词w的文章数,B表示新文章中不包含单词w的文章数,C表示历史文章中包含单词w的文章数,D表示历史文章中不包含单词w的文章数,公式(2)中di表示第i篇新文章,N表示新文章总数,tf(d,w)表示单词w在文章d中的词频,df(w)表示包含单词w的文章数。该算法将词语的爆发性考虑在内,爆发性即一个词语在短期内突然大量出现。通过以上算法计算构成文档的每个词语的权重,进而生成文章的向量空间模型Di=(weight(di,w1),weight(di,w2),weight(di,w3)…..weight(di,wn)),其中n为总词数。(3)文章聚类:经过步骤2,文本被表示为向量的形式,对文本向量进行聚类;采用LDA主题模型聚类算法,具体为:LDA聚类过程:LDA是一个三层贝叶斯概率模型,包含词、主题和文档三层,将一篇文章的产生看做是这样一个过程:以一定概率选定某个主题,并在这个主题中以一定概率选定某个词,文档到主题服从多项式分布,主题到词服从多项式分布,通过LDA聚类得到“主题‐词语”概率矩阵phi以及“文档‐主题”概率矩阵theta,根据“文档‐主题”概率矩阵theta得到m个主题和m个主题对应N篇文章的概率,theta的每一行i代表一篇文章,每一列j代表一个主题,对应矩阵值thetaij是文章i属于主题j的概率。设置筛选阈值为thresholdT,若thetaij>thresholdT则认为文章i属于主题j,由此选出每个主题对应的文章。LDA聚类个数m的确定:分别设置聚类个数为N/10‐N/5重复执行LDA聚类算法,然后计算每一次执行结果的主题间相似度,选择主题间相似度最低的执行结果对应的主题个数。主题间相似度的计算根据LDA聚类得到的“主题‐词语”概率矩阵phi,phi的每一行j代表一个主题Tj,每一列k代表一个单词wk,phijk代表主题Tj包含单词wk的概率。Phi的一行可以看做主题Tj的向量形式Tj=(w1,w2,w3,…wk…wn),n为总词数。计算主题两两之间的相似度,求相似度平均值,取最小值作为最终的主题间相似度。相似度的计算采用余弦相似度的计算方法,计算公式如下:sim(Ti,Tj)=Σk=1nωk(Ti)×ωk(Tj)((Σk=1nωk2(Ti))(Σk=1nωk2(Tj)))---(3)]]>公式(3)中的Ti和Tj代表两个主题,ωk(Ti)代表主题Ti在维度k上的值,n表示总词数。(4)主题关键词提取:从主题下所有文章的题目中提取关键词,先对文章题目进行分词,过滤掉停止词,无意义词和标点符号,剩下的词作为主题关键词。(5)话题合并:由步骤3得到m个主题和其对应的文章,接下来将m个新主题与旧主题进行合并,计算主题间相似度f1,若f1>0.5则认为两个主题相似,并合并两个主题。主题间相似度f1计算公式如下:f1=2*vectorSim*keywordSim/(vectorSim+keywordSim)  (4)公式(4)中的vectorSim代表以主题包含的所有单词作为维度计算主题余弦相似度,keywordSim代表以主题关键词为维度计算主题余弦相似度,余弦相似度的计算公式同公式(3)。(6)热度计算:经过步骤5得到最终的所有主题,接下来计算主题热度h,筛选出热度高的主题,去掉热度低,即过时的主题。根据热点主题新闻聚集度s高的特点,热度计算公式如下:ht=∑sim(di,t)  (5)公式(5)中的di表示主题T包含的文章,主题T的...

【技术特征摘要】
1.一种基于主题模型的新闻热点检测方法,其特征在于,包括以下步骤:(1)采用网络爬虫的方式定向爬取新闻流,每到来N篇新文章进行一次批处理,对爬取数据进行数据清洗、文章分词得到预处理后的文章;(2)构建向量空间模型:经过预处理操作,原始文档可以看做是由一堆词语构成的,如果把文档看做是一个向量的话,那么每个词语就是一维特征,通过将文档转化为向量,文本数据就变为可以被计算机处理的结构化数据,两个文档之间的相似性问题就转化为了两个向量之间的相似性问题。在计算文档向量每一维的权重时,采用改进的B‐TFIDF算法,算法公式如下:bi(w)=(A+B+C+D)(AD-BC)2(A+B)(C+D)(A+C)(B+D)---(1)]]>weight(di,w)=(tfi(di,w)log((N+1)/(dfi(w)+0.5))·bi(w))Σw′∈d(tf(d,w′)1og((N+1)/(df(w′)+0.5))·b(w′))2---(2)]]>公式(1)中w代表单词,A表示新文章中包含单词w的文章数,B表示新文章中不包含单词w的文章数,C表示历史文章中包含单词w的文章数,D表示历史文章中不包含单词w的文章数,公式(2)中di表示第i篇新文章,N表示新文章总数,tf(d,w)表示单词w在文章d中的词频,df(w)表示包含单词w的文章数。该算法将词语的爆发性考虑在内,爆发性即一个词语在短期内突然大量出现。通过以上算法计算构成文档的每个词语的权重,进而生成文章的向量空间模型Di=(weight(di,w1),weight(di,w2),weight(di,w3)…..weight(di,wn)),其中n为总词数。(3)文章聚类:经过步骤2,文本被表示为向量的形式,对文本向量进行聚类;采用LDA主题模型聚类算法,具体为:LDA聚类过程:LDA是一个三层贝叶斯概率模型,包含词、主题和文档三层,将一篇文章的产生看做是这样一个过程:以一定概率选定某个主题,并在这个主题中以一定概率选定某个词,文档到主题服从多项式分布,主题到词服从多项式分布,通过LDA聚类得到“主题‐词语”概率矩阵phi以及“文档‐主题”概率矩阵theta,根据“文档‐主题”概率矩阵theta得到m个主题和m个主题对应N篇文章的概率,theta的每一行i代表一篇文章,每一列j代表一个主题,对应矩阵值thetaij是文章i属于主题j的概率。设置筛选阈值为thresholdT,若thet...

【专利技术属性】
技术研发人员:庄郭冕黄乔彭志宇付晗王忆诗
申请(专利权)人:浙江网新恒天软件有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1