一种基于主题模型的新闻热点检测方法技术

技术编号：15254002 阅读：96 留言：0更新日期：2017-05-02 19:50

本发明专利技术公开了一种基于主题模型的新闻热点检测方法，通过网络爬虫定向爬取新闻流，首先对文章进行分词，去除停用词及无意义字符串等预处理，继而对预处理后的文章进行特征提取，构建文本模型，然后通过文本聚类算法将相似度程度高的文本加入到最相似的类别中，得到主题库，接着对新老主题进行相似度计算，对于相似度高的新老主题进行合并，最后进行主题热度计算，通过排序选出最热的主题。本发明专利技术创新性地将LDA算法应用在热点主题发现中，并提出了爆发性的概念，能够及时有效地发现最新热点新闻，同时提出了主题热度衰减概念，能够实时记录跟踪主题热度，真实地反映了新闻热点的发展变化，对于热点新闻的追踪展示具有重要意义。

A news hot spot detection method based on topic model

The invention discloses a hot news detection method based on topic model, through the web crawler directional crawling news stream, the first word of the article, the removal of stop words and meaningless string pretreatment, then after pretreatment of the feature extraction, the Gou Jianwen model, and then the text is a high degree of similarity join to the most similar categories in the text clustering algorithm, get the theme of the new and old theme library, then calculate the similarity, with the theme for old and new high similarity, and finally the theme of heat calculation, select the most hot topics by sorting. The present invention innovatively applies the LDA algorithm found in hot topic, and put forward the concept of explosive, can timely and effectively find the latest news hot spots, and put forward the concept of the theme of heat attenuation, real-time recording and tracking the theme of heat, a true reflection of the development and change of hot news, is of great significance for the hot news tracking display.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术提供了一种基于主题模型的新闻热点检测方法，涉及网络爬虫，聚类分析，文本相似度计算等核心技术与算法，及时有效的检测新闻热点，追踪热点新闻演变。
技术介绍
随着互联网技术的发展，海量信息时代已经来临，各类信息充斥于互联网，但只有少数新闻能引起轰动，即所谓的头条新闻，热点新闻，及时的新闻热点发现能够帮助人们实时关注社会状态。另一方面，一个新闻热点的爆发不是一瞬即逝的，往往伴随着一个跌宕起伏的发展过程，并引发其他潜在问题发生，所以追踪新闻热点的发展过程对于研究社会问题具有重要意义。互联网的发展，大数据的兴起，互联网充斥着大量信息，在这些低质量的信息中发现热点新闻变得极其重要。
技术实现思路
本专利技术的目的在于针对如今互联网信息的繁杂，提供一种基于网络爬虫、聚类分析和主题模型的新闻热点检测方法。本专利技术的目的是通过以下技术方案来实现的：一种基于主题模型的新闻热点检测方法，通过网络爬虫定向爬取新闻流，首先对文章进行分词，去除停用词及无意义字符串等预处理，继而对预处理后的文章进行特征提取，构建文本模型，然后通过文本聚类算法将将相似度程度高的文本加入到最相似的类别中，得到话题库，接着对新老话题进行相似度计算，对于相似度高的新老话题进行合并，最后进行话题热度计算，通过排序选出最热的话题。具体包括以下步骤：(1)采用网络爬虫的方式定向爬取新闻流，每到来N篇新文章进行一次批处理，对爬取数据进行数据清洗、文章分词得到预处理后的文章；(2)构建向量空间模型：经过预处理操作，原始文档可以看做是由一堆词语构成的，如果把文档看做是一个向量的话，那么每个词语就是一维特征，通过将...

【技术保护点】
一种基于主题模型的新闻热点检测方法，其特征在于，包括以下步骤：(1)采用网络爬虫的方式定向爬取新闻流，每到来N篇新文章进行一次批处理，对爬取数据进行数据清洗、文章分词得到预处理后的文章；(2)构建向量空间模型：经过预处理操作，原始文档可以看做是由一堆词语构成的，如果把文档看做是一个向量的话，那么每个词语就是一维特征，通过将文档转化为向量，文本数据就变为可以被计算机处理的结构化数据，两个文档之间的相似性问题就转化为了两个向量之间的相似性问题。在计算文档向量每一维的权重时，采用改进的B‐TFIDF算法，算法公式如下：bi(w)=(A+B+C+D)(AD-BC)2(A+B)(C+D)(A+C)(B+D)---(1)]]>weight(di,w)=(tfi(di,w)log((N+1)/(dfi(w)+0.5))·bi(w))Σw′∈d(tf(d,w′)1og((N+1)/(df(w′)+0.5))·b(w′))2---(2)]]>公式(1)中w代表单词，A表示新文章中包含单词w...

【技术特征摘要】
1.一种基于主题模型的新闻热点检测方法，其特征在于，包括以下步骤：(1)采用网络爬虫的方式定向爬取新闻流，每到来N篇新文章进行一次批处理，对爬取数据进行数据清洗、文章分词得到预处理后的文章；(2)构建向量空间模型：经过预处理操作，原始文档可以看做是由一堆词语构成的，如果把文档看做是一个向量的话，那么每个词语就是一维特征，通过将文档转化为向量，文本数据就变为可以被计算机处理的结构化数据，两个文档之间的相似性问题就转化为了两个向量之间的相似性问题。在计算文档向量每一维的权重时，采用改进的B‐TFIDF算法，算法公式如下：bi(w)=(A+B+C+D)(AD-BC)2(A+B)(C+D)(A+C)(B+D)---(1)]]>weight(di,w)=(tfi(di,w)log((N+1)/(dfi(w)+0.5))·bi(w))Σw′∈d(tf(d,w′)1og((N+1)/(df(w′)+0.5))·b(w′))2---(2)]]>公式(1)中w代表单词，A表示新文章中包含单词w的文章数，B表示新文章中不包含单词w的文章数，C表示历史文章中包含单词w的文章数，D表示历史文章中不包含单词w的文章数，公式(2)中di表示第i篇新文章，N表示新文章总数，tf(d,w)表示单词w在文章d中的词频，df(w)表示包含单词w的文章数。该算法将词语的爆发性考虑在内，爆发性即一个词语在短期内突然大量出现。通过以上算法计算构成文档的每个词语的权重，进而生成文章的向量空间模型Di＝(weight(di,w1),weight(di,w2),weight(di,w3)…..weight(di,wn))，其中n为总词数。(3)文章聚类：经过步骤2，文本被表示为向量的形式，对文本向量进行聚类；采用LDA主题模型聚类算法，具体为：LDA聚类过程：LDA是一个三层贝叶斯概率模型，包含词、主题和文档三层，将一篇文章的产生看做是这样一个过程：以一定概率选定某个主题，并在这个主题中以一定概率选定某个词，文档到主题服从多项式分布，主题到词服从多项式分布，通过LDA聚类得到“主题‐词语”概率矩阵phi以及“文档‐主题”概率矩阵theta，根据“文档‐主题”概率矩阵theta得到m个主题和m个主题对应N篇文章的概率，theta的每一行i代表一篇文章，每一列j代表一个主题，对应矩阵值thetaij是文章i属于主题j的概率。设置筛选阈值为thresholdT，若thet...

【专利技术属性】
技术研发人员：庄郭冕，黄乔，彭志宇，付晗，王忆诗，
申请(专利权)人：浙江网新恒天软件有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人