一种热点话题发现方法、系统及一种热点话题发现设备技术方案

技术编号:17541715 阅读:269 留言:0更新日期:2018-03-24 18:51
本发明专利技术公开了一种热点话题发现方法包括:获取网页数据,并将所述网页数据进行分词处理,得到处理结果;对所述处理结果进行特征提取,得到特征向量;将所述特征向量输入LDA模型中,得到所述网页数据中每个主题对应的概率;将所述概率大于预设值的主题作为热点话题。由此可见,本发明专利技术实施例提供的热点话题发现方法,通过对网页数据的处理特提取得到特征向量,并通过LDA模型提取网页数据中的主题和该主题对应的概率,将概率大于预设值的主题作为热点话题,提高了热点话题的发现效率。本发明专利技术还公开了一种热点话题发现系统及一种热点话题发现设备和一种计算机可读存储介质,同样能实现上述技术效果。

A hot topic discovery method, system and a hot topic discovery device

【技术实现步骤摘要】
一种热点话题发现方法、系统及一种热点话题发现设备
本专利技术涉及文本处理
,更具体地说,涉及一种热点话题发现方法、系统及一种热点话题发现设备和一种计算机可读存储介质。
技术介绍
随着网络的快速发展及普及,各种网络社交平台已经变成广大网民获得和发布信息的重要渠道。通过互联网自由的发表对某个社会热点事件或某些政策的意见,表达自己的情感,已经成为当下非常流行的趋势。这使得大众舆情通过互联网这一传播渠道获实现了广泛传播。现有技术中的热点话题发现方法主要采用聚类的方法进行,初始聚类中心的选择是否合理直接影响后续的聚类是否准确,聚类中心数目的选择对聚类结果也存在一定的影响。因此,如何提高热点话题的发现效率是本领域技术人员需要解决的问题。
技术实现思路
本专利技术的目的在于提供一种热点话题发现方法、系统及一种热点话题发现设备和一种计算机可读存储介质,提高了热点话题的发现效率。为实现上述目的,本专利技术实施例提供了一种热点话题发现方法,包括:获取网页数据,并将所述网页数据进行分词处理,得到处理结果;对所述处理结果进行特征提取,得到特征向量;将所述特征向量输入LDA模型中,得到所述网页数据中每个主题对应的概率;将所述概率大于预设值的主题作为热点话题。其中,所述获取网页数据之后,还包括:根据贪心策略和预定的启发式规则对所述网页数据进行去除噪音处理。其中,所述对经过分词处理的网页数据进行特征提取,得到特征向量,包括:将经过分词处理的网页数据中TF-IDF权重大于预设值的词语添加至文本特征项中;将所述文本特征项输入VSM模型中,得到所述网页数据对应的特征向量。其中,所述将经过分词处理的网页数据中TF-IDF权重大于预设值的词语添加至文本特征项中,包括:计算经过分词处理的网页数据中每个词语的TF和IDF,所述TF为所述词语在当前文本中的词频,IDF为包含所述词语的文本数的倒数;将所述TF与所述IDF的乘积作为所述词语的TF-IDF权重;判断所述TF-IDF权重是否大于所述预设值,若是,则将所述词语添加至文本特征项中。为实现上述目的,本专利技术实施例提供了一种热点话题发现系统,包括:获取模块,用于获取网页数据,并将所述网页数据进行分词处理,得到处理结果;特征提取模块,用于对所述处理结果进行特征提取,得到特征向量;输入模块,用于将所述特征向量输入LDA模型中,得到所述网页数据中每个主题对应的概率;确定模块,用于将所述概率大于预设值的主题作为热点话题。其中,还包括:去噪模块,用于根据贪心策略和预定的启发式规则对所述网页数据进行去除噪音处理。其中,所述特征提取模块具体包括:添加单元,用于将经过分词处理的网页数据中TF-IDF权重大于预设值的词语添加至文本特征项中;向量化单元,用于将所述文本特征项输入VSM模型中,得到所述网页数据对应的特征向量。其中,所述添加单元具体包括:计算子单元,用于计算经过分词处理的网页数据中每个词语的TF和IDF,所述TF为所述词语在当前文本中的词频,IDF为包含所述词语的文本数的倒数;确定子单元,用于将所述TF与所述IDF的乘积作为所述词语的TF-IDF权重;判断子单元,用于判断所述TF-IDF权重是否大于所述预设值,若是,则将所述词语添加至文本特征项中。为实现上述目的,本专利技术实施例提供了一种热点话题发现设备,包括:存储器,用于存储热点话题发现程序;处理器,用于执行所述热点话题发现程序时实现如上述热点话题发现方法的步骤。为实现上述目的,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有热点话题发现程序,所述热点话题发现程序被处理器执行时实现如上述热点话题发现方法。通过以上方案可知,本专利技术实施例提供的一种热点话题发现方法包括:获取网页数据,并将所述网页数据进行分词处理,得到处理结果;对所述处理结果进行特征提取,得到特征向量;将所述特征向量输入LDA模型中,得到所述网页数据中每个主题对应的概率;将所述概率大于预设值的主题作为热点话题。由此可见,本专利技术实施例提供的热点话题发现方法,通过对网页数据的处理特提取得到特征向量,并通过LDA模型提取网页数据中的主题和该主题对应的概率,将概率大于预设值的主题作为热点话题,提高了热点话题的发现效率。本专利技术还公开了一种热点话题发现系统及一种热点话题发现设备和一种计算机可读存储介质,同样能实现上述技术效果。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例公开的一种热点话题发现方法的流程图;图2为本专利技术实施例公开的另一种热点话题发现方法的流程图;图3为本专利技术实施例公开的一种热点话题发现系统的结构图;图4为本专利技术实施例公开的一种热点话题发现设备的结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例公开了一种热点话题发现方法,提高了热点话题的发现效率。参见图1,本专利技术实施例公开的一种热点话题发现方法的流程图,如图1所示,包括:S101:获取网页数据,并将所述网页数据进行分词处理,得到处理结果;在具体实施中,网页数据的获取可以采用多种方式,本专利技术不作具体的限定。例如,可以采用网络爬虫技术对指定门户网站的数据进行抓取。通常网络爬虫主要有深度优先遍历和广度优先遍历这两种爬虫爬行策略,本专利技术主要采取广度遍历策略进行数据的抓取,即网络爬虫在访问某个链接时,将这个链接网页中包含的链接放入到待访问的链接队列中,系统会先访问这些链接,然后再从这些链接中选一个,访问其包含的链接。S102:对所述处理结果进行特征提取,得到特征向量;S103:将所述特征向量输入LDA模型中,得到所述网页数据中每个主题对应的概率;LDA模型将一篇文档视为词、主题和文档三层结构,即一篇文章的每个词都是通过“以特定的概率选定某个主题,并且从该主题中以特定概率选定某个词语”这样的一个过程而得到。文档到主题服从多项式分布,主题到词也服从多项式分布。LDA作为一种非监督机器学习模型,能辨识出海量网络信息中隐藏的主题信息。该模型使用词袋法,把每篇文档看作是一个词频向量。每篇文档代表了许多主题组成的概率分布,而每个主题又代表了许多词语组成的概率分布。S104:将所述概率大于预设值的主题作为热点话题。本专利技术实施例提供的热点话题发现方法,通过对网页数据的处理特提取得到特征向量,并通过LDA模型提取网页数据中的主题和该主题对应的概率,将概率大于预设值的主题作为热点话题,提高了热点话题的发现效率。本专利技术实施例公开了一种热点话题发现方法,相对于上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的:参见图2,本专利技术实施例提供的另一种热点话题发现方法的流程图,如图2所示,包括:S211:获取网页数据,根据贪心策略和预定的启发式规则对所述网页数据进行去除噪音处理本文档来自技高网...
一种热点话题发现方法、系统及一种热点话题发现设备

【技术保护点】
一种热点话题发现方法,其特征在于,包括:获取网页数据,并将所述网页数据进行分词处理,得到处理结果;对所述处理结果进行特征提取,得到特征向量;将所述特征向量输入LDA模型中,得到所述网页数据中每个主题对应的概率;将所述概率大于预设值的主题作为热点话题。

【技术特征摘要】
1.一种热点话题发现方法,其特征在于,包括:获取网页数据,并将所述网页数据进行分词处理,得到处理结果;对所述处理结果进行特征提取,得到特征向量;将所述特征向量输入LDA模型中,得到所述网页数据中每个主题对应的概率;将所述概率大于预设值的主题作为热点话题。2.根据权利要求1所述热点话题发现方法,其特征在于,所述获取网页数据之后,还包括:根据贪心策略和预定的启发式规则对所述网页数据进行去除噪音处理。3.根据权利要求1或2所述热点话题发现方法,其特征在于,所述对经过分词处理的网页数据进行特征提取,得到特征向量,包括:将经过分词处理的网页数据中TF-IDF权重大于预设值的词语添加至文本特征项中;将所述文本特征项输入VSM模型中,得到所述网页数据对应的特征向量。4.根据权利要求3所述热点话题发现方法,其特征在于,所述将经过分词处理的网页数据中TF-IDF权重大于预设值的词语添加至文本特征项中,包括:计算经过分词处理的网页数据中每个词语的TF和IDF,所述TF为所述词语在当前文本中的词频,IDF为包含所述词语的文本数的倒数;将所述TF与所述IDF的乘积作为所述词语的TF-IDF权重;判断所述TF-IDF权重是否大于所述预设值,若是,则将所述词语添加至文本特征项中。5.一种热点话题发现系统,其特征在于,包括:获取模块,用于获取网页数据,并将所述网页数据进行分词处理,得到处理结果;特征提取模块,用于对所述处理结果进行特征提取,得到特征向量;输入模块...

【专利技术属性】
技术研发人员:毕银龙
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1