一种热点话题发现方法、系统及一种热点话题发现设备技术方案

技术编号：17541715 阅读：269 留言：0更新日期：2018-03-24 18:51

本发明专利技术公开了一种热点话题发现方法包括：获取网页数据，并将所述网页数据进行分词处理，得到处理结果；对所述处理结果进行特征提取，得到特征向量；将所述特征向量输入LDA模型中，得到所述网页数据中每个主题对应的概率；将所述概率大于预设值的主题作为热点话题。由此可见，本发明专利技术实施例提供的热点话题发现方法，通过对网页数据的处理特提取得到特征向量，并通过LDA模型提取网页数据中的主题和该主题对应的概率，将概率大于预设值的主题作为热点话题，提高了热点话题的发现效率。本发明专利技术还公开了一种热点话题发现系统及一种热点话题发现设备和一种计算机可读存储介质，同样能实现上述技术效果。

A hot topic discovery method, system and a hot topic discovery device

全部详细技术资料下载

【技术实现步骤摘要】
一种热点话题发现方法、系统及一种热点话题发现设备
本专利技术涉及文本处理
，更具体地说，涉及一种热点话题发现方法、系统及一种热点话题发现设备和一种计算机可读存储介质。
技术介绍
随着网络的快速发展及普及，各种网络社交平台已经变成广大网民获得和发布信息的重要渠道。通过互联网自由的发表对某个社会热点事件或某些政策的意见，表达自己的情感，已经成为当下非常流行的趋势。这使得大众舆情通过互联网这一传播渠道获实现了广泛传播。现有技术中的热点话题发现方法主要采用聚类的方法进行，初始聚类中心的选择是否合理直接影响后续的聚类是否准确，聚类中心数目的选择对聚类结果也存在一定的影响。因此，如何提高热点话题的发现效率是本领域技术人员需要解决的问题。
技术实现思路
本专利技术的目的在于提供一种热点话题发现方法、系统及一种热点话题发现设备和一种计算机可读存储介质，提高了热点话题的发现效率。为实现上述目的，本专利技术实施例提供了一种热点话题发现方法，包括：获取网页数据，并将所述网页数据进行分词处理，得到处理结果；对所述处理结果进行特征提取，得到特征向量；将所述特征向量输入LDA模型中，得到所述网页数据中每个主题对应的概率；将所述概率大于预设值的主题作为热点话题。其中，所述获取网页数据之后，还包括：根据贪心策略和预定的启发式规则对所述网页数据进行去除噪音处理。其中，所述对经过分词处理的网页数据进行特征提取，得到特征向量，包括：将经过分词处理的网页数据中TF-IDF权重大于预设值的词语添加至文本特征项中；将所述文本特征项输入VSM模型中，得到所述网页数据对应的特征向量。其中，所述将经过分...
一种热点话题发现方法、系统及一种热点话题发现设备

【技术保护点】
一种热点话题发现方法，其特征在于，包括：获取网页数据，并将所述网页数据进行分词处理，得到处理结果；对所述处理结果进行特征提取，得到特征向量；将所述特征向量输入LDA模型中，得到所述网页数据中每个主题对应的概率；将所述概率大于预设值的主题作为热点话题。

【技术特征摘要】
1.一种热点话题发现方法，其特征在于，包括：获取网页数据，并将所述网页数据进行分词处理，得到处理结果；对所述处理结果进行特征提取，得到特征向量；将所述特征向量输入LDA模型中，得到所述网页数据中每个主题对应的概率；将所述概率大于预设值的主题作为热点话题。2.根据权利要求1所述热点话题发现方法，其特征在于，所述获取网页数据之后，还包括：根据贪心策略和预定的启发式规则对所述网页数据进行去除噪音处理。3.根据权利要求1或2所述热点话题发现方法，其特征在于，所述对经过分词处理的网页数据进行特征提取，得到特征向量，包括：将经过分词处理的网页数据中TF-IDF权重大于预设值的词语添加至文本特征项中；将所述文本特征项输入VSM模型中，得到所述网页数据对应的特征向量。4.根据权利要求3所述热点话题发现方法，其特征在于，所述将经过分词处理的网页数据中TF-IDF权重大于预设值的词语添加至文本特征项中，包括：计算经过分词处理的网页数据中每个词语的TF和IDF，所述TF为所述词语在当前文本中的词频，IDF为包含所述词语的文本数的倒数；将所述TF与所述IDF的乘积作为所述词语的TF-IDF权重；判断所述TF-IDF权重是否大于所述预设值，若是，则将所述词语添加至文本特征项中。5.一种热点话题发现系统，其特征在于，包括：获取模块，用于获取网页数据，并将所述网页数据进行分词处理，得到处理结果；特征提取模块，用于对所述处理结果进行特征提取，得到特征向量；输入模块...

【专利技术属性】
技术研发人员：毕银龙，
申请(专利权)人：郑州云海信息技术有限公司，
类型：发明
国别省市：河南,41

全部详细技术资料下载我是这个专利的主人