一种基于热点榜单的话题生成系统及方法技术方案

技术编号:34457770 阅读:11 留言:0更新日期:2022-08-06 17:08
本发明专利技术公开了一种基于热点榜单的话题生成系统及方法,包括数据采集模块、数据处理模块、检索过滤模块、分类抽取模块、结果输出模块,述数据采集模块用于获取平台用于从网络上爬取热文榜单,并将获取的榜单数据发送至数据处理模块,数据处理模块用于读取数据采取模块的榜单数据并转换成文本格式,再将文本格式的数据发送至检索过滤模块,检索过滤模块用于接收文本格式数据。本发明专利技术够综合各网络社交平台榜单数据,更加系统全面分析各话题文章信息,利用大数据分析和自然语言处理相关方法,采集不同社交媒体榜单信息,通过聚类分析海量文本数据得出相关话题的关键词,从而更加全面、科学、客观地描述热点事件。客观地描述热点事件。客观地描述热点事件。

【技术实现步骤摘要】
一种基于热点榜单的话题生成系统及方法


[0001]本专利技术属于自然语言处理领域,尤其涉及一种基于热点榜单的话题生成系统及方法。

技术介绍

[0002]由于不同平台发布的榜单信息量较少且分散,想要对其进行深层次的信息挖掘并不容易。比如百度热搜榜单只展现相关话题的简短描述,具体内容需要针对这一话题重新检索。再比如微信热榜上展示的是热文标题,可链接至某一热文的具体页面,但不会显示相关话题的其他文章。新闻搜索和综合搜索需要获得各媒体每日的热门标签进行数据建设,并通过标签分析热点事件脉络关系。因此我们对此做出改进,提出一种基于热点榜单的话题生成系统。

技术实现思路

[0003]本专利技术的目的在于克服现有技术存在的以上问题,提供一种基于热点榜单的话题生成系统及方法,能够综合各网络社交平台榜单数据,更加系统全面分析各话题文章信息,利用大数据分析和自然语言处理相关方法,采集不同社交媒体榜单信息,通过聚类分析海量文本数据得出相关话题的关键词,从而更加全面、科学、客观地描述热点事件。
[0004]为实现上述技术目的,达到上述技术效果,本专利技术通过以下技术方案实现:一种基于热点榜单的话题生成系统,包括数据采集模块、数据处理模块、检索过滤模块、分类抽取模块、结果输出模块;所述数据采集模块用于获取平台用于从网络上爬取热文榜单,并将获取的榜单数据发送至数据处理模块;所述数据处理模块用于读取数据采取模块的榜单数据并转换成文本格式,再将文本格式的数据发送至检索过滤模块;所述检索过滤模块用于接收文本格式数据,根据寓意对榜单竖进行聚类,将文章中的词转化为词向量,再得出文本向量,再根据聚类文本词语分布构建高频词文本向量并计算文本相似度,用于筛查过滤重复、相似的文章;所述分类抽取模块用于分析文章中的关键词,并分类抽取关键词作为备选;所述结果输出模块用于分析对前后连续出现频率高的备选词语对进行聚合,并提高榜单词及标题词权重对备选词进行次序调整,最终生成可代表话题含义的关键词组。
[0005]一种基于热点榜单的话题生成方法:A、数据采集模块从网络爬取从网络上爬取热文榜单,并将获取的榜单数据发送至数据处理模块,检索过滤模块用于接收文本格式数据,根据寓意对榜单竖进行聚类,将文章中的词转化为词向量,再得出文本向量,再根据聚类文本词语分布构建高频词文本向量并计算文本相似度,用于筛查过滤重复、相似的文章;B、数据处理模块读取数据采取模块的榜单数据并转换成文本格式,再将文本格式
的数据发送至检索过滤模块,检索过滤模块用于接收文本格式数据,根据寓意对榜单竖进行聚类,将文章中的词转化为词向量,再得出文本向量,再根据聚类文本词语分布构建高频词文本向量并计算文本相似度,用于筛查过滤重复、相似的文章;C、分类抽取模块分析文章中的关键词,并分类抽取关键词作为备选,结果输出模块用于分析对前后连续出现频率高的备选词语对进行聚合,并提高榜单词及标题词权重对备选词进行次序调整,最终生成可代表话题含义的关键词组。
[0006]分类抽取模块生成方法包括以下步骤:S1、按照先验概率P(d_m)选择一篇文档d_m;S2、从Dirichlet分布α中取样生成文档d_m的主题分布
ϑ
_m;S3、从主题的多项式分布
ϑ
_m中取样生成文档d_m第n个词的主题z_(m,n);S4、从Dirichlet分布β中取样生成主题z_(m,n)对应的词语分布φ_(z_(m,n) );S5、从词语的多项式分布φ_(z_(m,n) )中采样最终生成词语w_(m,n)。
[0007]本专利技术的有益效果是:该种基于热点榜单的话题生成系统及方法,能够综合各网络社交平台榜单数据,更加系统全面分析各话题文章信息,利用大数据分析和自然语言处理相关方法,采集不同社交媒体榜单信息,通过聚类分析海量文本数据得出相关话题的关键词,从而更加全面、科学、客观地描述热点事件。
附图说明
[0008]此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是本专利技术的流程图;图2是本专利技术的步骤流程图;图3是本专利技术的分类抽取模块示意图。
具体实施方式
[0009]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0010]如图1和图2所示的一种基于热点榜单的话题生成系统,包括数据采集模块、数据处理模块、检索过滤模块、分类抽取模块、结果输出模块;数据采集模块用于获取平台用于从网络上爬取热文榜单,并将获取的榜单数据发送至数据处理模块;数据处理模块用于读取数据采取模块的榜单数据并转换成文本格式,再将文本格式的数据发送至检索过滤模块;检索过滤模块用于接收文本格式数据,根据寓意对榜单竖进行聚类,将文章中的词转化为词向量,再得出文本向量,再根据聚类文本词语分布构建高频词文本向量并计算文本相似度,用于筛查过滤重复、相似的文章;分类抽取模块用于分析文章中的关键词,并分类抽取关键词作为备选;
结果输出模块用于分析对前后连续出现频率高的备选词语对进行聚合,并提高榜单词及标题词权重对备选词进行次序调整,最终生成可代表话题含义的关键词组。
[0011]一种基于热点榜单的话题生成方法:A、数据采集模块从网络爬取从网络上爬取热文榜单,并将获取的榜单数据发送至数据处理模块,检索过滤模块用于接收文本格式数据,根据寓意对榜单竖进行聚类,将文章中的词转化为词向量,再得出文本向量,再根据聚类文本词语分布构建高频词文本向量并计算文本相似度,用于筛查过滤重复、相似的文章;B、数据处理模块读取数据采取模块的榜单数据并转换成文本格式,再将文本格式的数据发送至检索过滤模块,采集包括微信、微博、新闻客户端、网页、论坛和报刊等六大平台的数据采集,通过爬取百度、微信、微博、360等数家主流社交媒体发布的热文榜单,得到社交媒体平台综合榜单,由于各平台采集的榜单数据存在重复或相似的情况,需要根据语义对榜单数据进行聚类。现存文章相似度计算的主要方法是利用机器学习的方式将文章中所有词转化为词向量,进而得到文本向量,再计算不同文本向量间的相似度。但由于同一语义的表达方式多样、近义词间词向量关系不确定以及计算时间复杂度高等原因,传统模型在线上文本数据的表现并不理想。而本算法主要采用基于同义词转化的动态文本矩阵计算方法,经过线上多版本迭代优化,在保证分类准确性的前提下,能够快速实现相似文本聚类。利用同义词典将文本词语进行同义词转化。根据待聚类文本词语分布情况构建高频词文本向量并计算文本相似度,最终按照相似度对文本进行归类。利用矩阵计算的方式大幅缩短计算时间检索过滤模块用于接收文本格式数据,根据寓意对榜单竖进行聚类,将文章中的词转化为词向量,针对分词后文本训练词向量模型,这里采用TF

IDF(本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于热点榜单的话题生成系统,其特征在于,包括数据采集模块、数据处理模块、检索过滤模块、分类抽取模块、结果输出模块;所述数据采集模块用于获取平台用于从网络上爬取热文榜单,并将获取的榜单数据发送至数据处理模块;所述数据处理模块用于读取数据采取模块的榜单数据并转换成文本格式,再将文本格式的数据发送至检索过滤模块;所述检索过滤模块用于接收文本格式数据,根据寓意对榜单竖进行聚类,将文章中的词转化为词向量,再得出文本向量,再根据聚类文本词语分布构建高频词文本向量并计算文本相似度,用于筛查过滤重复、相似的文章;所述分类抽取模块用于分析文章中的关键词,并分类抽取关键词作为备选;所述结果输出模块用于分析对前后连续出现频率高的备选词语对进行聚合,并提高榜单词及标题词权重对备选词进行次序调整,最终生成可代表话题含义的关键词组。2.根据权利要求1所述的一种基于热点榜单的话题生成方法,其特征在于,所述方法包括以下步骤:A、数据采集模块从网络爬取从网络上爬取热文榜单,并将获取的榜单数据发送至数据处理模块,检索过滤模块用于接收文本格式数据,根据寓意对榜单竖进行聚类,将文章中的词转化为词向量,再得出文本向量,再根据聚类文本词语分布构建高频词文本向量并计算文本相似度,用于筛查过...

【专利技术属性】
技术研发人员:夏茂晋朱旭琪王欢马云腾
申请(专利权)人:北京清博智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1