一种热点话题的获取方法、系统及其存储介质技术方案

技术编号:35817067 阅读:21 留言:0更新日期:2022-12-03 13:41
本发明专利技术公开一种热点话题的获取方法、系统及其存储介质,属于自然语言处理技术领域。该热点话题的获取方法,包括:S1、收集新闻数据进行聚类实现同类新闻的分类;S2、汇总同类新闻的关键词得到同类新闻的全量关键词;S3、将全量关键词中的关键词根据重要性进行排序形成第一关键词组;S4、将语义值最高的新闻对应的标题作为该新闻所属类新闻的热点话题。本发明专利技术还提出了上述热点话题的获取系统。此外本发明专利技术还提出了存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述热点话题的获取方法的步骤。本发明专利技术的方法实现可从海量的新闻数据抽取当前的热门话题。量的新闻数据抽取当前的热门话题。量的新闻数据抽取当前的热门话题。

【技术实现步骤摘要】
一种热点话题的获取方法、系统及其存储介质


[0001]本专利技术涉及自然语言处理领域,具体涉及一种热点话题的获取方法、系统及其存储介质。

技术介绍

[0002]当今社会互联网发展迅速,新闻、社交媒体的数量数以万计,针对海量的新闻数据如何抽取当前的热门话题,是现有技术的难题。基于此,本申请提出了相关技术方案解决此问题。

技术实现思路

[0003]本专利技术的目的在于克服上述技术不足,提供一种热点话题的获取方法、系统及其存储介质,解决现有技术中难以从海量的新闻数据抽取当前的热门话题的技术问题。
[0004]为达到上述技术目的,本专利技术的技术方案提供一种热点话题的获取方法,包括以下步骤:
[0005]S1、收集新闻数据进行聚类实现同类新闻的分类;
[0006]S2、将分类后的同类新闻采用TextRank算法进行关键词抽取,并汇总同类新闻的关键词得到同类新闻的全量关键词;
[0007]S3、将全量关键词中的关键词根据重要性进行排序形成第一关键词组;
[0008]S4、根据第一关键词组获取每篇新闻的语义值,并根据所述语义值进行排序,将语义值最高的新闻对应的标题作为该新闻所属类新闻的热点话题。
[0009]进一步地,在步骤S3中,所述全量关键词中的每个关键词的重要性根据词频逆文档频率值判断得到,词频逆文档频率值越高其关键词的重要性越大。
[0010]进一步地,在步骤S3中,所述词频逆文档频率值的计算方法为:
[0011]词频逆文档频率值=词频*逆文档频率;
[0012]其中,
[0013]其中,
[0014]进一步地,在步骤S4中,所述每篇新闻的语义值由以下步骤得到:获取每篇新闻的第二关键词组,结合每篇新闻所属的该类新闻的第一关键词组获得每篇新闻的共有关键词组,累加共有关键词组与其对应的词频逆文档概率得到每篇新闻的语义值。
[0015]进一步地,在步骤S4中,所述共有关键词组为所述第二关键词组和所述第一关键词组的交集。
[0016]进一步地,在步骤S1中,采用隐含狄利克雷分布算法进行所述聚类实现同类新闻的分类。
[0017]进一步地,在步骤S4之后还包括:步骤S5、收集新的新闻数据重复步骤S1

S4获得
所述热点话题。
[0018]此外,本专利技术还提出一种热点话题的获取系统,包括:
[0019]收集单元,用于收集新闻数据进行聚类实现同类新闻的分类;
[0020]抽取单元,用于将分类后的同类新闻采用TextRank算法进行关键词抽取,并汇总同类新闻的关键词得到同类新闻的全量关键词;
[0021]第一排序单元,用于将全量关键词中的关键词根据重要性进行排序形成第一关键词组;
[0022]第二排序单元,用于根据第一关键词组获取每篇新闻的语义值,并根据所述语义值进行排序,将语义值最高的新闻对应的标题作为该新闻所述类别新闻的热点话题。
[0023]进一步地,本专利技术还提出一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述热点话题的获取方法的步骤。
[0024]与现有技术相比,本专利技术的有益效果包括:收集新闻数据进行聚类实现同类新闻的分类,将新闻数据分为不同的类,便于后续关键词的抽取;将分类后的同类新闻采用TextRank算法进行关键词抽取,并汇总同类新闻的关键词得到同类新闻的全量关键词;将全量关键词中的关键词根据重要性进行排序形成第一关键词组;根据第一关键词组获取每篇新闻的语义值,并根据所述语义值进行排序,将语义值最高的新闻对应的标题作为该新闻所属类新闻的热点话题,从而实现可从海量的新闻数据抽取当前的热门话题。
[0025]现有技术通过海量的新闻数据通过算法得到相似类型的新闻数据,最终通过人工方式进行校正、总结话题,规模大、过程繁杂、成本较高但效果好。本专利技术通过算法无需人工干预通过从海量新闻数据中自动分类并从每种类别中选出具有代表性的新闻标题作为话题,此方式流程简单高效、省去人工成本、效果也较好。
附图说明
[0026]图1是本专利技术实施例1提出的热点话题的获取方法的流程图。
[0027]图2是本专利技术实施例1提出的热点话题的获取系统的结构框图。
具体实施方式
[0028]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0029]实施例1
[0030]结合图1,本实施例提出了一种热点话题的获取方法,包括以下步骤:
[0031]S1、收集新闻数据采用隐含狄利克雷分布算法(Latent Dirichlet Allocation,LDA)进行聚类实现同类新闻的分类;隐含狄利克雷分布算法可以将大量新闻共有主题按照概率分布的形式给出,即将相似的新闻划分为同一类;
[0032]S2、将分类后的同类新闻采用TextRank算法进行关键词抽取,并汇总同类新闻的关键词得到同类新闻的全量关键词;
[0033]S3、将全量关键词中的关键词根据重要性进行排序形成第一关键词组,本实施例按照重要性由高到底筛选重要性较高的关键词形成关键词组,关键词组即通过将中文句子
进行切词并将不同的词进行词性合并得到一些能够代表本句话含义的关键词,多个关键词构成关键词组,本实施例中可以使用两种方式选择关键词,一种是只选择前15个关键词,一种是通过选择词频逆文档频率值为0.1

0.3的关键词;所述全量关键词中的每个关键词的重要性根据词频逆文档频率值判断得到,词频逆文档频率值越高其关键词的重要性越大;所述词频逆文档频率值的计算方法为:
[0034]词频逆文档频率值=词频*逆文档频率;
[0035]其中,
[0036]其中,
[0037]S4、根据第一关键词组获取每篇新闻的语义值,并根据所述语义值进行排序,将语义值最高的新闻对应的标题作为该新闻所属类新闻的热点话题;所述每篇新闻的语义值由以下步骤得到:获取每篇新闻的第二关键词组,结合每篇新闻所属的该类新闻的第一关键词组获得每篇新闻的共有关键词组,累加共有关键词组与其对应的词频逆文档概率得到每篇新闻的语义值;所述共有关键词组为所述第二关键词组和所述第一关键词组的交集。
[0038]S5、收集新的新闻数据重复步骤S1

S4获得所述热点话题,通常收集新的新闻数据的间隔时间为4

6天,本实施例的间隔时间为5天。
[0039]结合图2,本实施例还提出一种热点话题的获取系统,包括:
[0040]收集单元,用于收集新闻数据进行聚类实现同类新闻的分类;
[0041]抽取单元,用于将分类后的同类新闻采用TextRank算法进行关键词抽取,并汇总同类新闻的关键词得到同类新闻的全量关键词;
[0042]第一排序单元,用于将全量关键词中的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种热点话题的获取方法,其特征在于,包括以下步骤:S1、收集新闻数据进行聚类实现同类新闻的分类;S2、将分类后的同类新闻采用TextRank算法进行关键词抽取,并汇总同类新闻的关键词得到同类新闻的全量关键词;S3、将所述全量关键词中的关键词根据重要性进行排序形成第一关键词组;S4、根据第一关键词组获取每篇新闻的语义值,并根据所述语义值进行排序,将语义值最高的新闻对应的标题作为该新闻所属类新闻的热点话题。2.根据权利要求1所述的热点话题的获取方法,其特征在于,在步骤S3中,所述全量关键词中的每个关键词的重要性根据词频逆文档频率值判断得到,词频逆文档频率值越高其关键词的重要性越大。3.根据权利要求2所述的热点话题的获取方法,其特征在于,在步骤S3中,所述词频逆文档频率值的计算方法为:词频逆文档频率值=词频*逆文裆频率;其中,其中,4.根据权利要求2所述的热点话题的获取方法,其特征在于,在步骤S4中,所述每篇新闻的语义值由以下步骤得到:获取每篇新闻的第二关键词组,结合每篇新闻所属的该类新闻的第一关键词组获得每篇新闻的共有关键词组,累加共有关键词组与其对应的词频逆文档概率得到每篇新闻的语义值。5.根...

【专利技术属性】
技术研发人员:翟飞飞刘阳邓彪
申请(专利权)人:北京中科凡语科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1