一种新闻热度的计算方法技术

技术编号:24121837 阅读:81 留言:0更新日期:2020-05-13 03:19
本发明专利技术公开一种新闻热度的计算方法,涉及计算机技术领域,包括:对具有预设权威度的各新闻站点进行数据爬取得到若干新闻数据;进行新闻标签分类,得到具有新闻标签的各新闻数据;新闻事件库中具有若干新闻事件子集合时,将各新闻数据进行整体聚类,否则进行增量聚类;统计每个新闻事件子集合中的新闻数量以及新闻报道时间;对每个新闻事件子集合的各新闻数据进行排序,并根据排序结果进行权重赋值得到第一权重;处理得到各新闻数据被转发和转载量;对预设权威度、新闻标签、新闻数量、新闻报道时间、第一权重以及被转发和转载量进行加权求和得到新闻热度值。本发明专利技术考虑多个影响新闻热度的因素,计算得出的新闻热度更加全面,合理,符合实际。

【技术实现步骤摘要】
一种新闻热度的计算方法
本专利技术涉及计算机
,具体涉及一种新闻热度的计算方法。
技术介绍
随着互联网的发展,各式新媒体涌现,流量之争愈演愈烈,提高新闻热度成为媒体运营中心。现有的新闻热度的计算主要包括基于用户行为数据,基于舆情分析以及基于聚类计算。点赞、转发、评论、收藏等行为统称为用户行为,用户行为体现出的用户对该新闻的关注度,因此用户行为的统计是新闻热度的最直接表达形式。但是很多新闻门户网站或者不统计用户行为,或者隐藏用户行为,这对第三方获取新闻数据时就无法直接通过信息抽取来计算新闻热度。舆情分析针对这类问题的解决方法是,通过新闻聚类,从媒体的角度去讨论新闻的热度,但是没有考虑增量聚类。新闻是一天天积累的,虽然现在的硬件配置可以支持大量的数据聚类,但是长时间的积累之后,如果每次都是整体聚类的话,势必会影响计算效率。通过聚类计算新闻热度的算法中,考虑新闻自身的差异性不够全面。同属一个事件的新闻,也会因为报道时间或者网站的等级,亦或者网友的参与等多种因素造成新闻与新闻之间的价值不同,将这些因素考虑进去可以更好地进行热点新闻内容的挖掘,有助于更好的分析热点事件。同时,由于不同的门户网站实际上是有不同的级别的,也就是网站的权威度,而现阶段针对新闻热度的计算没有考虑此因素。事实上现有的新闻热度的计算方法考虑的因素很少,不能够全面反映新闻的热度。
技术实现思路
本专利技术的目的在于提供一种新闻热度的计算方法。为达此目的,本专利技术采用以下技术方案:提供一种新闻热度的计算方法,具体包括以下步骤:步骤S1,采用爬虫机制对具有预设权威度的各新闻站点进行数据爬取,爬取得到各所述新闻站点的对应于所述预设权威度的若干新闻数据;步骤S2,根据预先生成的新闻标签分类模型对各所述新闻数据进行新闻标签分类,得到具有对应新闻标签的各所述新闻数据;步骤S3,判断预先生成的新闻事件库中是否存在具有对应聚类类别的若干新闻事件子集合:若否,则转向步骤S4;若是,则转向步骤S5;步骤S4,将具有所述新闻标签的各所述新闻数据进行整体聚类,得到具有所述聚类类别的若干所述新闻事件子集合并存储在所述新闻事件库中,随后转向步骤S6;步骤S5,将具有所述新闻标签的各所述新闻数据进行增量聚类,得到各所述新闻数据的所述聚类类别,并将所述新闻数据加入对应于所述聚类类别的所述新闻事件子集合中进行存储,以对所述新闻事件库进行更新;步骤S6,根据所述新闻事件库,统计得到每个所述新闻事件子集合中包含的各所述新闻数据的新闻数量以及新闻报道时间;步骤S7,对所述新闻事件库中每个所述新闻事件子集合包含的各所述新闻数据进行排序,并根据排序结果对每个所述新闻数据进行权重赋值,得到各所述新闻数据对应的第一权重;步骤S8,根据所述新闻事件库处理得到每个所述新闻事件子集合包含的各所述新闻数据被转发和转载量;步骤S9,针对每篇所述新闻数据,根据预设第二权重对所述新闻数据对应的所述预设权威度、所述新闻标签、所述新闻数量、所述新闻报道时间、所述第一权重以及所述被转发和转载量进行加权求和,得到所述新闻数据的新闻热度值。作为本专利技术的一种优选方案,所述预设权威度的计算方法包括以下步骤:步骤A1,获取预设时间段的各所述新闻站点的历史新闻数据;步骤A2,统计所述历史新闻数据中描述同一新闻事件的各新闻子数量,并将各所述新闻子数量进行排序,将排序结果靠前的第一预设数量的所述新闻事件作为热点事件;步骤A3,分别统计得到所述历史新闻数据包含的第一新闻总量,以及每个所述新闻站点报道的所述热点事件的第二新闻总量;步骤A4,针对每个所述新闻站点,将所述第二新闻总量除以所述第一新闻总量,得到所述新闻站点的覆盖率;步骤A5,统计各所述热点事件在各所述新闻站点的发布时间,将各所述发布时间进行排序,并将排序结果最靠前的所述发布时间作为标准时间;步骤A6,针对每个所述新闻站点,根据所述标准时间和所述发布时间处理得到所述新闻站点的热点滞后时间;步骤A7,针对每个所述新闻站点,根据预设第三权重对所述覆盖率和所述热点滞后时间进行加权求和,得到所述新闻站点的所述预设权威度。作为本专利技术的一种优选方案,所述步骤A6中,采用以下公式计算得到所述热点滞后时间:其中,Tr用于表示所述热点滞后时间;T用于表示所述发布时间;Tn用于表示所述标准时间。作为本专利技术的一种优选方案,所述步骤S1具体包括:步骤S11,根据所述预设权威度的数值大小将各所述新闻站点进行排序,并根据排序结果将各所述新闻站点划分为第一等级新闻站点、第二等级新闻站点和第三等级新闻站点;步骤S12,采用爬虫机制爬取所述第一等级新闻站点以及所述第二等级新闻站点的所述排序结果靠前的第二预设数量的所述新闻站点,得到各所述新闻站点的对应于所述预设权威度的若干新闻数据。作为本专利技术的一种优选方案,执行所述步骤S9之后,还包括新闻数据量扩充的过程,具体包括:步骤B1,将所述新闻热度值与预设的热度阈值进行比较:若所述新闻热度值小于所述热度阈值,则返回所述步骤S1;若所述新闻热度值不小于所述热度阈值,则转向步骤B2;步骤B2,根据所述新闻热度值对应的所述新闻数据进行元搜索得到包含所述新闻数据的元搜索结果,随后转向所述步骤S2,以对所述元搜索结果进行新闻标签分类;步骤B3,根据所述新闻热度值对应的所述新闻数据在所述步骤S12中未爬取的所述第二等级新闻站点,以及所述第三等级新闻站点中进行数据爬取,得到包含所述新闻数据的爬取结果,随后转向所述步骤S2,以对所述爬取结果进行新闻标签分类。作为本专利技术的一种优选方案,所述步骤S5具体包括:步骤S51,将各所述新闻事件子集合中的新闻事件进行向量化,得到新闻向量;步骤S52,针对每个所述新闻事件子集合,采用TextRank算法对各所述新闻向量进行排序,并根据排序结果进行权重赋值,得到各所述新闻向量的第四权重;步骤S53,针对每个所述新闻事件子集合,根据所述第四权重对各所述新闻向量进行加权平均,得到所述新闻事件子集合的中心向量;步骤S54,将具有所述新闻标签的各所述新闻数据进行向量化得到当前新闻向量,并计算得到所述当前新闻向量和各所述中心向量之间的第一向量距离;步骤S55,分别将所述第一向量距离与预设的第一距离阈值进行比较,以判断是否存在所述第一向量距离小于所述第一距离阈值:若是,则将所述新闻数据加入所述中心向量对应的所述新闻事件子集合中进行存储,以对所述新闻事件库进行更新;若否,则重新生成一所述新闻事件子集合以存储所述新闻数据。作为本专利技术的一种优选方案,执行所述步骤S55之后,还包括:步骤SC1,针对每个所述新闻事件子集合,对相应的所述第一距离阈值进行调整得到第二距离阈值,并计算得到各所述新闻向量与所述中本文档来自技高网...

【技术保护点】
1.一种新闻热度的计算方法,其特征在于,具体包括以下步骤:/n步骤S1,采用爬虫机制对具有预设权威度的各新闻站点进行数据爬取,爬取得到各所述新闻站点的对应于所述预设权威度的若干新闻数据;/n步骤S2,根据预先生成的新闻标签分类模型对各所述新闻数据进行新闻标签分类,得到具有对应新闻标签的各所述新闻数据;/n步骤S3,判断预先生成的新闻事件库中是否存在具有对应聚类类别的若干新闻事件子集合:/n若否,则转向步骤S4;/n若是,则转向步骤S5;/n步骤S4,将具有所述新闻标签的各所述新闻数据进行整体聚类,得到具有所述聚类类别的若干所述新闻事件子集合并存储在所述新闻事件库中,随后转向步骤S6;/n步骤S5,将具有所述新闻标签的各所述新闻数据进行增量聚类,得到各所述新闻数据的所述聚类类别,并将所述新闻数据加入对应于所述聚类类别的所述新闻事件子集合中进行存储,以对所述新闻事件库进行更新;/n步骤S6,根据所述新闻事件库,统计得到每个所述新闻事件子集合中包含的各所述新闻数据的新闻数量以及新闻报道时间;/n步骤S7,对所述新闻事件库中每个所述新闻事件子集合包含的各所述新闻数据进行排序,并根据排序结果对每个所述新闻数据进行权重赋值,得到各所述新闻数据对应的第一权重;/n步骤S8,根据所述新闻事件库处理得到每个所述新闻事件子集合包含的各所述新闻数据被转发和转载量;/n步骤S9,针对每篇所述新闻数据,根据预设第二权重对所述新闻数据对应的所述预设权威度、所述新闻标签、所述新闻数量、所述新闻报道时间、所述第一权重以及所述被转发和转载量进行加权求和,得到所述新闻数据的新闻热度值。/n...

【技术特征摘要】
1.一种新闻热度的计算方法,其特征在于,具体包括以下步骤:
步骤S1,采用爬虫机制对具有预设权威度的各新闻站点进行数据爬取,爬取得到各所述新闻站点的对应于所述预设权威度的若干新闻数据;
步骤S2,根据预先生成的新闻标签分类模型对各所述新闻数据进行新闻标签分类,得到具有对应新闻标签的各所述新闻数据;
步骤S3,判断预先生成的新闻事件库中是否存在具有对应聚类类别的若干新闻事件子集合:
若否,则转向步骤S4;
若是,则转向步骤S5;
步骤S4,将具有所述新闻标签的各所述新闻数据进行整体聚类,得到具有所述聚类类别的若干所述新闻事件子集合并存储在所述新闻事件库中,随后转向步骤S6;
步骤S5,将具有所述新闻标签的各所述新闻数据进行增量聚类,得到各所述新闻数据的所述聚类类别,并将所述新闻数据加入对应于所述聚类类别的所述新闻事件子集合中进行存储,以对所述新闻事件库进行更新;
步骤S6,根据所述新闻事件库,统计得到每个所述新闻事件子集合中包含的各所述新闻数据的新闻数量以及新闻报道时间;
步骤S7,对所述新闻事件库中每个所述新闻事件子集合包含的各所述新闻数据进行排序,并根据排序结果对每个所述新闻数据进行权重赋值,得到各所述新闻数据对应的第一权重;
步骤S8,根据所述新闻事件库处理得到每个所述新闻事件子集合包含的各所述新闻数据被转发和转载量;
步骤S9,针对每篇所述新闻数据,根据预设第二权重对所述新闻数据对应的所述预设权威度、所述新闻标签、所述新闻数量、所述新闻报道时间、所述第一权重以及所述被转发和转载量进行加权求和,得到所述新闻数据的新闻热度值。


2.根据权利要求1所述的新闻热度的计算方法,其特征在于,所述预设权威度的计算方法包括以下步骤:
步骤A1,获取预设时间段的各所述新闻站点的历史新闻数据;
步骤A2,统计所述历史新闻数据中描述同一新闻事件的各新闻子数量,并将各所述新闻子数量进行排序,将排序结果靠前的第一预设数量的所述新闻事件作为热点事件;
步骤A3,分别统计得到所述历史新闻数据包含的第一新闻总量,以及每个所述新闻站点报道的所述热点事件的第二新闻总量;
步骤A4,针对每个所述新闻站点,将所述第二新闻总量除以所述第一新闻总量,得到所述新闻站点的覆盖率;
步骤A5,统计各所述热点事件在各所述新闻站点的发布时间,将各所述发布时间进行排序,并将排序结果最靠前的所述发布时间作为标准时间;
步骤A6,针对每个所述新闻站点,根据所述标准时间和所述发布时间处理得到所述新闻站点的热点滞后时间;
步骤A7,针对每个所述新闻站点,根据预设第三权重对所述覆盖率和所述热点滞后时间进行加权求和,得到所述新闻站点的所述预设权威度。


3.根据权利要求2所述的新闻热度的计算方法,其特征在于,所述步骤A6中,采用以下公式计算得到所述热点滞后时间:



其中,
Tr用于表示所述热点滞后时间;
T用于表示所述发布时间;
Tn用于表示所述标准时间。


4.根据权利要求2所述的新闻热度的计算方法,其特征在于,所述步骤S1具体包括:
步骤S11,根据所述预设权威度的数值大小将各所述新闻站点进行排序,并根据排序结果将各所述新闻站点划分为第一等级新闻站点、第二等级新闻站点和第三等级新闻站点;
步骤S12,采用爬虫机制爬取所述第一等级新闻站点以及所述第二等级新闻站点的所述排序结果靠前的第二预设数量的所述新闻站点,得到各所述新闻站点的对应于所述预设权威度的若干新闻数据。


5.根据权利要求4所述的新闻热度的计算方法,其特征在于,执行所述步骤S9之后,还包括新闻数据量扩充...

【专利技术属性】
技术研发人员:龚才春姜勇越
申请(专利权)人:创新奇智青岛科技有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1