基于知识图谱的新闻热度预测方法技术

技术编号:34492130 阅读:24 留言:0更新日期:2022-08-10 09:11
本发明专利技术涉及新闻媒体技术领域,公开了一种基于知识图谱的新闻热度预测方法,旨在解决现有的新闻热度预测存在预测结果滞后的问题,方案主要包括:首先对现有新闻事件的新闻数据进行信息抽取,并根据抽取得到主题词、主要实体词以及事件三元组构建事件图谱;然后根据业务规则以及预设的事件匹配算法构建知识图谱检索引擎;在需要对待预测新闻文本进行热度预测时,对待预测新闻文本进行信息抽取,知识图谱检索引擎根据抽取得到的主题词、主要实体词以及事件三元组在事件图谱中匹配新闻事件;最后根据匹配得到的新闻事件的热度值及匹配得分确定待预测新闻文本的预测热度值。本发明专利技术实现了对新闻热度的提前预测,特别适用于媒体行业。业。业。

【技术实现步骤摘要】
基于知识图谱的新闻热度预测方法


[0001]本专利技术涉及新闻媒体
,具体来说涉及一种基于知识图谱的新闻热度预测方法。

技术介绍

[0002]随着互联网的发展,信息大量涌现,各式各样的信息发布渠道越来越多,各类新闻类型和报道题材层出不穷,对于新闻信息发布者来说,发布一些让读者感兴趣的东西显得尤为重要,在创作过程中提高新闻内容题材选型,预测其最终可能传播的热度,使其以较小的创作产出获得更多更具有传播力的作品,在互联网流量为王的竞争中处于优势低位,并在行业中取得一定的影响力。由此可见,新闻热度正起到越来越重要的作用,预测新闻热度对新闻内容生产者来说具有重要的意义。不仅可以提高内容生产效率,还对内容创作流程提供指导方向,让创作的新闻更贴合读者的需求,为媒体行业的长足发展打下坚实的基础。
[0003]现有新闻热度预测大多数是通过分析新闻的传播路径、热词及发布源等维度信息进行实时预测,但这类预测方法执行起来比较复杂,需要结合多方实时数据,预测结果较为滞后,往往计算出的热点新闻已经是发生后的事情,对于新闻生产者而言,这类基于实时热点的创作更像本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于知识图谱的新闻热度预测方法,其特征在于,包括以下步骤:步骤1、获取新闻数据,确定各新闻数据所属的新闻事件以及各新闻事件对应的热度值,对属于同一新闻事件的新闻数据进行归类后,对新闻数据进行预处理;步骤2、针对每个新闻事件,根据其对应的所有新闻数据进行信息抽取,获得各新闻事件对应的第一事件三元组,所述第一事件三元组包含第一主题词和第一主要实体词;步骤3、根据所述第一事件三元组计算发布时间在预设时间范围内的新闻事件的相似度,将所述相似度大于阈值的新闻事件进行融合,并确定融合后的新闻事件的热度值;步骤4、将所有新闻事件及其对应的第一事件三元组保存至图数据库,并基于应用场景、业务规则和预设匹配得分算法构建知识图谱检索引擎;步骤5、获取待预测新闻文本,对待预测新闻文本进行信息抽取,获得待预测新闻文本对应的结构化数据,所述结构化数据至少包括第二主题词、第二主要实体词以及第二事件三元组;步骤6、将所述结构化数据输入至知识图谱检索引擎,所述知识图谱检索引擎根据输入的结构化数据在图数据库中进行匹配,得到匹配得分靠前的多个新闻事件;步骤7、根据匹配得到的新闻事件的热度值及匹配得分确定待预测新闻文本的预测热度值。2.如权权利要求1所述的基于知识图谱的新闻热度预测方法,其特征在于,步骤1中,所述获取新闻数据,具体包括:根据热榜新闻数据的质量、数量和领域对各新闻数据源进行权重打分,选取权重得分靠前的多个新闻数据源;基于爬虫算法并根据对应的权重得分分别对选取的各新闻数据源进行数据爬取,获得与热榜新闻事件相关联的所有新闻数据以及热榜新闻事件对应的热度值;其中,权重得分越高,则对应新闻数据源的爬取数据量越多,权重得分越低,则对应新闻数据源的爬取数据量越少。3.如权利要求1所述的基于知识图谱的新闻热度预测方法,其特征在于,步骤1中,所述对新闻数据进行预处理,具体包括:过滤无法归类以及信息残缺的新闻数据;过滤新闻数据中的敏感信息和不良信息;对新闻数据进行脏数据清洗以及去重处理。4.如权利要求1所述的基于知识图谱的新闻热度预测方法,其特征在于,步骤2中,所述根据其对应的所有新闻数据进行信息抽取,具体包括:使用LDA模型对新闻数据进行主题词抽取,获得新闻事件对应的多个主题词,选取排名靠前且在新闻数据中出现的多个主题词作为第一主题词;对新闻事件下的所有新闻数据进行分句处理后,基于领域词典和深度学习进行实体识别抽取,获得新闻事件对应的多个实体词,基于RoBERTa

CRF模型进行句子级别的实体关系联合抽取,获得新闻事件对应的多个事件三元组;基于TF

IDF计算抽取的各实体词在新闻数据中的实体得分,将该实体得分进行归一化处理后,选取实体得分之和占预设比例的实体词作为对应新闻事件的第一主要实体词;将包含第一主题词以及第一主要实体词的事件三元组作为新闻事件的第一事件三元
组。5.如权利要求1所述的基于知识图谱的新闻热度预测方法,其特征在于,步骤3中,根据所述第一事件三元组计算发布时间在预设时间范围内的新闻事件的相似度,具体包括:获取各新闻事件对应的发布时间,选取一定时间范围内的新闻事件,并计算选...

【专利技术属性】
技术研发人员:李少博高登科徐桢虎
申请(专利权)人:四川封面传媒科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1