一种基于内容报道相似量的热度值计算方法及装置制造方法及图纸

技术编号:36780730 阅读:23 留言:0更新日期:2023-03-08 22:14
本发明专利技术是基于内容报道相似量的热度值计算方法及装置,装置包括预设值模块用于设置相似度比对时间范围、设置文章相似度阈值和根据不同类型文章设置初始热度值;热度值计算模块用于提取文章关键词计算文章相似度进而比较文章相似性,并计算相似文章数量,然后根据相似文章数量和初始热度及阅读数计算热度值。本发明专利技术的优点:通过Jaccard系数分析文章相似性,避免了只考虑用户评分而忽略其他信息量的弊端,适合应用到稀疏度过高的数据,且分词等算法精确度无太大要求;基于内容报道相似量计算热度值,对用户行为数据依赖性较低,对无用户行为数据的文章数据集也可给出热度计算的方法;同时避免了恶意刷赞、评论等数据对热度值计算带来的影响。计算带来的影响。计算带来的影响。

【技术实现步骤摘要】
一种基于内容报道相似量的热度值计算方法及装置


[0001]本专利技术涉及的是一种基于内容报道相似量的热度值计算方法及装置,属于文本内容分析


技术介绍

[0002]现有技术中,新闻文章热度值计算方法,通常是通过用户交互行为产生的数据来进行热度值计算,会消耗非常多的人力资源去实时关注互联网上发生的热点事件;或者单纯的使用点赞、评论等互动数据来计算文章热度值作为热点话题,对用户行为数据依赖性太高,况且现今的许多新闻网站贴文并无如点赞、转发、评论等互动数据。
[0003]现有技术上述新闻热度值计算方法都存在不方便,无法有效满足使用需要。
[0004]CN109344316A公开了一种新闻热度计算方法及装置,仅通过新闻聚类技术将相关的新闻报道聚合在一起,存在聚合准确度不足的情况,无法真实反映新闻文章热度值。

技术实现思路

[0005]本专利技术提出的是一种基于内容报道相似量的热度值计算方法及装置,其目的旨在克服现有技术存在的上述不足,实现准确计算热度值。
[0006]本专利技术的技术解决方案:一种基于内容本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于内容报道相似量的热度值计算装置,其特征在于,包括预设值模块和热度值计算模块,预设值模块用于设置相似度比对时间范围、设置文章相似度阈值和根据不同类型文章设置初始热度值;热度值计算模块用于提取文章关键词计算文章相似度进而比较文章相似性,并计算相似文章数量,然后根据相似文章数量和初始热度及阅读数计算热度值。2.如权利要求1所述的一种基于内容报道相似量的热度值计算装置的热度值计算方法,其特征在于,包括以下步骤:步骤1:预处理设置:设置相似度比对时间范围,设置文章相似度阈值,根据不同类型文章设置初始热度值;具体是设置选取一定时间内的文章进行相似度比较,相似度阈值在某值以上判断为相似文章,不同类新闻初始热度值分别为S1、S2、S3...SN;步骤2:进行文章关键词提取:对所选范围内的文章进行关键词提取,得到每篇文章的关键词集合;步骤3:进行文章相似度计算:对所选范围内的文章比较样本集之间的相似性;步骤4:相似文章数量计算:通过比较相似文章后进行相似数...

【专利技术属性】
技术研发人员:韩凯黄建杰
申请(专利权)人:央视国际网络无锡有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1