System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种新媒体主题词的热度计算方法技术_技高网

一种新媒体主题词的热度计算方法技术

技术编号:40483162 阅读:7 留言:0更新日期:2024-02-26 19:16
本发明专利技术公开了一种新媒体主题词的热度计算方法,具体涉及计算机领域,通过搜索引擎采集近一月用户搜索记录,对搜索次数进行词频统计,计算词频增长速度;根据新媒体主题词检索出来的文章进行新媒体主题词文章热度分析,根据词频增长速度、历史词频,以及新媒体主题词文章热度进行新媒体主题词的热度计算,从而得到更为精准的新媒体主题词的热度;将新媒体主题词的热度Q以及预先设定的新媒体主题词的热度Q<subgt;0</subgt;,进行差异值γ计算,并将差异值γ和差异值阈值γ<subgt;阈</subgt;进行判断对比,根据判断对比结果对数据库中存储的新媒体主题词拆分后的主题词热度分值进行修正,从而降低预先设定的新媒体主题词的热度与实际新媒体主题词的热度差异大的风险。

【技术实现步骤摘要】

本专利技术涉及计算机,更具体地说,本专利技术涉及一种新媒体主题词的热度计算方法


技术介绍

1、随着各种互联网平台的兴起,用户可通过互联网平台查询信息,从而互联网平台根据用户行为衍生了热度计算方法;所谓热度计算方法是指在互联网内容领域中,用来衡量和预测某个内容或话题受欢迎程度的计算方法;其广泛应用于各种互联网平台,如搜索引擎、社交媒体、新闻资讯网站,用于排序和推荐内容。

2、现有的新媒体主题词的热度计算方法主要是采集文章的点击量、分享量、评论量,以及点赞量,综合计算出一个热度值,用来衡量一个内容或话题的受欢迎程度,具有计算速度快的特点,考虑了用户的实际需求,即用户对热门内容的关注度越高,热度值越高;并且不依赖于特定的数据源,可以应用于不同的场景。

3、但是其在实际使用时,仍旧存在较多缺点,如传统的新媒体主题词的热度计算方法仅采集文章的点击量、分享量、评论量,以及点赞量,用于计算出热度值,其热度值不够准确;通常预测的热度值是基于历史新媒体主题词的热度值进行预测,存在预测的热度值和实际的热度值偏差极大的风险。


技术实现思路

1、为了克服现有技术的上述缺陷,本专利技术提供一种新媒体主题词的热度计算方法,通过搜索引擎采集近一月用户搜索记录,对搜索次数进行词频统计,计算词频增长速度;根据新媒体主题词检索出来的文章进行新媒体主题词文章热度分析,根据词频增长速度、历史词频,以及新媒体主题词文章热度进行新媒体主题词的热度计算,从而得到更为精准的新媒体主题词的热度;将新媒体主题词的热度q以及预先设定的新媒体主题词的热度q0,进行差异值γ计算,并将差异值γ和差异值阈值γ阈进行判断对比,根据判断对比结果对数据库中存储的新媒体主题词拆分后的主题词热度分值进行修正,从而降低预先设定的新媒体主题词的热度与实际新媒体主题词的热度差异大的风险,以解决上述
技术介绍
中提出的问题。

2、为实现上述目的,本专利技术提供如下技术方案:

3、步骤s1、根据某平台的搜索引擎采集近一月用户搜索记录,将搜索记录中的搜索关键词作为新媒体主题词,并将其新媒体主题词数据集合记作a{a1,a2,……,a|a|};

4、步骤s2、将采集到的新媒体主题词数据集根据新媒体主题词搜索次数进行词频统计,其中将今天之前的词频记作历史词频,今天的词频记作当前词频;

5、步骤s3、根据新媒体主题词的历史词频和当前词频进行词频增长速度分析,将其词频增长速度存储至数据库中;

6、步骤s4、利用爬虫技术采集新媒体主题词通过搜索引擎检索出来的对应文章数据,根据文章数据进行热度分析,其中采集的每一篇文章具有初始热度,文章浏览量,文章收藏量,文章评论量,以及文章分享量;

7、步骤s5、根据词频增长速度、历史词频,以及新媒体主题词文章热度数据,分析评估出新媒体主题词的热度;

8、步骤s6、根据新媒体主题词的热度q,预先设定的新媒体主题词的热度q0,进行差异值γ计算;

9、步骤s7、将差异值γ和差异值阈值γ阈进行判断对比,根据判断对比结果对数据库中存储的新媒体主题词拆分后的主题词热度分值进行修正。

10、在一个优选地实施方式中,所述新媒体主题词数据集合的具体采集方式为:根据某平台搜索引擎后台自动采集的近一月用户ip地址、搜索关键词、浏览器类型、操作系统和设备信息,将其加密存储至数据库中,将搜索引擎的搜索关键词执行解密操作作为新媒体主题词,记作a{a1,a2,……,a|a|},并存储为一个csv格式的新媒体主题词文件。

11、在一个优选地实施方式中,所述词频统计的具体统计过程为:通过编程实现读取新媒体主题词文件,通过拆分得到单词数组,定义一个哈希映射保存词频统计结果,遍历单词数组,最终得到新媒体主题词词频统计数据;依据今天的日期将今天和今天之前的新媒体主题词词频统计数据区分开来,分别记作当前词频和历史词频。

12、在一个优选地实施方式中,所述词频增长速度分析的具体分析过程为:根据历史词频m0和当前词频m,计算词频增长速度,其计算公式为:其中c表示为词频增长速度,△t表示为时间差值,λ表示为影响因子。

13、在一个优选地实施方式中,所述热度分析的具体分析过程为:

14、将新媒体主题词通过搜索引擎进行检索,根据检索出来的所有文章利用网络爬虫技术进行采集,采集的数据包括文章初始热度s0,文章浏览量li,文章收藏量ci,文章评论量pi,以及文章分享量fi;其中文章初始热度为变量,不同类型文章的初始热度不同;

15、根据采集的数据进行新媒体主题词对应文章热度计算,其新媒体主题词文章热度的计算公式为:

16、其中s表示为新媒体主题词文章热度,r1,r2,r3,r4表示为比例系数,k表示为热度随时间衰减因子,t1表示为当前时间,t0表示为初始时间,λ表示为影响因子。

17、在一个优选地实施方式中,所述新媒体主题词的热度的具体分析过程为:

18、根据新媒体主题词的词频增长速度c与新媒体主题词的词频增长速度阈值c阈进行对比,若c<c阈则表示为不符合词频增长速度预期,若c≥c阈则表示为符合词频增长速度预期,将其符合词频增长速度预期的各新媒体主题词根据历史词频数据e和历史词频阈值数据e阈进行对比,若e>e阈则表示为不符合历史词频预期,若e≤e阈则表示为符合历史词频预期,筛选出的符合历史词频预期的数据,进行新媒体主题词的热度计算;

19、根据筛选出的新媒体主题词的词频增长速度和新媒体主题词文章热度计算出新媒体主题词的热度,其计算公式为:q=φ*s*c*λ,其中q表示为新媒体主题词的热度,s表示为新媒体主题词文章热度,c表示为词频增长速度,表示为冷却系数,λ表示为影响因子。

20、在一个优选地实施方式中,所述预先设定的新媒体主题词的热度q0具体是根据数据库中存储的新媒体主题词拆分后的主题词热度分值进行设定的,例如“如何进行有效沟通”新媒体主题词,数据库中存在“如何”,“进行”,“有效沟通”的拆分词,并且给与这些拆分词一定的热度分值,将其根据拆分词权重评估得到预先设定新媒体主题词的热度q0;

21、根据新媒体主题词的热度q,预先设定的新媒体主题词的热度q0,进行差异值计算,其计算公式为:γ=|q-q0|+λ,其中γ表示为差异值,q表示为新媒体主题词的热度,q0表示为预先设定的新媒体主题词的热度,λ表示为影响因子。

22、在一个优选地实施方式中,所述主题词热度分值的修正过程具体为:若γ<γ阈则表示为新媒体主题词的热度和预先设定的新媒体主题词的热度差异符合预期,若γ≥γ阈则表示为新媒体主题词的热度和预先设定的新媒体主题词的热度差异不符合预期,需要通过修正因子ω对数据库中存储的新媒体主题词拆分后的主题词热度分值进行修正,得到新的主题词热度分值用于新媒体主题词的差异值维护。

23、本专利技术的技术效果和优点:

24、本专利技术提供了一种新媒体主题本文档来自技高网...

【技术保护点】

1.一种新媒体主题词的热度计算方法,其特征在于:包括:

2.根据权利要求1所述的一种新媒体主题词的热度计算方法,其特征在于:所述新媒体主题词数据集合的具体采集方式为:根据某平台搜索引擎后台自动采集的近一月用户IP地址、搜索关键词、浏览器类型、操作系统和设备信息,将其加密存储至数据库中,将搜索引擎的搜索关键词执行解密操作作为新媒体主题词,记作A{a1,a2,……,a|A|},并存储为一个csv格式的新媒体主题词文件。

3.根据权利要求1所述的一种新媒体主题词的热度计算方法,其特征在于:所述词频统计的具体统计过程为:通过编程实现读取新媒体主题词文件,通过拆分得到单词数组,定义一个哈希映射保存词频统计结果,遍历单词数组,最终得到新媒体主题词词频统计数据;依据今天的日期将今天和今天之前的新媒体主题词词频统计数据区分开来,分别记作当前词频和历史词频。

4.根据权利要求1所述的一种新媒体主题词的热度计算方法,其特征在于:所述词频增长速度分析的具体分析过程为:根据历史词频M0和当前词频M,计算词频增长速度,其计算公式为:其中C表示为词频增长速度,△t表示为时间差值,λ表示为影响因子。

5.根据权利要求1所述的一种新媒体主题词的热度计算方法,其特征在于:所述热度分析的具体分析过程为:

6.根据权利要求1所述的一种新媒体主题词的热度计算方法,其特征在于:所述新媒体主题词的热度的具体分析过程为:

7.根据权利要求1所述的一种新媒体主题词的热度计算方法,其特征在于:所述预先设定的新媒体主题词的热度Q0具体是根据数据库中存储的新媒体主题词拆分后的主题词热度分值进行设定的;

8.根据权利要求1所述的一种新媒体主题词的热度计算方法,其特征在于:所述主题词热度分值的修正过程具体为:若γ<γ阈则表示为新媒体主题词的热度和预先设定的新媒体主题词的热度差异符合预期,若γ≥γ阈则表示为新媒体主题词的热度和预先设定的新媒体主题词的热度差异不符合预期,需要通过修正因子ω对数据库中存储的新媒体主题词拆分后的主题词热度分值进行修正,得到新的主题词热度分值用于新媒体主题词的差异值维护。

...

【技术特征摘要】

1.一种新媒体主题词的热度计算方法,其特征在于:包括:

2.根据权利要求1所述的一种新媒体主题词的热度计算方法,其特征在于:所述新媒体主题词数据集合的具体采集方式为:根据某平台搜索引擎后台自动采集的近一月用户ip地址、搜索关键词、浏览器类型、操作系统和设备信息,将其加密存储至数据库中,将搜索引擎的搜索关键词执行解密操作作为新媒体主题词,记作a{a1,a2,……,a|a|},并存储为一个csv格式的新媒体主题词文件。

3.根据权利要求1所述的一种新媒体主题词的热度计算方法,其特征在于:所述词频统计的具体统计过程为:通过编程实现读取新媒体主题词文件,通过拆分得到单词数组,定义一个哈希映射保存词频统计结果,遍历单词数组,最终得到新媒体主题词词频统计数据;依据今天的日期将今天和今天之前的新媒体主题词词频统计数据区分开来,分别记作当前词频和历史词频。

4.根据权利要求1所述的一种新媒体主题词的热度计算方法,其特征在于:所述词频增长速度分析的具体分析过程为:根据历史词频m0和当前词频m,计算词...

【专利技术属性】
技术研发人员:申文彬孙浩睿
申请(专利权)人:四川传媒学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1