一种剧集在全网整体热度的量化计算方法技术

技术编号:38570282 阅读:19 留言:0更新日期:2023-08-22 21:05
本发明专利技术公开了一种剧集在全网整体热度的量化计算方法,包括以下步骤:S1、建立剧集全网热度量化算法的详细运行机制;S2、设定防作弊机制,采用多个不同定位维度的互联网平台数据元素作为计算基础;并设置了单一维度的热度非线性递增机制;S3、确定算法机制,降低其增长速度;降速系数t1的选择,对三年内电视剧项目在本搜索引擎热度每日峰值进行排序,通过降速系数的调制幅度后,让指定范围内的数据能控制在线性增长范围;通过多种类的热度指标数据,通过对各大主流媒体平台的热度加权,得到剧集新闻媒体热度,避免依赖于视频网站站内数据的问题,本专利申请的算法,已成功运行5年,基本解决了剧集数据跨平台的剧集热度可比、电视剧与网剧热度可比的问题。网剧热度可比的问题。网剧热度可比的问题。

【技术实现步骤摘要】
一种剧集在全网整体热度的量化计算方法


[0001]本专利技术涉及剧集全网热度量化算法的详细运行机制
,具体为一种剧集在全网整体热度的量化计算方法。

技术介绍

[0002]目前社会上的剧集播出渠道,主要有:电视台播出、长视频平台播出。同一部剧集,可能在电视台、长视频平台先后或者同时播出,并可能经历多次播出。统计评价电视台播出的效果,一般采用广电总局CVB指数;但目前大部分剧集都在长视频平台率先播出,为了统计在长视频平台站内播出效果,各大视频平台推出了自有的计算方式,一般称之为播放量,但各大视频平台的播放量定义并不统一,譬如是基于点击、还是连续流量,用户留存多少分钟算一次播放量,周边花絮等是否计入该剧集项目的播放量等,都没有统一标准,同平台的剧集效果形成黑盒,跨平台的剧集难以进行统一比较。这样,造成制作方难以评价自身、同行制作效果的好坏,广告投放主或者二轮、三轮购置意向方、海外发行方也难以评估该项目的投放及购买价值。
[0003]现有的处理方法存在一下缺陷:
[0004]1.对跨平台数据的权重系数,需要参考主流发布的平台流量数据;
[0005]2.由于大量采用反作弊机制,对数据跟随的灵敏度有一定影响,不适合作为剧集在全网整体热度的量化计算。

技术实现思路

[0006]本专利技术的目的在于提供一种剧集在全网整体热度的量化计算方法,以解决上述
技术介绍
中提出的问题。
[0007]为实现上述目的,本专利技术提供如下技术方案:
[0008]一种剧集在全网整体热度的量化计算方法,包括以下步骤:
[0009]S1、建立剧集全网热度量化算法的详细运行机制,主要针对电视剧(含网络剧)首播市场中的项目进行每日、每周、每月、每年的热度评价;
[0010]S2、设定防作弊机制,具体步骤包括:
[0011]S2.1、采用多个不同定位维度的互联网平台数据元素作为计算基础;
[0012]S2.2、对来自单个平台的数据可信性采用了互相校核的方式;并设置了单一维度的热度非线性递增机制,对爆发式增长的潜在刷分嫌疑数据,不予采用;
[0013]S2.3、对全部平台维度,考核其不平衡程度,并作为扣减打分的权重项;
[0014]S2.4、对真人水军:考虑到绝大部分水军具有素质不高、并惯于片面采用大量固定词语的特征,根据自然语言分析技术,分析其语料丰富程度和语义的自然程度,以甄别真人水军,并对相关数据不予采用;
[0015]S3、确定算法机制:单剧当日热度评分=F1+F2+F3+F4+F5+F6+F7+F8

F9;
[0016]单剧当日热度评分=∑(F1+F2+F3+F4+F5+F6+F7+F8)

F9;
[0017]其中,F1为搜索引擎热度+F2为短视频平台权重热度+F3为新闻媒体热度+F4为自媒体热度、F5为娱乐核心论坛关注热度、F6为社交平台热度、F7为即时通信平台热度、F8为下沉平台热度、F9为各大维度不平衡度。
[0018]作为优选的技术方案,所述搜索引擎热度:
[0019]F1=∑f1
×
K1+f2
×
k2+

+fn
×
kn;
[0020]其中,k1,
……
kn表示该搜索引擎的市占比权重。k1
……
kn的选取,参考主流统计机构公开发布的最新时间周期的该搜索引擎的流量市占比。
[0021]作为优选的技术方案,对单一搜索引擎内部:
[0022]f1=P+IF
×
t1(IF>P)
[0023]其中,本引擎限顶值P为对三年内电视剧项目在本搜索引擎热度每日峰值进行排序,取指定概率到达的高值,目的是对超过限定值的数据,降低其增长速度;降速系数t1的选择,对三年内电视剧项目在本搜索引擎热度每日峰值进行排序,通过降速系数的调制幅度后,让指定范围内数据能控制在线性增长范围。
[0024]作为优选的技术方案,所述热度指标指的是:不同的短视频平台有不同的热度指标,主要包括单视频播放量、点赞数、转发数、评论数、弹幕数等,统称为热度指标1,热度指标2,
……
热度指标n;
[0025]此类热度指标的特征是,直观,属于第一手可溯源数据,但有一定几率存在数据造假,需要进行数据比对和数据清洗;
[0026]其中,本引擎限顶值1,
……
,n=对三年内电视剧项目在本短视频平台热度指标1,
……
,热度指标n每日峰值分别进行排序,取指定概率到达的高值,目的是对超过限顶值的数据,降低其增长速度;
[0027]降速系数t1,
……
,tn的选择,目标是,对三年内电视剧项目在本短视频平台热度指标1

n的每日峰值分别进行排序,通过降速系数1,
……
,n的调制幅度后,使得指定范围内的数据能控制在线性增长范围;
[0028]对平台内的同个剧目项目的多个热度指标,在完成幅度调制后,还需要做防作弊处理:对同项目多个热度指标维度的交互特征进行考核,显著超过交互特征分布的数据,强行规置到交互特征分布以内。
[0029]作为优选的技术方案,以剧集在某短视频平台的热度数据计算为例:
[0030]计算用剧集原始数据包括:日期、当日浏览用户数(user_count)、当日浏览数(view_count),调制后用户数计算公式为:
[0031][0032]单用户浏览数=V1/U1,其中:V1为调制后浏览数,
[0033]每万浏览的用户粘性=U1/V1;
[0034]f=MIN
(输出浏览数)
,IF
(
[
单用户浏览数]>用户用户浏览常数,常数
×
[输出浏览数],[输出用户])
+MIN
(输出浏览数)
,IF
([每万浏览的用户粘性]>用户用户粘性常
[0035]其中,浏览特性与用户粘性的反复对比,用于防止作弊。
[0036]作为优选的技术方案,媒体平台相对于短视频平台的主要差异特征是,没有播放量数据,但多数平台有文章篇数、文章点赞数、文章反对数、文章评论数等热度指标数据,通
过对各大主流媒体平台的热度加权,得到剧集新闻媒体热度。
[0037]作为优选的技术方案,f5(娱乐核心论坛关注热度)=f(论坛热度关注)+f(论坛语料贡献)
[0038]f(论坛热度关注)=f(提及该剧集项目的发贴量,回帖量,点赞数)
[0039]热度指标包括:当日新增的发帖量、回帖量、点赞数;
[0040]f=f1
×
权重1+f2
×
权重2+......+fn
×
权重n
[0041]其中:f为论坛语料贡献,f1为提及该剧集项目的语料元素
...

【技术保护点】

【技术特征摘要】
1.一种剧集在全网整体热度的量化计算方法,其特征在于:包括以下步骤:S1、建立剧集全网热度量化算法的详细运行机制,主要针对电视剧(含网络剧)首播市场中的项目进行每日、每周、每月、每年的热度评价;S2、设定防作弊机制,具体步骤包括:S2.1、采用多个不同定位维度的互联网平台数据元素作为计算基础;S2.2、对来自单个平台的数据可信性采用了互相校核的方式;并设置了单一维度的热度非线性递增机制,对爆发式增长的潜在刷分嫌疑数据,不予采用;S2.3、对全部平台维度,考核其不平衡程度,并作为扣减打分的权重项;S2.4、对真人水军:考虑到绝大部分水军具有素质不高、并惯于片面采用大量固定词语的特征,根据自然语言分析技术,分析其语料丰富程度和语义的自然程度,以甄别真人水军,并对相关数据不予采用;S3、确定算法机制:单剧当日热度评分=F1+F2+F3+F4+F5+F6+F7+F8

F9;单剧当日热度评分=∑(F1+F2+F3+F4+F5+F6+F7+F8)

F9;其中,F1为搜索引擎热度+F2为短视频平台权重热度+F3为新闻媒体热度+F4为自媒体热度、F5为娱乐核心论坛关注热度、F6为社交平台热度、F7为即时通信平台热度、F8为下沉平台热度、F9为各大维度不平衡度。2.根据权利要求1所述的一种剧集在全网整体热度的量化计算方法,其特征在于:所述搜索引擎热度F1=∑f1
×
K1+f2
×
k2+

+fn
×
kn;其中,k1,
……
kn表示该搜索引擎的市占比权重。k1
……
kn的选取,参考主流统计机构公开发布的最新时间周期的该搜索引擎的流量市占比。3.根据权利要求2所述的一种剧集在全网整体热度的量化计算方法,其特征在于:对单一搜索引擎内部:f1=P+IF
×
t1(IF>P)其中,本引擎限顶值P为对三年内电视剧项目在本搜索引擎热度每日峰值进行排序,取指定概率内到达的高值,目的是对超过限定值的数据,降低其增长速度;降速系数t1的选择,对三年内电视剧项目在本搜索引擎热度每日峰值进行排序,通过降速系数的调制幅度后,让指定范围比例的数据能控制在线性增长范围。4.根据权利要求1所述的一种剧集在全网整体热度的量化计算方法,其特征在于:所述热度指标指的是:不同的短视频平台有不同的热度指标,主要包括单视频播放量、点赞数、转发数、评论数、弹幕数等,统称为热度指标1,热度指标2,
……
热度指标n;此类热度指标的特征是,直观,属于第一手可溯源数据,但有一定几率存在数据造假,需要进行数据比对和数据清洗;其中,本引擎限顶值1,
……
,n=对三年内电视剧项目在本短视频平台热度指标1,
……
,热度指标n每日峰值分别进行排序,取指定概率到达的高值,目的是对超过限顶值的数据,降低其增长速度;降速系数t1,
……
,tn的选择,目标是,对三年内电视剧项目在本短视频平台热度指标1

n的每日峰值分别进行排序,通过降速系数1,
……
,n的调制幅度后,使得指定...

【专利技术属性】
技术研发人员:陈涛王常桢尚远
申请(专利权)人:重庆德塔文科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1