一种社交媒体信息的总曝光量批量挖掘方法及装置制造方法及图纸

技术编号:26504818 阅读:53 留言:0更新日期:2020-11-27 15:32
本发明专利技术实施例提供一种社交媒体信息的总曝光量批量挖掘方法及装置,按照预设周期遍历待挖掘的N条社交媒体信息,生成N条行数据L;根据预先构造的基于键值对数据结构的计数器组C,遍历一次所有的N条行数据L,获得N条行数据L对应的计数器组C’;根据每条社交媒体信息自身的曝光次数pv和本条社交媒体信息的所述转发列表rlist,递归地确定每个计数器对应的每条社交媒体信息的总曝光量。使用这种社交媒体信息的总曝光量批量挖掘流程之后,现在这个总曝光是可以快速计算,这个算法只对数据进行了一次遍历就能找出这段时间内所有信息的总曝光量,并且是足够迅速和准确的。

【技术实现步骤摘要】
一种社交媒体信息的总曝光量批量挖掘方法及装置
本专利技术涉及数据分析和数据挖掘领域,具体地涉及社交媒体信息的总曝光量批量挖掘方法及装置。
技术介绍
社交媒体上用户可以发信息,可以转发别人的信息,可以给任意一信息点赞和评论等操作。在现代的社交媒体中,每条信息的总曝光量是非常重要的数据,其可以作为搜索排名的重要依据。但其计算较为困难,因为首先它是一个实时的不断增长的数字,而且随着转发链越来越长,需要计算的地方就越来越多。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:对于一些产生了多级转发的情况总曝光可能和一阶曝光相差很多,现在需要一种方法来足够迅速和准确地计算某信息的总曝光量。
技术实现思路
本专利技术实施例提供一种社交媒体信息的总曝光量批量挖掘方法及装置,以迅速和准确地计算某些社交媒体信息的总曝光量。第一方面,本专利技术实施例提供了一种社交媒体信息的总曝光量批量挖掘方法,其包括:按照预设周期遍历待挖掘的N条社交媒体信息,生成N条行数据L,N为正整数;其中,针对每条社交媒体信息,执行如下处理:本文档来自技高网...

【技术保护点】
1.一种社交媒体信息的总曝光量批量挖掘方法,其特征在于,包括:/n按照预设周期遍历待挖掘的N条社交媒体信息,生成N条行数据L,N为正整数;其中,针对每条社交媒体信息,执行如下处理:从本条社交媒体信息中提取特征数据并将提取的特征数据按顺序排列成一行以形成一条行数据L,所述特征数据包括本条社交媒体信息的标识mid、本条社交媒体信息的转发标志rmid、本条社交媒体信息自身的曝光次数pv;/n根据预先构造的基于键值对数据结构的计数器组C,遍历N条行数据L,获得N条行数据L对应的计数器组C’;其中,所述计数器组C’中包括N个计数器,每个计数器对应于一条行数据L,并且每个计数器包括:本条社交媒体信息的标识...

【技术特征摘要】
1.一种社交媒体信息的总曝光量批量挖掘方法,其特征在于,包括:
按照预设周期遍历待挖掘的N条社交媒体信息,生成N条行数据L,N为正整数;其中,针对每条社交媒体信息,执行如下处理:从本条社交媒体信息中提取特征数据并将提取的特征数据按顺序排列成一行以形成一条行数据L,所述特征数据包括本条社交媒体信息的标识mid、本条社交媒体信息的转发标志rmid、本条社交媒体信息自身的曝光次数pv;
根据预先构造的基于键值对数据结构的计数器组C,遍历N条行数据L,获得N条行数据L对应的计数器组C’;其中,所述计数器组C’中包括N个计数器,每个计数器对应于一条行数据L,并且每个计数器包括:本条社交媒体信息的标识mid、本条社交媒体信息自身的曝光次数pv,本条社交媒体信息的被转发列表rlist;
根据每条社交媒体信息自身的曝光次数pv和本条社交媒体信息的被转发列表rlist,递归地确定每个计数器对应的社交媒体信息的总曝光量T;
所述本条社交媒体信息的转发标志rmid中包括由本条社交媒体信息转发的其他社交媒体信息的标识或者用于表示本条社交媒体信息没有转发其他社交媒体信息的指示符;所述本条社交媒体信息的被转发列表rlist中包括本条社交媒体信息被转发的其他社交媒体信息的标识或者用于表示本条社交媒体信息没有被其他社交媒体信息转发的空值。


2.根据权利要求1所述的方法,其特征在于,所述根据每条社交媒体信息自身的曝光次数pv和本条社交媒体信息的被转发列表rlist,递归地确定每个计数器对应的社交媒体信息的总曝光量T,具体包括:
步骤S0:提取当前计数器对应的社交媒体信息的标识mid,执行步骤S1确定当前提取标识的社交媒体信息的总曝光量T;
步骤S1:确定当前提取标识的社交媒体信息的总曝光量T为本条社交媒体信息自身的曝光次数pv、与本条社交媒体信息的被转发列表rlist中包含的所有其他社交媒体信息各自对应的总曝光量的和值;
步骤S2:判断步骤S1中本条社交媒体信息的被转发列表rlist是否为空值,如果不为空值,则执行步骤S3,如果为空值,则执行步骤S4;
步骤S3:依次提取步骤S1中本条社交媒体信息的被转发列表rlist中包含的所有其他社交媒体信息的标识,并返回执行步骤S1确定当前提取标识的社交媒体信息的总曝光量T;
步骤S4:确定步骤S1中本条社交媒体信息的被转发列表rlist对应的总曝光量为0,进一步确定步骤S1中本条社交媒体信息的总曝光量T为本条社交媒体信息自身的曝光次数pv;直至确定出当前计数器对应的社交媒体信息的总曝光量T,流程结束。


3.根据权利要求1所述的方法,其特征在于,所述根据预先构造的基于键值对数据结构的计数器组C,遍历N条行数据L,获得N条行数据L对应的计数器组C’,具体包括:
针对每一条行数据L,假设当前行数据L的取值为mid0rmid0pv0,如果计数器组C’中没有mid0对应的计数器,则在该计数器组C’中建立一项mid0对应的计数器mid0:{pv:pv0,rlist:[]},再在该计数器组C’中查找主键为rmid0的计数器,在其被转发列表rlist中加入mid0。


4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在递归地确定每个计数器对应的社交媒体信息的总曝光量T之后,按照所有计数器的总曝光量进行降序排序,取设定数量的总曝光量最高的计数器对应的社交媒体信息的标识mid,获得总曝光量最多的设定数量的社交媒体信息;或者,设定所有的行数据L中的社交媒体信息自身的曝光次数pv均为固定值,将每条社交媒体信息的总曝光量T与所述固定值之差作为每条社交媒体信息的总转发数,根据每条社交媒体的总转发数确定总转发数最高的社交媒体信息。


5.一种社交媒体信息的总曝光量批量挖掘装置,其特征在于,包括:
第一遍历模块,用于按照预设周期遍历待挖掘的N条社交媒体信息,生成N条行数据L,N为正整数;...

【专利技术属性】
技术研发人员:王嘉伟
申请(专利权)人:微梦创科网络科技中国有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1