System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种数据处理方法、装置、电子设备及存储介质制造方法及图纸_技高网

一种数据处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:41709682 阅读:19 留言:0更新日期:2024-06-19 12:39
本申请涉及一种数据处理方法、装置、电子设备及存储介质,方法包括:获取预设时间段内的视频消费数据集,视频类型标签属于视频类型标签集;根据视频消费数据集,确定视频类型标签集中的每个视频类型标签在视频消费数据集中所出现的第一频率;根据视频类型标签集中的所有视频类型标签在视频消费数据集中所出现的第一频率,确定最小支持度和最小置信度;根据视频消费数据集、最小支持度、最小置信度和关联规则挖掘Apriori算法,对视频类型标签集之间的关联规则进行挖掘,以得到各个目标关联规则。本申请避免了人工设置最小置信度和最小支持度而影响到不同视频类型标签之间的关联规则的准确确定。

【技术实现步骤摘要】

本申请涉及数据处理,尤其涉及一种数据处理方法、装置、电子设备及存储介质


技术介绍

1、对于视频平台的短视频业务,需要对视频平台的消费用户不断的进行探索和深挖,以分析用户对视频平台的不同视频类型的短视频的消费偏好程度,从而为视频平台的短视频内容的供给提高主要的方向和思路,以更好的服务视频平台的消费用户,进而带动视频平台的短视频的消费。目前,对视频平台的消费用户进行探索和深挖时,通常通过关联规则挖掘apriori算法对某一时间段内视频平台的所有视频消费数据进行分析,以挖掘不同视频类型之间的关联规则,从而为视频平台的消费用户进行精准推荐短视频。

2、然而,在利用apriori算法挖掘不同视频类型之间的关联规则时,通常需要人工根据经验设置最小支持度和最小置信度。但由于人工存在主观性,从而会使得所设置的最小支持度和最小置信度不合理,进而会影响到不同视频类型之间的关联规则的准确确定。


技术实现思路

1、鉴于此,为解决上述技术问题或部分技术问题,本申请实施例提供一种数据处理方法、装置、电子设备及存储介质。

2、第一方面,本申请提供了一种数据处理方法,包括:

3、获取预设时间段内的视频消费数据集,所述视频消费数据集中的每个视频消费数据包括一个或多个视频类型标签,所述视频类型标签属于视频类型标签集;

4、根据所述视频消费数据集,确定所述视频类型标签集中的每个所述视频类型标签在所述视频消费数据集中所出现的第一频率;

5、根据所述视频类型标签集中的所有所述视频类型标签在所述视频消费数据集中所出现的所述第一频率,确定最小支持度和最小置信度;

6、根据所述视频消费数据集、所述最小支持度、所述最小置信度和关联规则挖掘apriori算法,对所述视频类型标签集之间的关联规则进行挖掘,以得到各个目标关联规则。

7、在一个可选的实施方式中,所述根据所述视频类型标签集中的所有所述视频类型标签在所述视频消费数据集中所出现的所述第一频率,确定最小支持度和最小置信度,包括:

8、将所述视频类型标签集中的所有所述视频类型标签在所述视频消费数据集中所出现的所述第一频率按照由小至大的顺序进行排序,以得到目标排序结果;

9、从所述目标排序结果中确定出预设分位数对应的第一目标频率,及从所述目标排序结果中确定出满足预设条件的所有所述第一频率,所述预设条件包括所述第一频率小于所述第一目标频率;

10、从所述视频消费数据集中确定出满足所述预设条件的各个所述第一频率对应的所有所述视频消费数据;

11、根据满足所述预设条件的各个所述第一频率对应的所有所述视频消费数据,确定最小支持度;

12、根据所述最小支持度,确定最小置信度。

13、在一个可选的实施方式中,所述根据满足所述预设条件的各个所述第一频率对应的所有所述视频消费数据,确定最小支持度,包括:

14、确定满足所述预设条件的所有所述第一频率对应的所有所述视频消费数据的第一总个数,及确定所述视频消费数据集中的所有所述视频消费数据的第二总个数;

15、确定所述第一总个数与所述第二总个数之间的第一比值,及确定所述第一比值与预设比值阈值之间的目标比较结果;

16、根据所述目标比较结果,确定最小支持度。

17、在一个可选的实施方式中,所述根据所述目标比较结果,确定最小支持度,包括:

18、在所述目标比较结果为所述第一比值大于所述预设比值阈值时,将所述第一目标频率确定为最小支持度;

19、在所述目标比较结果为所述第一比值小于或等于所述预设比值阈值时,从所述视频消费数据集中删除满足所述预设条件的各个所述第一频率对应的所有所述视频消费数据,以完成所述视频消费数据集的更新;

20、将更新后的所述视频消费数据集作为所述视频消费数据集,并返回执行所述根据所述视频消费数据集,确定所述视频类型标签集中的每个所述视频类型标签在所述视频消费数据集中所出现的第一频率步骤,直至所述目标比较结果为所述第一比值大于所述预设比值阈值时,将所述第一目标频率确定为最小支持度。

21、在一个可选的实施方式中,所述根据所述最小支持度,确定最小置信度,包括:

22、从所述目标排序结果中确定出第二目标频率,所述第二目标频率为所述目标排序结果中最大的所述第一频率;

23、确定所述最小支持度与所述第二目标频率之间的第二比值;

24、将所述第二比值确定为最小置信度。

25、在一个可选的实施方式中,所述根据所述视频消费数据集、所述最小支持度、所述最小置信度和关联规则挖掘apriori算法,对所述视频类型标签集之间的关联规则进行挖掘,以得到各个目标关联规则,包括:

26、根据所述视频消费数据集,确定多个候选项集,所述候选项集中每个候选项集包括一个或多个所述视频类型标签;

27、确定每个所述候选项集对应的目标支持度;

28、根据所述最小支持度和所有所述候选项集对应的所述目标支持度,从多个所述候选项集中确定出至少一个频繁项集,所述频繁项集包括至少两个所述视频类型标签;

29、根据所述最小置信度和至少一个所述频繁项集,确定所述视频类型标签集之间的各个目标关联规则。

30、在一个可选的实施方式中,所述根据所述最小支持度和所有所述候选项集对应的所述目标支持度,从多个所述候选项集中确定出至少一个频繁项集,包括:

31、从多个所述候选项集中确定出所述目标支持度大于所述最小支持度的所有所述候选项集;

32、将每个所述目标支持度大于所述最小支持度的所述候选项集确定为频繁项集,以得到至少一个所述频繁项集;

33、所述根据所述最小置信度和至少一个所述频繁项集,确定所述视频类型标签集之间的各个目标关联规则,包括:

34、确定每个所述频繁项集对应的目标置信度;

35、从至少一个所述频繁项集中确定出所述目标置信度大于所述最小置信度的所有所述频繁项集;

36、针对每个所述目标置信度大于所述最小置信度的所述频繁项集,将所述频繁项集中所有所述视频类型标签之间的关系确定为目标关联规则,以得到所述视频类型标签集之间的各个所述目标关联规则。

37、第二方面,本申请提供了一种数据处理装置,包括:

38、获取模块,用于获取预设时间段内的视频消费数据集,所述视频消费数据集中的每个视频消费数据对应有一个或多个视频类型标签,所述视频类型标签属于视频类型标签集;

39、确定模块,用于根据所述视频消费数据集,确定所述视频类型标签集中的每个所述视频类型标签在所述视频消费数据集中所出现的第一频率;

40、所述确定模块,还用于根据所述视频类型标签集中的所有所述视频类型标签在所述视频消费数据集中所出现的所述第一频率,确定最小支持度和最小置信度;

41、处理本文档来自技高网...

【技术保护点】

1.一种数据处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述视频类型标签集中的所有所述视频类型标签在所述视频消费数据集中所出现的所述第一频率,确定最小支持度和最小置信度,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据满足所述预设条件的各个所述第一频率对应的所有所述视频消费数据,确定最小支持度,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述目标比较结果,确定最小支持度,包括:

5.根据权利要求2所述的方法,其特征在于,所述根据所述最小支持度,确定最小置信度,包括:

6.根据权利要求1所述的方法,其特征在于,所述根据所述视频消费数据集、所述最小支持度、所述最小置信度和关联规则挖掘Apriori算法,对所述视频类型标签集之间的关联规则进行挖掘,以得到各个目标关联规则,包括:

7.根据权利要求6所述的方法,其特征在于,所述根据所述最小支持度和所有所述候选项集对应的所述目标支持度,从多个所述候选项集中确定出至少一个频繁项集,包括:

8.一种数据处理装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:处理器和存储器,处理器用于执行存储器中存储的数据处理程序,以实现权利要求1~7中任一项的数据处理方法。

10.一种存储介质,其特征在于,存储介质存储有一个或者多个程序,一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1~7中任一项的数据处理方法。

...

【技术特征摘要】

1.一种数据处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述视频类型标签集中的所有所述视频类型标签在所述视频消费数据集中所出现的所述第一频率,确定最小支持度和最小置信度,包括:

3.根据权利要求2所述的方法,其特征在于,所述根据满足所述预设条件的各个所述第一频率对应的所有所述视频消费数据,确定最小支持度,包括:

4.根据权利要求3所述的方法,其特征在于,所述根据所述目标比较结果,确定最小支持度,包括:

5.根据权利要求2所述的方法,其特征在于,所述根据所述最小支持度,确定最小置信度,包括:

6.根据权利要求1所述的方法,其特征在于,所述根据所述视频消费数据集、所述最小...

【专利技术属性】
技术研发人员:赵艳杰
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1