计算直播间相似度的方法、存储介质、设备及系统技术方案

技术编号:18501543 阅读:30 留言:0更新日期:2018-07-21 22:47
本发明专利技术公开了一种计算直播间相似度的方法、存储介质、设备及系统,涉及大数据推荐领域,该方法包括以下步骤:在时间周期内将所有直播间分为热门直播间和非热门直播间。判断用户观看行为是否为有效观看行为,确定每个用户有效观看的直播间的数量。任意选取第一直播间和第二直播间,统计有效观看了第一直播间的第一用户集合以及有效观看了第二直播间的第二用户集合。确定同时有效观看了第一直播间和第二直播间的第三用户集合,获取第三用户集合中的每个用户最后一次观看第一直播间的时间与最后一次观看第二直播间的时间的间隔。计算第一直播间和第二直播间的相似度。本发明专利技术能有效降低热门直播间在计算中带来的负面影响,相似性度量较为全面。

Method for calculating similarity of live broadcast, storage medium, device and system

The invention discloses a method, a storage medium, a device and a system for calculating the similarity of live broadcast, which involves the following steps: all the live broadcast rooms are divided into hot live and non hot live rooms during the time period. Determine whether the user's viewing behavior is an effective viewing behavior, and determine the number of live rooms that each user can watch effectively. The first live room and the second live studio are selected, and the collection of first users between the first live broadcast and the second users of the second live broadcast are effectively watched. At the same time, it is determined that the set of third users between the first live and the second live is effectively watched, and the interval between the last time of watching the first live room and the last time of watching the second live live is obtained by each user of the third user set. The similarity between the first live broadcast and the second live broadcast is calculated. The invention can effectively reduce the negative influence brought by the popular live broadcasting rooms in computation, and the similarity measurement is more comprehensive.

【技术实现步骤摘要】
计算直播间相似度的方法、存储介质、设备及系统
本专利技术涉及大数据推荐领域,具体涉及一种计算直播间相似度的方法、存储介质、设备及系统。
技术介绍
在大数据的应用领域中,一个重要的方向是根据海量数据对用户进行个性化推荐。在直播平台中,常用的推荐策略是推荐用户看过房间相似的房间,因此需要对直播间的相似度进行度量。此外,在一些基于物品的协同过滤推荐算法中,也需要计算直播间两两之间的相似度。通常计算物品相似度的算法有以下两种,这些算法被广泛使用,但在直播房间推荐中都存在一些问题。(1)余弦距离:该算法将每个用户对房间的观看行为作为向量的一个维度,房间之间的相似度采用余弦公式计算,该方法的缺点在于在用户的推荐集中都会出现头部热门主播;抗噪声的能力不强,经常会出现一些错误的度量。(2)杰卡德系数:该算法是基于集合进行计算的,房间之间的相似度等于同时观看两个房间的用户数除以至少观看了其中一个房间的用户数。该方法的缺点在于仅仅考虑了两个房间的观看用户,未考虑这些用户对其他房间的观看情况,利用的只是部分信息,相似性度量相对而言比较片面。
技术实现思路
针对现有技术中存在的缺陷,本专利技术的目的在于提供一种能有效地降低热门直播间在相似度计算中带来的负面影响,且相似性度量较为全面的计算直播间相似度的方法。为达到以上目的,本专利技术采取的技术方案是:一种计算直播间相似度的方法,该方法包括以下步骤:设定时间周期,并在时间周期内将所有直播间分为热门直播间和非热门直播间;判断用户观看热门直播间和非热门直播间时是否为有效观看行为,确定每个用户有效观看的直播间的数量;从所有直播间中任意选取第一直播间和第二直播间,统计有效观看了第一直播间的第一用户集合以及有效观看了第二直播间的第二用户集合;确定同时有效观看了第一直播间和第二直播间的第三用户集合,获取第三用户集合中的每个用户最后一次观看第一直播间的时间与最后一次观看第二直播间的时间的间隔;以及根据获取的第一用户集合和第二用户集合中的每个用户有效观看的直播间的数量,以及获取的第三用户集合中的每个用户最后一次观看第一直播间的时间与最后一次观看第二直播间的时间的间隔,计算第一直播间和第二直播间的相似度。在上述技术方案的基础上,统计有效观看了第一直播间的第一用户集合Ui和有效观看了第二直播间的第二用户集合Uj;确定同时有效观看了第一直播间和第二直播间的第三用户集合Ui∩Uj;获取第一用户集合和第二用户集合中的每个用户有效观看的直播间的数量qu;获取第三用户集合中的每个用户最后一次观看第一直播间的时间tui与最后一次观看第二直播间的时间tuj的间隔tui-tuj;根据公式计算第一直播间和第二直播间的相似度,其中,sim(i,j)是直播间i和直播间j的相似度,δ是大于0的权重系数,在上述技术方案的基础上,在时间周期内统计每个直播间的观看人数,将观看人数最多的若干个直播间作为热门直播间,其余的直播间作为非热门直播间。在上述技术方案的基础上,判断用户在时间周期内观看热门直播间的次数是否达到预设次数,若是,则是有效观看行为,若否,则不是有效观看行为;以及判断用户在时间周期内是否观看过非热门直播间,若是,则是有效观看行为,若否,则不是有效观看行为。在上述技术方案的基础上,所述时间周期为7天或30天。本专利技术还提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。本专利技术还提供一种设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。本专利技术还提供一种计算直播间相似度的系统,包括:分类模块,其用于设定时间周期,并在时间周期内将所有直播间分为热门直播间和非热门直播间;判断模块,其用于判断用户观看热门直播间和非热门直播间时是否为有效观看行为,并确定每个用户有效观看的直播间的数量;以及计算模块,其用于从所有直播间中任意选取第一直播间和第二直播间,统计有效观看了第一直播间的第一用户集合以及有效观看了第二直播间的第二用户集合,获取第一用户集合和第二用户集合中的每个用户有效观看的直播间的数量;确定同时有效观看了第一直播间和第二直播间的第三用户集合,获取第三用户集合中的每个用户最后一次观看第一直播间的时间与最后一次观看第二直播间的时间的间隔,根据获取的第一用户集合和第二用户集合中的每个用户有效观看的直播间的数量,以及获取的第三用户集合中的每个用户最后一次观看第一直播间的时间与最后一次观看第二直播间的时间的间隔,计算第一直播间和第二直播间的相似度。在上述技术方案的基础上,所述判断模块用于判断用户在时间周期内观看热门直播间的次数是否达到预设次数,若是,则是有效观看行为,若否,则不是有效观看行为;所述判断模块还用于判断用户在时间周期内是否观看过非热门直播间,若是,则是有效观看行为,若否,则不是有效观看行为。在上述技术方案的基础上,所述分类模块根据直播间的观看人数将时间周期内将所有直播间分为热门直播间和非热门直播间。与现有技术相比,本专利技术的优点在于:(1)本专利技术的计算直播间相似度的方法,不仅仅只是考虑需要计算相似度的两个房间的观看用户,还考虑了这些用户对其他房间的观看情况,利用的信息较为全面,相似性度量相对而言比较全面;(2)本专利技术的计算直播间相似度的方法,其是在时间周期内进行计算,考虑了时间的衰减。(3)本专利技术的计算直播间相似度的方法引入了有效观看行为的概念,针对热门直播间,只有用户在时间周期内观看某热门直播间的次数达到预设次数时,才将该用户的行为当成有效观看,否则丢弃。通过这种非对称广播的方法,可以有效地降低热门直播间在相似度计算中带来的负面影响。附图说明图1为本专利技术实施例中计算直播间相似度的方法的流程图;图2为本专利技术实施例中设备连接框图。具体实施方式以下结合附图及实施例对本专利技术作进一步详细说明。参见图1所示,本专利技术实施例提供一种计算直播间相似度的方法,该方法包括以下步骤:S1.设定时间周期,并在时间周期内将所有直播间分为热门直播间和非热门直播间;时间周期的长度可以根据需要合理设置,本专利技术实施例中的时间周期为7天或30天。此外,本专利技术实施例在时间周期内统计每个直播间的观看人数,将观看人数最多的若干个直播间作为热门直播间,其余的直播间作为非热门直播间。即是根据直播间的观看人数将时间周期内将所有直播间分为热门直播间和非热门直播间。比如可以将每个直播间的观看人数统计出来后,按照观看人数的多少进行排序,将排在前1000名的直播间作为热门直播间,而剩下的直播间作为非热门直播间。S2.判断用户观看热门直播间和非热门直播间时是否为有效观看行为,确定每个用户有效观看的直播间的数量;由于一些非常热门的直播间,平台上几乎所有的用户都会去观看,这就导致了这些非常热门的直播间与其他大部分直播间都会发生关联,这是非常不合理的。因此,只有用户在时间周期内观看热门直播间次数比较多时,才认为他们观看热门直播间的行为是有效的观看。为了解决上述问题,这里引入了有效观看行为。具体的,针对热门直播间,主要是通过判断用户在时间周期内观看热门直播间的次数是否达到预设次数,若是,则是有效观看行为,若否,则不是有效观看行为。本专利技术实施例中的预设次数为5次,也就是说只有用户在时本文档来自技高网...

【技术保护点】
1.一种计算直播间相似度的方法,其特征在于,该方法包括以下步骤:设定时间周期,并在时间周期内将所有直播间分为热门直播间和非热门直播间;判断用户观看热门直播间和非热门直播间时是否为有效观看行为,确定每个用户有效观看的直播间的数量;从所有直播间中任意选取第一直播间和第二直播间,统计有效观看了第一直播间的第一用户集合以及有效观看了第二直播间的第二用户集合;确定同时有效观看了第一直播间和第二直播间的第三用户集合,获取第三用户集合中的每个用户最后一次观看第一直播间的时间与最后一次观看第二直播间的时间的间隔;以及根据获取的第一用户集合和第二用户集合中的每个用户有效观看的直播间的数量,以及获取的第三用户集合中的每个用户最后一次观看第一直播间的时间与最后一次观看第二直播间的时间的间隔,计算第一直播间和第二直播间的相似度。

【技术特征摘要】
1.一种计算直播间相似度的方法,其特征在于,该方法包括以下步骤:设定时间周期,并在时间周期内将所有直播间分为热门直播间和非热门直播间;判断用户观看热门直播间和非热门直播间时是否为有效观看行为,确定每个用户有效观看的直播间的数量;从所有直播间中任意选取第一直播间和第二直播间,统计有效观看了第一直播间的第一用户集合以及有效观看了第二直播间的第二用户集合;确定同时有效观看了第一直播间和第二直播间的第三用户集合,获取第三用户集合中的每个用户最后一次观看第一直播间的时间与最后一次观看第二直播间的时间的间隔;以及根据获取的第一用户集合和第二用户集合中的每个用户有效观看的直播间的数量,以及获取的第三用户集合中的每个用户最后一次观看第一直播间的时间与最后一次观看第二直播间的时间的间隔,计算第一直播间和第二直播间的相似度。2.如权利要求1所述的计算直播间相似度的方法,其特征在于:统计有效观看了第一直播间的第一用户集合Ui和有效观看了第二直播间的第二用户集合Uj;确定同时有效观看了第一直播间和第二直播间的第三用户集合Ui∩Uj;获取第一用户集合和第二用户集合中的每个用户有效观看的直播间的数量qu;获取第三用户集合中的每个用户最后一次观看第一直播间的时间tui与最后一次观看第二直播间的时间tuj的间隔tui-tuj;根据公式计算第一直播间和第二直播间的相似度,其中,sim(i,j)是直播间i和直播间j的相似度,δ是大于0的权重系数,3.如权利要求1所述的计算直播间相似度的方法,其特征在于:在时间周期内统计每个直播间的观看人数,将观看人数最多的若干个直播间作为热门直播间,其余的直播间作为非热门直播间。4.如权利要求1所述的计算直播间相似度的方法,其特征在于:判断用户在时间周期内观看热门直播间的次数是否达到预设次数,若是,则是有效观看行为,若否,则不是有效观看行为;以及判断用户在时间周期内是否观看过非热门直播间,若是,则是有效观看行为,若否,则不是有...

【专利技术属性】
技术研发人员:王璐张文明陈少杰
申请(专利权)人:武汉斗鱼网络科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1