本发明专利技术公开了一种适用于短视频推荐打散的分类方法及系统,分类方法包括步骤:S1、基于用户的历史短视频点击数据构建短视频转移网络;S2、基于所述短视频转移图网络计算短视频间的转移概率;S3、基于所述短视频转移网络,根据计算的转移概率进行随机游走生成短视频转移序列;S4、根据所述短视频转移序列进行短视频的表示学习,生成短视频的低维度向量表示;S5、基于所述短视频的低维度向量表示、利用聚类算法为短视频分类。本发明专利技术充分考虑短视频间的转移关系,采用无监督学习方法生成符合短视频推荐打散的分类,提升了短视频打散的精度,进而提高了短视频推荐的有效性。
【技术实现步骤摘要】
一种适用于短视频推荐打散的分类方法及系统
本专利技术涉及视频推荐领域,具体涉及一种适用于短视频推荐打散的分类方法及系统。
技术介绍
在短视频推荐中,个性化推荐给用户的经常是同一类视频,比如,当用户点击了搞笑视频后,会推荐给用户大量搞笑视频;点击一个足球视频,会给用户展示大量足球视频。所以在推荐系统中,经常需要对输出结果按类别进行限制以及重排序。打散的作用是保证同一类目视频推荐的频率不会太高,避免用户在前端感觉内容的同质化,保证内容的多样性。打散的关键在于视频的类别的正确性以及覆盖率。短视频的类别定义主要根据(1)人工定义分类;(2)基于人工标定的大量视频类别数据,运用有监督的分类方法进行分类;现有技术中通常是两种方法结合给短视频池进行分类打标签。一般短视频的内容池有上亿条视频,并且每天会新产生十万级别的新视频,给庞大的短视频进行类别的定义按照(1)人工定义分类,需要庞大的打标人员才能应对,同时人员的分类标准也受到个人主观性的影响,所以人工打标通常只能覆盖小部分比例的视频;(2)运用有监督的分类方法进行分类,仍需要大量的标注数据,并且只能覆盖一定的类别,对于没有涉及的类别无法起到分类的作用。针对上述人工定义分类方法覆盖率较低以及所需人力的问题、运用有监督分类所需的大量标注数据以及特定类别的打标签问题,公开号为CN108154137A的专利技术专利申请公开了一种视频特征学习方法,方法包括:获得待训练的视频样本;按照预设帧数对所述视频样本进行等间隔采样,由采样的视频帧组成视频分段;针对各视频分段,提取各视频分段的视觉特征,并计算各视觉特征对应的运动基元数量基于各视频分段的运动基元数量和预设约束条件对目标分类模型进行训练,得到训练后的目标分类模型,以实现对视频特征的学习。上述基于无监督的聚类方法虽然无需相应的视频类别标注数据以及大量标注人员,但是其聚类的过程仅基于视频本身的视觉特征,完全不涉及视频间的关联关系,基于该聚类的结果不能实现很好的视频推荐效果。因此,如何针对短视频推荐的特征,实现适用于短视频推荐打散的分类是本领域亟待解决的问题。
技术实现思路
本专利技术的目的是针对现有技术的缺陷,提供了一种适用于短视频推荐打散的分类及系统。本专利技术充分考虑短视频间的转移关系,采用无监督学习方法生成符合短视频推荐打散的分类,提升了短视频打散的精度,进而提高了短视频推荐的有效性。为了实现以上目的,本专利技术采用以下技术方案:一种适用于短视频推荐打散的分类方法,包括步骤:S1、基于用户的历史短视频点击数据构建短视频转移网络;S2、基于所述短视频转移图网络计算短视频间的转移概率;S3、基于所述短视频转移网络,根据计算的转移概率进行随机游走生成短视频转移序列;S4、根据所述短视频转移序列进行短视频的表示学习,生成短视频的低维度向量表示;S5、基于所述短视频的低维度向量表示、利用聚类算法为短视频分类。进一步地,所述步骤S1包括:S11、采集用户点击的短视频、相应的点击时间及观看时间,构建历史短视频点击行为序列;S12、基于所述历史短视频点击行为序列生成短视频转移网络。进一步地,所述短视频转移网络的节点表示短视频,节点间的边表示节点间的点击顺序,当两节点存在边时,代表这两个视频在用户的短视频点击行为序列中相邻,且边的起点为点击行为序列中的前序点,边的终点为序列中的后序点;视频间边的权重为两视频的转移频次。进一步地,所述转移概率为:其中,vi、vj分别表示短视频vi及vj,N+(vi)为短视频转移图网络中结点vi的相邻结点的集合,Mij为短视频转移图网络中节点vi到节点vj的有向边的权重,当Mij=0时,vi到vj的转移概率为0。进一步地,利用短视频转移序列替代文本序列,采用Skip-Gram模型生成短视频的低维度向量表示。进一步地,所述聚类算法为k-means,其最小化损失函数为:其中,k为类别数,Ci为第i个类别,x为类Ci中的短视频节点,μi为类Ci的中心点:本专利技术还提出一种适用于短视频推荐打散的分类系统,包括:网络构建模块,用于基于用户的历史短视频点击数据构建短视频转移网络;转移概率计算模块,用于基于所述短视频转移图网络计算短视频间的转移概率;转移序列模块,用于基于所述短视频转移网络,根据计算的转移概率进行随机游走生成短视频转移序列;特征表示模块,用于根据所述短视频转移序列进行短视频的表示学习,生成短视频的低维度向量表示;聚类模块,用于基于所述短视频的低维度向量表示、利用聚类算法为短视频分类。进一步地,所述网络构建模块包括:第一生成模块,用于采集用户点击的短视频、相应的点击时间及观看时间,构建历史短视频点击行为序列;第二生成模块,用于基于所述历史短视频点击行为序列生成短视频转移网络。进一步地,所述短视频转移网络的节点表示短视频,节点间的边表示节点间的点击顺序,当两节点存在边时,代表这两个视频在用户的短视频点击行为序列中相邻,且边的起点为点击行为序列中的前序点,边的终点为序列中的后序点;视频间边的权重为两视频的转移频次。进一步地,所述转移概率为:其中,vi、vj分别表示短视频vi及vj,N+(vi)为短视频转移图网络中结点vi的相邻结点的集合,Mij为短视频转移图网络中节点vi到节点vj的有向边的权重,当Mij=0时,vi到vj的转移概率为0。本专利技术与现有技术相比,具有如下效果:(1)本专利技术充分考虑短视频间的转移关系,基于短视频的点击数据构建视频转移网络、计算转移概率、进行随机游走生成短视频转移序列并进行向量表示。生成的短视频向量表示充分体现短视频间的关联关系,更适用于短视频的推荐分类,提升了短视频打散的精度,进而提高了短视频推荐的有效性;(2)本专利技术通过用户的点击视频行为序列,训练短视频的低维度向量,采用无监督的聚类方法进行打标签分类。通过无监督的聚类方法可以对海量短视频数据进行打标签,无需相应的视频类别标注数据以及大量标注人员,同时可以灵活定义最终视频的类别总数,以及通过聚类数目的调整,调控短视频推荐的的打散粒度和应对没有涉及到的一些视频类别的分类问题;(3)本专利技术生成短视频的低维度向量表示,提高短视频的分类效率,降低短视频分类的数据处理量;充分利用已有的Skip-Gram模型,利用短视频转移序列替代文本序列,降低了模型处理的复杂度。附图说明图1是实施例一提供的一种适用于短视频推荐打散的分类方法流程图;图2是短视频点击行为序列示例图;图3是短视频转移网络示例图;图4是短视频转移序列示例图;图5是实施例二提供的一种适用于短视频推荐打散的分类系统结构图。具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效本文档来自技高网...
【技术保护点】
1.一种适用于短视频推荐打散的分类方法,其特征在于,包括步骤:/nS1、基于用户的历史短视频点击数据构建短视频转移网络;/nS2、基于所述短视频转移图网络计算短视频间的转移概率;/nS3、基于所述短视频转移网络,根据计算的转移概率进行随机游走生成短视频转移序列;/nS4、根据所述短视频转移序列进行短视频的表示学习,生成短视频的低维度向量表示;/nS5、基于所述短视频的低维度向量表示、利用聚类算法为短视频分类。/n
【技术特征摘要】
1.一种适用于短视频推荐打散的分类方法,其特征在于,包括步骤:
S1、基于用户的历史短视频点击数据构建短视频转移网络;
S2、基于所述短视频转移图网络计算短视频间的转移概率;
S3、基于所述短视频转移网络,根据计算的转移概率进行随机游走生成短视频转移序列;
S4、根据所述短视频转移序列进行短视频的表示学习,生成短视频的低维度向量表示;
S5、基于所述短视频的低维度向量表示、利用聚类算法为短视频分类。
2.根据权利要求1所述的分类方法,其特征在于,所述步骤S1包括:
S11、采集用户点击的短视频、相应的点击时间及观看时间,构建历史短视频点击行为序列;
S12、基于所述历史短视频点击行为序列生成短视频转移网络。
3.根据权利要求2所述的分类方法,其特征在于,所述短视频转移网络的节点表示短视频,节点间的边表示节点间的点击顺序,当两节点存在边时,代表这两个视频在用户的短视频点击行为序列中相邻,且边的起点为点击行为序列中的前序点,边的终点为序列中的后序点;视频间边的权重为两视频的转移频次。
4.根据权利要求3所述的分类方法,其特征在于,所述转移概率为:
其中,vi、vj分别表示短视频vi及vj,N+(vi)为短视频转移图网络中结点vi的相邻结点的集合,Mij为短视频转移图网络中节点vi到节点vj的有向边的权重,当Mij=0时,vi到vj的转移概率为0。
5.根据权利要求1所述的分类方法,其特征在于,利用短视频转移序列替代文本序列,采用Skip-Gram模型生成短视频的低维度向量表示。
6.根据权利要求1所述的分类方法,其特征在于,所述聚类算法为k-means,其最...
【专利技术属性】
技术研发人员:刘腾飞,范俊,李文杰,黄睿智,顾湘余,
申请(专利权)人:杭州趣维科技有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。