确定多媒体资源的关键词的权重的方法及装置制造方法及图纸

技术编号:14786413 阅读:49 留言:0更新日期:2017-03-11 01:24
本发明专利技术涉及确定多媒体资源的关键词的权重的方法及装置。该方法包括:根据目标用户观看多媒体资源的历史数据确定目标用户对应的多媒体资源列表;对于多媒体资源列表中的每个多媒体资源,根据多媒体资源的各个关键词在多媒体资源对应的上下文窗口中出现的次数确定各个关键词的权重,其中,多媒体资源对应的上下文窗口包括在多媒体资源列表中与多媒体资源相邻的多个多媒体资源。根据本发明专利技术的确定多媒体资源的关键词的权重的方法及装置能够提高确定多媒体资源的关键词的权重的准确度和效率,降低对于计算资源的消耗,从而能够提高多媒体资源的智能推荐与检索的效果,提高用户体验。

【技术实现步骤摘要】

本专利技术涉及信息
,尤其涉及一种确定多媒体资源的关键词的权重的方法及装置
技术介绍
在视频等多媒体资源的智能推荐与检索等应用领域,精准地确定多媒体资源的关键词的权重,从而基于关键词和相应权重准确地“刻画”多媒体资源的特征,对于多媒体资源推荐和检索的效率及准确度具有重要意义。以视频为例,在相关技术中,视频关键词的权重计算主要有三种方法。第一种为基于TF-IDF(TermFrequency-InverseDocumentFrequency,词频-逆向文件频率)公式的计算方法。在该方法中,给定描述视频的文件信息(如视频标题或者视频简介),计算视频关键词的文档频率和逆文档频率,再利用TF-IDF公式计算关键词的权重。在该方法中,由于视频上传者可以自由填写视频标题和视频简介等视频的文件信息,导致计算出的视频关键词的权重的准确性较低。第二种方法为基于视频-用户交互矩阵分解的计算方法。在该方法中,构造视频-用户交互矩阵,将其进行SVD(SingularValueDecomposition,奇异值分解),可得到视频在隐式特征空间中的表示,从而得到每个视频在隐式关键词上的权重。该方法由于视频-用户交互矩阵维度巨大且通常非常稀疏,导致对于计算资源消耗较大且计算结果的准确性较低。同时,由于只能得到隐式关键词的权重,导致这种方法得到的结果的可理解性较差。第三种方法为基于视频图像特征的计算方法。在该方法中,识别、提取视频关键帧,分析关键帧的图像特征,并基于图像特征计算对应关键词的权重。该方法由于需要识别并分析视频的关键帧图像,导致对于计算资源消耗较大且运行效率较低。专利
技术实现思路
技术问题有鉴于此,本专利技术要解决的技术问题是,确定多媒体资源的关键词的权重的准确率较低、对于计算资源的消耗较大且效率较低。解决方案为了解决上述技术问题,根据本专利技术的一实施例,提供了一种确定多媒体资源的关键词的权重的方法,包括:根据目标用户观看多媒体资源的历史数据确定所述目标用户对应的多媒体资源列表;对于所述多媒体资源列表中的每个多媒体资源,根据所述多媒体资源的各个关键词在所述多媒体资源对应的上下文窗口中出现的次数确定所述各个关键词的权重,其中,所述多媒体资源对应的上下文窗口包括在所述多媒体资源列表中与所述多媒体资源相邻的多个多媒体资源。为了解决上述技术问题,根据本专利技术的另一实施例,提供了一种确定多媒体资源的关键词的权重的装置,包括:多媒体资源列表确定模块,用于根据目标用户观看多媒体资源的历史数据确定所述目标用户对应的多媒体资源列表;权重确定模块,用于对于所述多媒体资源列表中的每个多媒体资源,根据所述多媒体资源的各个关键词在所述多媒体资源对应的上下文窗口中出现的次数确定所述各个关键词的权重,其中,所述多媒体资源对应的上下文窗口包括在所述多媒体资源列表中与所述多媒体资源相邻的多个多媒体资源。有益效果通过根据目标用户观看多媒体资源的历史数据确定目标用户对应的多媒体资源列表,对于多媒体资源列表中的每个多媒体资源,根据多媒体资源的各个关键词在多媒体资源对应的上下文窗口中出现的次数确定各个关键词的权重,根据本专利技术实施例的确定多媒体资源的关键词的权重的方法及装置能够提高确定多媒体资源的关键词的权重的准确度和效率,降低对于计算资源的消耗,从而能够提高多媒体资源的智能推荐与检索的效果,提高用户体验。根据下面参考附图对示例性实施例的详细说明,本专利技术的其它特征及方面将变得清楚。附图说明包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本专利技术的示例性实施例、特征和方面,并且用于解释本专利技术的原理。图1示出根据本专利技术一实施例的确定多媒体资源的关键词的权重的方法的实现流程图;图2示出根据本专利技术一实施例的确定多媒体资源的关键词的权重的方法中多媒体资源列表以及各个多媒体资源对应的关键词的示意图;图3示出根据本专利技术一实施例的确定多媒体资源的关键词的权重的方法的一示例性的实现流程图;图4示出根据本专利技术一实施例的确定多媒体资源的关键词的权重的方法的另一示例性的实现流程图;图5示出根据本专利技术一实施例的确定多媒体资源的关键词的权重的方法步骤S101的一示例性的实现流程图;图6示出根据本专利技术一实施例的确定多媒体资源的关键词的权重的方法步骤S101的一示例性的实现流程图;图7示出根据本专利技术另一实施例的确定多媒体资源的关键词的权重的装置的结构框图;图8示出根据本专利技术另一实施例的确定多媒体资源的关键词的权重的装置的一示例性的结构框图;图9示出了本专利技术的另一个实施例的一种确定多媒体资源的关键词的权重的设备的结构框图。具体实施方式以下将参考附图详细说明本专利技术的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。另外,为了更好的说明本专利技术,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本专利技术同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本专利技术的主旨。实施例1图1示出根据本专利技术一实施例的确定多媒体资源的关键词的权重的方法的实现流程图。本实施例的执行主体可以为服务器,在此不作限定。如图1所示,该方法主要包括:在步骤S101中,根据目标用户观看多媒体资源的历史数据确定目标用户对应的多媒体资源列表。其中,多媒体可以为多种媒体的综合,例如可以包括文本、声音和图像等多种媒体形式。例如,多媒体资源可以为视频。作为本专利技术实施例的一个示例,可以从最近180天用户观看多媒体资源的原始日志数据中抽取每个用户每天的多媒体资源观看序列,并可以按照观看时间的先后顺序进行排序,得到各个用户对应的多媒体资源列表。在步骤S102中,对于多媒体资源列表中的每个多媒体资源,根据多媒体资源的各个关键词在该多媒体资源对应的上下文窗口中出现的次数确定各个关键词的权重,其中,该多媒体资源对应的上下文窗口包括在该多媒体资源列表中与该多媒体资源相邻的多个多媒体资源。作为本专利技术实施例的一个示例,可以根据各个多媒体资源的标题或内容摘要等其他描述文本来确定各个多媒体资源的关键词。图2示出根据本专利技术一实施例的确定多媒体资源的关键词的权重的方法中多媒体资源列表以及各个多媒体资源对应的关键词的示意图。如图2所示,该多媒体资源列表包括多媒体资源V1、……、Vi-2、Vi-1、Vi、Vi+1、Vi+2、……、Vn。其中,多媒体资源V1对应的关键词包括T1、T5、T6,多媒体资源Vi-2对应的关键词包括T1、T3,多媒体资源Vi-1对应的关键词包括T1、T2、T4,多媒体资源Vi对应的关键词包括T1、T2、T3,多媒体资源Vi+1对应的关键词包括T1、T3,多媒体资源Vi+2对应的关键词包括T1、T2、T3、T7,多媒体资源Vn对应的关键词包括T8、T9。作为本专利技术实施例的一个示例,根据多媒体资源列表以及预设的上下文窗口的长度,可以确定各个多媒体资源对应的上下文窗口。例如,预设的上下文窗口的长度为5,则多媒体资源Vi对应的上下文窗口包括V本文档来自技高网
...
确定多媒体资源的关键词的权重的方法及装置

【技术保护点】
一种确定多媒体资源的关键词的权重的方法,其特征在于,包括:根据目标用户观看多媒体资源的历史数据确定所述目标用户对应的多媒体资源列表;对于所述多媒体资源列表中的每个多媒体资源,根据所述多媒体资源的各个关键词在所述多媒体资源对应的上下文窗口中出现的次数确定所述各个关键词的权重,其中,所述多媒体资源对应的上下文窗口包括在所述多媒体资源列表中与所述多媒体资源相邻的多个多媒体资源。

【技术特征摘要】
1.一种确定多媒体资源的关键词的权重的方法,其特征在于,包括:根据目标用户观看多媒体资源的历史数据确定所述目标用户对应的多媒体资源列表;对于所述多媒体资源列表中的每个多媒体资源,根据所述多媒体资源的各个关键词在所述多媒体资源对应的上下文窗口中出现的次数确定所述各个关键词的权重,其中,所述多媒体资源对应的上下文窗口包括在所述多媒体资源列表中与所述多媒体资源相邻的多个多媒体资源。2.根据权利要求1所述的方法,其特征在于,对于所述多媒体资源的每个关键词,若所述关键词在所述多媒体资源对应的上下文窗口中出现的次数越多,则所述关键词的权重越高;若所述关键词在所述多媒体资源对应的上下文窗口中出现的次数越少,则所述关键词的权重越低。3.根据权利要求1所述的方法,其特征在于,在根据所述多媒体资源的各个关键词在所述多媒体资源对应的上下文窗口中出现的次数确定所述各个关键词的权重之后,所述方法还包括:对于所述多媒体资源的每个关键词,根据各个频道中包含所述关键词的多媒体资源的个数计算所述关键词的频道分布熵值,所述频道分布熵值表示所述关键词在各个频道中分布的集中程度;根据所述关键词的频道分布熵值优化所述关键词的权重。4.根据权利要去3所述的方法,其特征在于,若所述关键词在各个频道中分布的集中程度越低,则所述关键词的频道分布熵值越高;若所述关键词在各个频道中分布的集中程度越高,则所述关键词的频道分布熵值越低。5.根据权利要求3所述的方法,其特征在于,根据所述关键词的频道分布熵值优化所述关键词的权重,包括:随着关键词的频道分布熵值升高,降低所述关键词的权重;随着关键词的频道分布熵值降低,提高所述关键词的权重。6.根据权利要求3所述的方法,其特征在于,在根据所述关键词的频道分布熵值优化所述关键词的权重之后,所述方法还包括:对优化后的权重进行归一化处理。7.根据权利要求1所述的方法,其特征在于,对于所述多媒体资源列表中的每个多媒体资源,根据所述多媒体资源的各个关键词在所述多媒体资源对应的上下文窗口中出现的次数确定所述各个关键词的权重,包括:采用式1计算所述多媒体资源列表中的第i个多媒体资源的第j个关键词对于所述第i个多媒体资源的权重其中,表示所述第i个多媒体资源的第j个关键词在所述第i个多媒体资源对应的上下文窗口中出现的次数,表示所述第i个多媒体资源的第k个关键词在所述第i个多媒体资源对应的上下文窗口中出现的次数,K表示所述第i个多媒体资源的关键词的总个数,1≤j≤K,1≤k≤K。8.根据权利要求3所述的方法,其特征在于,对于所述多媒体资源的每个关键词,根据各个频道中包含所述关键词的多媒体资源的个数计算所述关键词的频道分布熵值,包括:采用式2计算所述多媒体资源列表中的第i个多媒体资源的第j个关键词的频道分布熵值Hi(j);其中,其中,N表示频道的总个数,1≤n≤N,1≤m≤N,表示第n个频道中包含所述第j个关键词的多媒体资源的个数,表示第m个频道中包含所述第j个关键词的多媒体资源的个数。9.根据权利要求8所述的方法,其特征在于,根据所述关键词的频道分布熵值优化所述关键词的权重,包括:采用式4优化第i个多媒体资源的第j个关键词对于所述第i个多媒体资源的权重;其中,表示优化后的所述第i个多媒体资源的第j个关键词对于所述第i个多媒体资源的权重,表示优化前的所述第i个多媒体资源的第j个关键词对于所述第i个多媒体资源的权重。10.根据权利要求6所述的方法,其特征在于,对优化后的权重进行归一化处理,包括:采用式5对优化后的第i个多媒体资源的第j个关键词对于所述第i个多媒体资源的权重进行归一化处理;其中,表示归一化处理后的所述第i个多媒体资源的第j个关键词对于所述第i个多媒体资源的权重,表示优化后的所述第i个多媒体资源的第j个关键词对于所述第i个多媒体资源的权重,表示优化后的所述第i个多媒体资源的第k个关键词对于所述第i个多媒体资源的权重,K表示所述第i个多媒体资源的关键词的总个数,1≤j≤K,1≤k≤K。11.根据权利要求1所述的方法,其特征在于,根据目标用户观看多媒体资源的历史数据确定所述目标用户对应的多媒体资源列表,包括:获取所述目标用户观看多媒体资源的历史数据;按照观看时间的先后顺序对所述历史数据中的各个多媒体资源进行排序;基于排序后的各个多媒体资源得到所述目标用户对应的多媒体资源列表。12.根据权利要求11所述的方法,其特征在于,基于排序后的各个多媒体资源得到所述目标用户对应的多媒体资源列表,包括:去除所述排序后的各个多媒体资源中播放方式为预设方式的多媒体数据;其中,所述预设方式包括以下至少一项:顺序连播、随机连播、循环播放和重播。13.根据权利要求11所述的方法,其特征在于,基于排序后的各个多媒体资源得到所述目标用户对应的多媒体资源列表,包括:在所述排序后的各个多媒体资源中包括连续重复的多媒体资源的情况下,保留连续重复的多媒体资源中的一个多媒体资源。14.根据权利要求11所述的方法,其特征在于,根据目标用户观看多媒体资源的历史数据确定所述目标用户对应的多媒体资源列表,还包括:在所述多媒体资源列表中相邻的多媒体资源之间的观看时间间隔大于预设时长的情况下,在所述相邻的多媒体资源之间对所述多...

【专利技术属性】
技术研发人员:罗川汪飞王晓龙单明辉王建宇顾思斌潘柏宇
申请(专利权)人:传线网络科技上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1