【技术实现步骤摘要】
本专利技术涉及信息
,尤其涉及一种确定多媒体资源的关键词的权重的方法及装置。
技术介绍
在视频等多媒体资源的智能推荐与检索等应用领域,精准地确定多媒体资源的关键词的权重,从而基于关键词和相应权重准确地“刻画”多媒体资源的特征,对于多媒体资源推荐和检索的效率及准确度具有重要意义。以视频为例,在相关技术中,视频关键词的权重计算主要有三种方法。第一种为基于TF-IDF(TermFrequency-InverseDocumentFrequency,词频-逆向文件频率)公式的计算方法。在该方法中,给定描述视频的文件信息(如视频标题或者视频简介),计算视频关键词的文档频率和逆文档频率,再利用TF-IDF公式计算关键词的权重。在该方法中,由于视频上传者可以自由填写视频标题和视频简介等视频的文件信息,导致计算出的视频关键词的权重的准确性较低。第二种方法为基于视频-用户交互矩阵分解的计算方法。在该方法中,构造视频-用户交互矩阵,将其进行SVD(SingularValueDecomposition,奇异值分解),可得到视频在隐式特征空间中的表示,从而得到每个视频在隐式关键词上的权重。该方法由于视频-用户交互矩阵维度巨大且通常非常稀疏,导致对于计算资源消耗较大且计算结果的准确性较低。同时,由于只能得到隐式关键词的权重,导致这种方法得到的结果的可理解性较差。第三种方法为基于视频图像特征的计算方法。在该方法中,识别、提取视频关键帧,分析关键帧的图像特征,并基于图像特征计算对应关键词的权重。该方法由于需要识别并分析视频的关键帧图像,导致对于计算资源消耗较大且运行效率较低。专利 ...
【技术保护点】
一种确定多媒体资源的关键词的权重的方法,其特征在于,包括:根据目标用户观看多媒体资源的历史数据确定所述目标用户对应的多媒体资源列表;对于所述多媒体资源列表中的每个多媒体资源,根据所述多媒体资源的各个关键词在所述多媒体资源对应的上下文窗口中出现的次数确定所述各个关键词的权重,其中,所述多媒体资源对应的上下文窗口包括在所述多媒体资源列表中与所述多媒体资源相邻的多个多媒体资源。
【技术特征摘要】
1.一种确定多媒体资源的关键词的权重的方法,其特征在于,包括:根据目标用户观看多媒体资源的历史数据确定所述目标用户对应的多媒体资源列表;对于所述多媒体资源列表中的每个多媒体资源,根据所述多媒体资源的各个关键词在所述多媒体资源对应的上下文窗口中出现的次数确定所述各个关键词的权重,其中,所述多媒体资源对应的上下文窗口包括在所述多媒体资源列表中与所述多媒体资源相邻的多个多媒体资源。2.根据权利要求1所述的方法,其特征在于,对于所述多媒体资源的每个关键词,若所述关键词在所述多媒体资源对应的上下文窗口中出现的次数越多,则所述关键词的权重越高;若所述关键词在所述多媒体资源对应的上下文窗口中出现的次数越少,则所述关键词的权重越低。3.根据权利要求1所述的方法,其特征在于,在根据所述多媒体资源的各个关键词在所述多媒体资源对应的上下文窗口中出现的次数确定所述各个关键词的权重之后,所述方法还包括:对于所述多媒体资源的每个关键词,根据各个频道中包含所述关键词的多媒体资源的个数计算所述关键词的频道分布熵值,所述频道分布熵值表示所述关键词在各个频道中分布的集中程度;根据所述关键词的频道分布熵值优化所述关键词的权重。4.根据权利要去3所述的方法,其特征在于,若所述关键词在各个频道中分布的集中程度越低,则所述关键词的频道分布熵值越高;若所述关键词在各个频道中分布的集中程度越高,则所述关键词的频道分布熵值越低。5.根据权利要求3所述的方法,其特征在于,根据所述关键词的频道分布熵值优化所述关键词的权重,包括:随着关键词的频道分布熵值升高,降低所述关键词的权重;随着关键词的频道分布熵值降低,提高所述关键词的权重。6.根据权利要求3所述的方法,其特征在于,在根据所述关键词的频道分布熵值优化所述关键词的权重之后,所述方法还包括:对优化后的权重进行归一化处理。7.根据权利要求1所述的方法,其特征在于,对于所述多媒体资源列表中的每个多媒体资源,根据所述多媒体资源的各个关键词在所述多媒体资源对应的上下文窗口中出现的次数确定所述各个关键词的权重,包括:采用式1计算所述多媒体资源列表中的第i个多媒体资源的第j个关键词对于所述第i个多媒体资源的权重其中,表示所述第i个多媒体资源的第j个关键词在所述第i个多媒体资源对应的上下文窗口中出现的次数,表示所述第i个多媒体资源的第k个关键词在所述第i个多媒体资源对应的上下文窗口中出现的次数,K表示所述第i个多媒体资源的关键词的总个数,1≤j≤K,1≤k≤K。8.根据权利要求3所述的方法,其特征在于,对于所述多媒体资源的每个关键词,根据各个频道中包含所述关键词的多媒体资源的个数计算所述关键词的频道分布熵值,包括:采用式2计算所述多媒体资源列表中的第i个多媒体资源的第j个关键词的频道分布熵值Hi(j);其中,其中,N表示频道的总个数,1≤n≤N,1≤m≤N,表示第n个频道中包含所述第j个关键词的多媒体资源的个数,表示第m个频道中包含所述第j个关键词的多媒体资源的个数。9.根据权利要求8所述的方法,其特征在于,根据所述关键词的频道分布熵值优化所述关键词的权重,包括:采用式4优化第i个多媒体资源的第j个关键词对于所述第i个多媒体资源的权重;其中,表示优化后的所述第i个多媒体资源的第j个关键词对于所述第i个多媒体资源的权重,表示优化前的所述第i个多媒体资源的第j个关键词对于所述第i个多媒体资源的权重。10.根据权利要求6所述的方法,其特征在于,对优化后的权重进行归一化处理,包括:采用式5对优化后的第i个多媒体资源的第j个关键词对于所述第i个多媒体资源的权重进行归一化处理;其中,表示归一化处理后的所述第i个多媒体资源的第j个关键词对于所述第i个多媒体资源的权重,表示优化后的所述第i个多媒体资源的第j个关键词对于所述第i个多媒体资源的权重,表示优化后的所述第i个多媒体资源的第k个关键词对于所述第i个多媒体资源的权重,K表示所述第i个多媒体资源的关键词的总个数,1≤j≤K,1≤k≤K。11.根据权利要求1所述的方法,其特征在于,根据目标用户观看多媒体资源的历史数据确定所述目标用户对应的多媒体资源列表,包括:获取所述目标用户观看多媒体资源的历史数据;按照观看时间的先后顺序对所述历史数据中的各个多媒体资源进行排序;基于排序后的各个多媒体资源得到所述目标用户对应的多媒体资源列表。12.根据权利要求11所述的方法,其特征在于,基于排序后的各个多媒体资源得到所述目标用户对应的多媒体资源列表,包括:去除所述排序后的各个多媒体资源中播放方式为预设方式的多媒体数据;其中,所述预设方式包括以下至少一项:顺序连播、随机连播、循环播放和重播。13.根据权利要求11所述的方法,其特征在于,基于排序后的各个多媒体资源得到所述目标用户对应的多媒体资源列表,包括:在所述排序后的各个多媒体资源中包括连续重复的多媒体资源的情况下,保留连续重复的多媒体资源中的一个多媒体资源。14.根据权利要求11所述的方法,其特征在于,根据目标用户观看多媒体资源的历史数据确定所述目标用户对应的多媒体资源列表,还包括:在所述多媒体资源列表中相邻的多媒体资源之间的观看时间间隔大于预设时长的情况下,在所述相邻的多媒体资源之间对所述多...
【专利技术属性】
技术研发人员:罗川,汪飞,王晓龙,单明辉,王建宇,顾思斌,潘柏宇,
申请(专利权)人:传线网络科技上海有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。