【技术实现步骤摘要】
基于多模态特征的影视专题自动生成方法
本专利技术涉及影视专题领域,特别涉及基于多模态特征的影视专题自动生成方法。
技术介绍
影视专题自动生成的方法一般采用传统的机器学习算法,利用影视的文本特征如导演、演员、题材、年代、地域等,进行无监督聚类生成影视专题,这种方法生成的影视专题,专题内影视海报视觉风格不统一,专题内影视关联度不高,造成用户体验不佳,造成该问题的原因是模型无法对影视海报的图形特征进行学习,无法对用户间的行为进行分析。
技术实现思路
本专利技术所解决的技术问题:提供基于多模态特征的影视专题自动生成方法解决影视专题内影视海报视觉风格不统一和影视关联度不高的问题。本专利技术解决上述技术问题采用的技术方案:基于多模态特征的影视专题自动生成方法包括以下步骤:S01、将影视的海报图片预处理成统一尺寸,利用卷积神经网络的表征学习能力提取影视海报的图形特征向量;S02、将影视的文本信息进行分词提取构建关键词词库,并计算每个关键词的反文档频率IDF,将影视信息中的关键词进行one-hot编码生成影视的文本向量,使用tf-idf对文本向量进行加权,获取得到加权的文本特征向量;S03、将用户的行为整合成分段的语料集,整合所有用户的语料集生成word2vec词向量模型训练样本,建立词向量模型,利用skip-gram对词向量模型训练,生成每个影视的词特征向量;S04、将图形特征向量、文本特征向量和词特征向量进行拼接,生成影视多模态向量,利用无监督聚类算法进行聚类分析;r>S05、获得多模态特征的影视专题。进一步的,步骤S02中,影视的文本信息包括名称、简介、题材、评论、年代、地区、导演和演员。进一步的,步骤S03中,用户行为包括连续影视浏览行为、影视搜索行为和观影行为。进一步的,步骤S04中,所述无监督聚类算法是K-Means算法。本专利技术的有益效果:本专利技术基于多模态特征的影视专题自动生成方法利用卷积神经网络对影视海报进行学习达到了视觉风格统一的目的,通过无监督聚类算法将图形特征向量、文本特征向量和词特征向量结合生成影视专题提高了影视专题关联度,增强了用户在浏览影视专题内容时的体验感。附图说明附图1是本专利技术基于多模态特征的影视专题自动生成方法的流程图。附图2是本专利技术基于多模态特征的影视专题自动生成方法的卷积神经网络神经元参数图。具体实施方式本专利技术提供基于多模态特征的影视专题自动生成方法,本专利技术基于多模态特征的影视专题自动生成方法利用卷积神经网络对影视海报进行学习达到了视觉风格统一的目的,通过无监督聚类算法将图形特征向量、文本特征向量和词特征向量结合生成影视专题提高了影视专题关联度,包括以下步骤:S01、将影视的海报图片预处理成统一尺寸,利用卷积神经网络的表征学习能力提取影视海报的图形特征向量;S02、将影视的文本信息进行分词提取构建关键词词库,并计算每个关键词的反文档频率IDF,将影视信息中的关键词进行one-hot编码生成影视的文本向量,使用tf-idf对文本向量进行加权,获取得到加权的文本特征向量;S03、将用户的行为整合成分段的语料集,整合所有用户的语料集生成word2vec词向量模型训练样本,建立词向量模型,利用skip-gram对词向量模型训练,生成每个影视的词特征向量;S04、将图形特征向量、文本特征向量和词特征向量进行拼接,生成影视多模态向量,利用无监督聚类算法进行聚类分析;S05、获得多模态特征的影视专题。进一步的,步骤S02中,影视的文本信息包括名称、简介、题材、评论、年代、地区、导演和演员。进一步的,步骤S03中,用户行为包括连续影视浏览行为、影视搜索行为和观影行为。进一步的,步骤S04中,所述无监督聚类算法是K-Means算法。具体的,如附图1所示。影视图形特性向量:首先从开源网站下载原始的影视海报,将影视海报预处理为大小224*224的方形尺寸,获得标准海报,然后将标准海报导入卷积神经网络,卷积神经网络包含13层卷积层,3层全连接层,卷积层网络神经元参数如图2所示,获得影视图形特性向量。影视文本特性向量:影视文本信息包括名称、简介、题材、评论、年代、地区、导演、演员等,首先对名称、简介、评论文本信息进行分词提取关键词,结合题材、地区、导演、演员,生成完整的影视文本关键词词典库,计算词典库中各单词的反文档频率idf,然后通过影视文本信息中的关键词利用one-hot编码生成此影视的0/1向量,并结合影视信息中关键词的tf-idf权重,生成加权文本特性向量,获得影视文本特性向量。影视词特征向量:用户行为包括用户浏览、用户搜索、用户观看等,首先将用户在持续会话期间的行为构建为一个连续数组,将每个行为的影视对象用其唯一ID表示,生成一段以空格隔开的文本语料,过滤掉语料中ID数少于10个的用户,整合符合条件的用户行为文本语料生成word2vec词向量模型训练样本,建立词向量模型,利用skip-gram对词向量模型训练,生成每个影视的词特征向量。将图像特征向量、文本特征向量和词特征向量进行拼接,生成影视多模态向量,利用K-Means算法进行聚类分析,获得多模态特征的影视专题。本文档来自技高网...
【技术保护点】
1.基于多模态特征的影视专题自动生成方法,其特征在于,包括以下步骤:/nS01、将影视的海报图片预处理成统一尺寸,利用卷积神经网络的表征学习能力提取影视海报的图形特征向量;/nS02、将影视的文本信息进行分词提取构建关键词词库,并计算每个关键词的反文档频率IDF,将影视信息中的关键词进行one-hot编码生成影视的文本向量,使用tf-idf对文本向量进行加权,获取得到加权的文本特征向量;/nS03、将用户的行为整合成分段的语料集,整合所有用户的语料集生成word2vec词向量模型训练样本,建立词向量模型,利用skip-gram对词向量模型训练,生成每个影视的词特征向量;/nS04、将图形特征向量、文本特征向量和词特征向量进行拼接,生成影视多模态向量,利用无监督聚类算法进行聚类分析;/nS05、获得多模态特征的影视专题。/n
【技术特征摘要】
1.基于多模态特征的影视专题自动生成方法,其特征在于,包括以下步骤:
S01、将影视的海报图片预处理成统一尺寸,利用卷积神经网络的表征学习能力提取影视海报的图形特征向量;
S02、将影视的文本信息进行分词提取构建关键词词库,并计算每个关键词的反文档频率IDF,将影视信息中的关键词进行one-hot编码生成影视的文本向量,使用tf-idf对文本向量进行加权,获取得到加权的文本特征向量;
S03、将用户的行为整合成分段的语料集,整合所有用户的语料集生成word2vec词向量模型训练样本,建立词向量模型,利用skip-gram对词向量模型训练,生成每个影视的词特征向量;
S04、将图形特征向量、文...
【专利技术属性】
技术研发人员:吴上波,
申请(专利权)人:四川长虹电器股份有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。