当前位置: 首页 > 专利查询>九江学院专利>正文

一种用于视频推荐且基于LDA的深度学习模型构建方法技术

技术编号:26259423 阅读:75 留言:0更新日期:2020-11-06 17:53
一种用于视频推荐且基于LDA的深度学习模型构建方法,对获取的视频文本信息进行分析整理为一个视频整体文档,再通过LDA模型对视频整体文档中的词汇关联进行LDA主题模型建模,由LDA主题模型预测出视频‑主题概率分布矩阵表,而后根据视频‑主题概率分布矩阵表对所有视频进行聚类分析,以预测出所需视频的用户兴趣主题集;最后在神经协同框架中的隐层前加入pairwise‑pooling操作以捕获建模用户与其兴趣主题集ITS、建模视频与其属性主题集ATS之间高阶关联,有效提高推荐准确度,通过不断迭代更新训练后,获得基于LDA的深度学习模型,有效减少属性特征的数据纬度,大大减少模型训练的时间消耗。

【技术实现步骤摘要】
一种用于视频推荐且基于LDA的深度学习模型构建方法
本专利技术涉及深度学习
,尤其涉及一种用于视频推荐且基于LDA的深度学习模型构建方法。
技术介绍
随着通讯技术与大数据产业的高速发展,信息资源在网络中以指数爆炸式增长的同时,信息载体携带的信息量也在逐渐大。其中作为常见的信息媒体之一,视频已成为人们消遣娱乐的主要方式。如今,抖音,B站,爱奇艺等视频业务蒸蒸日上,视频资源也日益增多,用户开始困于如何在短时间寻找到自己喜爱的视频,迫切需要一种即可节约用于寻找所需视频的时间又可向用于进行个性化视频信息推荐的推荐系统,为此,视频推荐系统以其独特的解决视频信息过载的能力开始渐渐的走入人们的生活,在近几年也受到了越来越多的人重视。传统的视频推荐方法主要包括协同过滤、基于内容的推荐方法和其他混合推荐方法等,其中协同过滤是目前应用最为广泛的推荐算法,然而由于经典的协同过滤方法采用浅层模型,其无法学习到用户和项目的深层次特征,比如在现实生活中,用户的兴趣和视频的属性总存在着大量交互关联,拥有“漫威”兴趣属性的用户喜欢看拥有“漫威”属性的视频,倘若能考虑到这些丰富的关联,将大大提高视频推荐系统的性能,但目前提出的推荐方式主要是通过计算向量的距离、矩阵分解、文本分析等方法进行相关视频的推荐,而此类推荐方式更多关注于通过改进距离计算和矩阵分解以提高推荐效果,大多忽略了交互关联的潜在作用。考虑类似属性的传统算法便是基于内容的推荐方法,通过自动分析视频内容提取的视频视觉特征,提出了一种新的基于内容的推荐系统,通过从候选视频的标题中提取的关键字与目标词进行比较,提出一种基于视频标题的视频推荐系统,但此类方法主要通过用户观看过的视频属性为用户推荐其他具有类似属性的视频,其依赖于人工设计特征,需对视频属性特征进行有效的提取,是一种依赖于人工设计特征传统的浅层模型,因此其有效性和可扩展性非常有限。作为人工智能的一个热潮,深度学习于近几年在图像处理、自然语言理解和语音识别等领域取得了突破性进展,其在为个性化推荐的研究也带来了新的机遇。深度学习常见的模型包括玻尔兹曼机、RNN、LSTM以及HeX提出的MLP和GMF等通过将不同的数据映射到一个相同的隐空间,使其具备能够获得数据的统一表征的能力,因此,基于深度学习的融合传统推荐方法能够有效利用多源异构数据对用户进行个性化推荐,以缓解传统推荐系统中存在的数据稀疏和冷启动问题,但目前常用的深度学习模型也存在花费巨大和依赖大数据的问题,当需表征得数据过大时,将面临训练耗时延长等问题。
技术实现思路
本专利技术所解决的技术问题在于提供一种用于视频推荐且基于LDA的深度学习模型构建方法,以解决上述
技术介绍
中的问题。本专利技术所解决的技术问题采用以下技术方案来实现:一种用于视频推荐且基于LDA的深度学习模型构建方法,首先获取大量视频文本信息,并对获取的视频文本信息进行分析整理为一个视频整体文档D,再通过LDA模型对视频整体文档D中的词汇关联进行LDA主题模型建模,由LDA主题模型预测出视频-主题概率分布矩阵表,而后根据视频-主题概率分布矩阵表对所有视频进行聚类分析,以预测出所需视频属性高阶关联,通过不断迭代更新训练,最后获得基于LDA的深度学习模型,通过基于LDA的深度学习模型对用户、视频预测层的预测评分值排序,从而生成用于视频推荐的TOP-K推荐列表;具体步骤如下:1)预测视频-主题概率分布矩阵表通过网络爬虫获取大量视频文本信息,依次对获取的视频文本信息进行分析整理为一个视频整体文档D,并引入视频词典Dic_Iws、干扰词典Dic_Uws、特征词Fw及特征词集Fws,而后将视频词典Dic_Iws、干扰词典Dic_Uws添加至jieba自定义词典中进行分词操作,依次清理jieba分词结果中的干扰词以提取出Tas的特征词Fw,再将从视频整体文档D提取出所有的特征词Fw添加到该视频的特征词集Fws,即得到提取的特征词;再通过LDA模型对视频整体文档D中的词汇关联进行LDA主题模型建模,并将从特征词集Fws提取出的特征词Fw作为LDA主题模型训练的语料,即可预测出每个视频的视频-主题概率分布矩阵表;2)预测用户兴趣主题集将通过LDA主题模型预测出的每个视频-主题概率分布矩阵表作为预测矩阵,并将该视频的每个主题预测的概率wnk作为该主题所占的属性主题权重W1,设置阙值,以挑选出该视频的属性主题集ATS,而后利用已经预测出的属性主题集ATS和用户观看历史的交互视频集Ifs进一步预测出所需视频属性高阶关联,得每个用户的主题兴趣集ITS;3)获得基于LDA的深度学习模型完成预测用户兴趣主题集ITS后,构建主题样本集进行深度学习的训练,而后将进行过深度学习训练的主题样本集应用至神经协同框架中进行训练,并在神经协同框架中的隐层前加入pairwise-pooling操作,以在建模用户与其兴趣主题集ITS、建模视频与其属性主题集ATS之间建立成对关联,同时训练建模用户隐层中每一层的权重矩阵与偏置向量,进而计算建模用户未进行交互的视频预测评分值,当预测评分值低于预设值即结束这个过程,通过不断迭代更新训练,最后获得基于LDA的深度学习模型,通过基于LDA的深度学习模型对用户、视频预测层的预测评分值排序,从而生成用于视频推荐的TOP-K推荐列表。有益效果:1)本专利技术利用LDA模型进行聚类操作,有效减少属性特征的数据纬度,大大减少模型训练的时间消耗;2)本专利技术在获取用户与视频交互样本后,并不直接将其放进MLP(多层感知器)训练,而是在隐层前利用适用捕获高阶交互关联的pooling-wise操作,有效提高推荐准确度;3)本专利技术采用LDA模型进行聚类分析,与一般手动分类不同,只要进行一次训练后即可自动进行视频的分类,且无需用户提供画像,而是通过算法直接预测;在样本数据采集上,采用神经协同框架,无需显示反馈,不用采集用户的评分信息,高效便捷,有效降低人工成本。附图说明图1是本专利技术的较佳实施例的框架示意图。图2是本专利技术的较佳实施例中的神经协同框架示意图。图3是本专利技术的较佳实施例的准确率(迭代次数增加)对比图。图4是本专利技术的较佳实施例的召回率(迭代次数增加)对比图。图5是本专利技术的较佳实施例的F值(迭代次数增加)对比图。图6是本专利技术的较佳实施例的准确率(推荐数增加)对比图。图7是本专利技术的较佳实施例的召回率(推荐数增加)对比图。图8是本专利技术的较佳实施例的F值(推荐数增加)对比图。图9是本专利技术的较佳实施例的准确率(记录数量增加)的对比图。具体实施方式为了使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本专利技术。一种用于视频推荐且基于LDA的深度学习模型构建方法,具体步骤如下:1)预测视频-主题概率分布矩阵表通过网络爬虫获取大量视频文本信息,依次对获取的视频文本信息进行分析整理为一个视频本文档来自技高网
...

【技术保护点】
1.一种用于视频推荐且基于LDA的深度学习模型构建方法,其特征在于,首先获取大量视频文本信息,并对获取的视频文本信息进行分析整理为一个视频整体文档D,再通过LDA模型对视频整体文档D中的词汇关联进行LDA主题模型建模,由LDA主题模型预测出视频-主题概率分布矩阵表,而后根据视频-主题概率分布矩阵表对所有视频进行聚类分析,以预测出所需视频的用户兴趣主题集;最后在神经协同框架中的隐层前加入pairwise-pooling操作以捕获建模用户与其兴趣主题集ITS、建模视频与其属性主题集ATS之间高阶关联,通过不断迭代更新训练后,获得基于LDA的深度学习模型。/n

【技术特征摘要】
1.一种用于视频推荐且基于LDA的深度学习模型构建方法,其特征在于,首先获取大量视频文本信息,并对获取的视频文本信息进行分析整理为一个视频整体文档D,再通过LDA模型对视频整体文档D中的词汇关联进行LDA主题模型建模,由LDA主题模型预测出视频-主题概率分布矩阵表,而后根据视频-主题概率分布矩阵表对所有视频进行聚类分析,以预测出所需视频的用户兴趣主题集;最后在神经协同框架中的隐层前加入pairwise-pooling操作以捕获建模用户与其兴趣主题集ITS、建模视频与其属性主题集ATS之间高阶关联,通过不断迭代更新训练后,获得基于LDA的深度学习模型。


2.根据权利要求1所述的一种用于视频推荐且基于LDA的深度学习模型构建方法,其特征在于,具体步骤如下:
1)预测视频-主题概率分布矩阵表
通过网络爬虫获取大量视频文本信息,并对获取的视频文本信息进行分析整理为一个视频整体文档D,并引入视频词典Dic_Iws、干扰词典Dic_Uws、特征词Fw及特征词集Fws,而后将视频词典Dic_Iws、干扰词典Dic_Uws添加至jieba自定义词典中进行分词操作,依次清理jieba分词结果中的干扰词以提取出Tas的特征词Fw,再将从视频整体文档D提取出所有的特征词Fw添加到该视频的特征词集Fws,即得到提取的特征词;
再通过LDA模型对视频整体文档D中的词汇关联进行LDA主题模型建模,并将从特征词集Fws提取出的特征词Fw作为LDA主题模型训练的语料,即可预测出每个视频的视频-主题概率分布矩阵表;
2)预测用户兴趣主题集
将通过LDA主题模型预测出的每个视频-主题概率分布矩阵表作为预测矩阵,并将该视频的每个主题预测的概率Wnk作为该主题所占的属性主题权重W1,设置阙值,以挑选出该视频的属性主题集ATS,而后利用已经预测出的属性主题集ATS和用户观看历史的交互视频集Ifs进一步预测出所需视频属性高阶关联,得每个用户的主题兴趣集ITS;<...

【专利技术属性】
技术研发人员:崔宗敏程涛喻静
申请(专利权)人:九江学院
类型:发明
国别省市:江西;36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1