基于社交图片的用户兴趣挖掘和用户推荐方法及系统技术方案

技术编号:17032805 阅读:150 留言:0更新日期:2018-01-13 19:20
本发明专利技术提供一种基于社交图片的用户兴趣挖掘和用户推荐方法及系统,该方法包括:从社交网站上获取用户的所有图片和图片标签;对每张从社交图片收集步骤收集的图片,用深度神经网络提取固定长度的视觉向量;对每张图片的标签用话题模型提取固定长度的文本向量;根据特征提取步骤提取的所有视觉向量和文本向量,采用用户兴趣分析模型,将视觉向量和文本向量按照相似度进行聚类,计算社交图片的兴趣‑类别分布,并计算用户的用户‑兴趣分布。进一步通过分析目标用户的用户‑兴趣分布与候选用户的用户‑兴趣分布的欧式距离,可以向目标用户推荐兴趣相似的候选用户。本发明专利技术提取出可靠的用户兴趣特征,实现用户的兴趣推荐。

【技术实现步骤摘要】
基于社交图片的用户兴趣挖掘和用户推荐方法及系统
本专利技术涉及计算机视觉与数据挖掘领域,具体地,涉及一种基于社交图片的用户兴趣挖掘和用户推荐方法及系统。
技术介绍
随着Web2.0发展,社交媒体给人类的生活方式带来了巨大的变化。人们越来越喜欢在网络平台上花更多的时间,进行一系列活动,比如浏览网站,写下评论、感受,分享图片、视频。这些活动记录了人们在网络环境中的点点滴滴,也折射了他们的内在思想和偏好。通过对社交媒体中用户的数据进行分析,推断用户的思想偏好,服务商能够提供更友好的网站服务,探索潜在的商机。现有的基于社交媒体的用户兴趣分析和用户推荐主要包括:对用户兴趣进行建模和基于用户兴趣的分析进行推荐。其中建立用户兴趣分析模型是兴趣相似用户推荐的基础。现有技术中,Abel等人通过对Twitter用户的文本进行分析来推断用户对哪种新闻感兴趣,进而进行新闻推荐。Xie等人通过对Flickr用户的图片内容运用分层贝叶斯网络从视觉角度来学习用户的兴趣。Joshi等人将Flickr用户的图片内容和标签先分别提取特征然后组合成一个特征向量,再对用户的兴趣进行分析。如公开号为CN102402594A、申请号为201110345078.3的中国专利技术申请,该专利技术公开了一种富媒体个性化推荐方法,通过选择能够体现富媒体资源特征的语义标签集合,以语义标签的权值表示富媒体资源在该标签的语义强度,为每个富媒体资源形成一个特征描述样本;然后记录下用户富媒体资源使用情况,得到m个特征样本构成的用户兴趣度原始数据U,并经过归一化后得到的用户兴趣度模型u;最后,以富媒体资源的特征描述样本及用户兴趣度模型u为基础,采用兴趣度距离及特征距离来度量并形成推荐列表进行个性化推荐。但以上工作,只是从单一的图片角度、文本角度,或者将两种角度进行简单的对接,没有考虑图片和文本之间的耦合关系,如文本和图片内容的对应和互补关系。这使得提取得到的特征不能完全反应用户的兴趣,或者出现过拟合现象,导致在用户兴趣推荐的应用中,无法正确、适度的满足用户的需求。另外,图片和文本特征提取的角度,综合利用现有的深度神经网络提取的图片特征和话题模型提取的文本语义特征来综合分析用户的兴趣工作仍有待探索。
技术实现思路
针对现有技术中的缺陷/之一,本专利技术的目的是提供一种基于社交图片的用户兴趣挖掘和用户推荐方法及系统,以解决现有用户兴趣分析方法中忽略文本和图片之间耦合关系的问题,充分利用图片和文本之间的互补和部分对应的特性提取出可靠的用户兴趣特征,实现用户的兴趣推荐,满足用户的需求。根据本专利技术的第一目的,提供一种基于社交图片的用户兴趣挖掘方法,包括如下步骤:社交图片收集步骤:从社交网站上获取用户的图片和图片标签;特征提取步骤:对每张从社交图片收集步骤收集的图片,用深度神经网络提取固定长度的视觉向量;对每张图片的标签用话题模型提取固定长度的文本向量;兴趣分析步骤:根据特征提取步骤提取的所有视觉向量和文本向量,采用用户兴趣挖掘模型,将视觉向量和文本向量按照相似度进行聚类,计算社交图片的兴趣-类别分布,并计算用户的用户-兴趣分布。根据本专利技术的第二目的,提供一种基于社交图片的用户推荐方法,包括如下步骤:用户兴趣挖掘步骤:采用上述用户兴趣挖掘方法得到用户的用户-兴趣分布;用户推荐步骤:给定一个目标用户,根据用户兴趣挖掘步骤得到的用户-兴趣分布,计算目标用户与候选用户的用户-兴趣分布之间的欧式距离,选择欧式距离小的候选用户,进行推荐。根据本专利技术的第三目的,提供一种基于社交图片的用户兴趣挖掘系统,包括:社交图片收集模块:从社交网站上获取用户的图片和图片标签;特征提取模块:对每张从社交图片收集模块收集的图片,用深度神经网络提取固定长度的视觉向量;对每张图片的标签用话题模型提取固定长度的文本向量;兴趣分析模块:根据特征提取模块提取的所有视觉向量和文本向量,通过用户兴趣挖掘模型,将视觉向量和文本向量按照相似度进行聚类,计算社交图片的兴趣-类别分布,并计算用户的用户-兴趣分布。根据本专利技术的第四目的,提供一种基于社交图片的用户推荐系统,包括:用户兴趣挖掘模块:采用上述用户兴趣挖掘系统计算用户的用户-兴趣分布;用户推荐模块:给定一个目标用户,根据用户兴趣挖掘系统计算出的用户-兴趣分布,计算目标用户与候选用户的用户-兴趣分布之间的欧式距离,选择欧式距离小的候选用户,进行推荐。与现有技术相比,本专利技术具有如下的有益效果:本专利技术通过深入挖掘社交媒体上的社交图片数据,提出用户兴趣挖掘的主题模型,将用户兴趣通过层次化的结构表示起来,直观而客观的展现出每个用户的兴趣特征。并且对所有用户-兴趣分布之间的欧氏距离进行分析,可以对目标用户推荐兴趣相似的候选用户。本专利技术可以实现用户兴趣在图片和文本角度的可视化,对涉及在社交平台上依据用户需求分析来高效地进行产品推广的决策中有重要的辅助作用。同时本专利技术在用户兴趣的基础上,提供了一种用户与用户之间的推荐策略(用户推荐模块),可以进一步拓展现有的社交网络的密度,有利于用户之间的交流和信息的传播。附图说明通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1为本专利技术一实施例中用户兴趣挖掘和用户推荐方法流程图;图2为本专利技术一实施例中用户兴趣挖掘系统流程图;图3为本专利技术一实施例中用户兴趣分析的图模型;图4为本专利技术一实施例中图片和文本聚类结果图;图5为本专利技术一实施例中用户兴趣分布图;图6为本专利技术一实施例中用户推荐结果图;图7为本专利技术一实施例中变微分流程图。具体实施方式下面结合具体实施例对本专利技术进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本专利技术,但不以任何形式限制本专利技术。应当指出的是,对本领域的普通技术人员来说,在不脱离本专利技术构思的前提下,还可以做出若干变形和改进。这些都属于本专利技术的保护范围。本专利技术基于社交图片的用户兴趣分析和用户推荐主要包括以下两个部分:基于社交图片对用户兴趣进行建模和基于用户兴趣的相似度对用户进行朋友推荐。建立用户兴趣分析模型是兴趣相似用户推荐的基础。各个社交媒体网站存在用户的各种类型的数据,但相对于浏览记录和社交网络等类型的数据,图片和文本都分别从视觉和文本语义的角度直观的反映出用户对这个世界的喜好。对这两类数据进行建模,建立用户分析模型,能够从两类数据角度学习用户的兴趣,解决现有用户兴趣分析方法中忽略文本和图片之间耦合关系的问题。具体的,如图1所示,一种基于社交图片的用户兴趣挖掘方法,包括如下步骤:社交图片收集步骤:运用爬虫技术从社交网站上获取用户的图片和图片标签;特征提取步骤:对每张从社交图片收集步骤收集的图片,用深度神经网络提取固定长度的视觉向量;对每张图片的标签用话题模型提取固定长度的文本向量;兴趣分析步骤:根据特征提取步骤提取的所有视觉向量和文本向量,采用用户兴趣挖掘模型,将视觉向量和文本向量按照相似度进行聚类,计算社交图片的兴趣-类别分布,并计算用户的用户-兴趣分布。所述社交图片收集步骤,是运用网络爬虫技术从社交网站上爬取用户的所有图片和对应的文本标签。所述特征提取步骤,是用常用的深度神经网络在有标签的开源图片数据集上预训练,然后用该神经网络来提取社交图片的视觉向量特征用话题模型LDA对图片的标签本文档来自技高网
...
基于社交图片的用户兴趣挖掘和用户推荐方法及系统

【技术保护点】
一种基于社交图片的用户兴趣挖掘方法,其特征在于,包括如下步骤:社交图片收集步骤:从社交网站上获取用户的图片和图片标签;特征提取步骤:对每张从社交图片收集步骤收集的图片,用深度神经网络提取固定长度的视觉向量;对每张图片的标签用话题模型提取固定长度的文本向量;兴趣分析步骤:根据特征提取步骤提取的所有视觉向量和文本向量,采用用户兴趣分析模型,将视觉向量和文本向量按照相似度进行聚类,计算社交图片的兴趣‑类别分布,并计算用户的用户‑兴趣分布。

【技术特征摘要】
1.一种基于社交图片的用户兴趣挖掘方法,其特征在于,包括如下步骤:社交图片收集步骤:从社交网站上获取用户的图片和图片标签;特征提取步骤:对每张从社交图片收集步骤收集的图片,用深度神经网络提取固定长度的视觉向量;对每张图片的标签用话题模型提取固定长度的文本向量;兴趣分析步骤:根据特征提取步骤提取的所有视觉向量和文本向量,采用用户兴趣分析模型,将视觉向量和文本向量按照相似度进行聚类,计算社交图片的兴趣-类别分布,并计算用户的用户-兴趣分布。2.根据权利要求1所述的基于社交图片的用户兴趣挖掘方法,其特征在于,所述社交图片收集步骤,是运用网络爬虫技术从社交网站上爬取用户的图片和对应的文本标签。3.根据权利要求1所述的基于社交图片的用户兴趣挖掘方法,其特征在于,所述特征提取步骤,是用深度神经网络在有标签的开源图片数据集上预训练,然后用该神经网络来提取社交图片的视觉向量特征,用话题模型LDA对所有图片的标签提取一个文本向量特征,用神经网络的倒数第二层的输出作为图片的视觉特征向量,该向量有Dv维,而对话题模型LDA的话题数目设定为Dw个,即提取的每个文本向量特征有Dw维。4.根据权利要求1-3任一项所述的基于社交图片的用户兴趣挖掘方法,其特征在于,所述的将视觉向量和文本向量按照相似度进行聚类,是通过兴趣分析模型自动将M个用户的所有社交图片的视觉向量特征和文本向量特征进行聚类,对于每张社交图片视觉向量特征和文本向量特征的类别分布,分别用高斯分布模拟,并计算所有高斯分布的参数。5.根据权利要求1-3任一项所述的基于社交图片的用户兴趣挖掘方法,其特征在于,所述的兴趣-类别分析,是通过兴趣分析模型自动分析视觉向量和文本向量的特征聚类来计算社交图片的兴趣-类别分布。6.根据权利要求1-3任一项所述的基于社交图片的用户兴趣挖掘方法,其特征在于,所述的用户-兴趣分析,是通过兴趣分析模型自动分析每个用户的每张社交图片的兴趣-类别分布来计算用户的用户-兴趣分布。7.一...

【专利技术属性】
技术研发人员:王延峰张娅姚江超孙军
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1