本发明专利技术是一种在社交媒体网络上自动筛选有影响力用户的方法,包括步骤如下:步骤S1:利用超图模型为兴趣社交媒体网络中的用户、兴趣对象及其相互作用关系建模;步骤S2:采用超图约束的正则化主题概率模型,利用兴趣对象的内容信息和内容信息之间的相似性关系作为约束,自动学习得到隐含的兴趣主题;步骤S3:对每个用户和兴趣对象进行主题影响力排序,采用相似性传播模型及在超图上的用户和兴趣对象及相互之间的超边传播主题影响力,直到稳态,然后排序可得到特定主题下的有影响力的用户。本发明专利技术能够真实而准确地反映用户影响力在社交媒体网络中的分布。
【技术实现步骤摘要】
本专利技术属于数字信息处理
,具体涉及一种社交媒体网络的数据筛选技术,特别是基于多媒体内容与链接分析的主题敏感有影响力用户的筛选方法。
技术介绍
社交媒体网络的出现和繁荣发展,改变了人们获取和消费信息的方式。各种社交媒体网络为人们提供了一个可以便捷创造和分享兴趣内容的平台。比如,新浪、腾讯微博的短讯图片分享,twitter的短讯,Flickr的图片分享等。然而,一个显著的存在问题是,人们在便捷获取信息的同时,也面临信息过载的问题。人们获取信息时,会倾向于获取自己感兴趣的内容和把有影响力的用户作为信息源。从社交媒体网络中筛选出在某一领域或主题下有影响力的用户或是兴趣对象,成为当前学术界和工业界关注的热点。通过筛选出主题敏感的用户,一种“兴趣达人”或“意见领袖”,从而商家可以进行影响力营销推广,用户可以更好地有目标性地获取所感兴趣所需要的知识信息。目前针对有影响力用户的筛选,现有的方法有一种是专家发现方法,即给定一个主题,鉴别出有相关的技能或经验的人。现有的工作主要集中在文本数据上,没有涉及多媒体数据,即各种用户感兴趣的信息载体,比如音频、图片、视频等。另一种是社交媒体网络的影响力分析,即分析社交媒体网络并对社交媒体网络中的影响力进行建模,了解社交媒体网络的动态发展情况。现有主要工作是在社交网络中鉴别影响力的存在或者是在同质网络中量化影响力。然而,上述方法不能完全真实准确地反映用户影响力在社交网络中的分布,用户影响力在社交网络中是一个连续性的可量化的变量,并且用户的影响力是主题敏感的,即在不同的主题上,用户的影响力分布是不同的。传统的方法,一方面大多方法局限于文本数据处理度量用户影响力,而实际上社交网络中包含丰富的多媒体数据,这些信息对用户影响力建模具有重要的作用。另一方面传统方法是对用户一般化的影响力建模,没有考虑主题敏感的影响力建模。
技术实现思路
(一 )要解决的技术问题本专利技术所要解决的技术问题是如何自动地从社交媒体网络中关于特定的主题筛选出影响力的用户,并克服当前方法只在文本数据上为用户影响力建模的局限和仅限于用户全局影响力的度量。( 二 )技术方案为解决上述技术问题,本专利技术提出一种,该方法包括步骤如下步骤S1:利用超图模型为兴趣社交媒体网络中的用户、兴趣对象及其相互作用关系建模;步骤S2 :采用超图约束的正则化主题概率模型,利用兴趣对象的内容信息和内容信息之间的相似性关系作为约束,自动学习得到隐含的兴趣主题;步骤S3 :对每个用户和兴趣对象进行主题影响力排序,采用相似性传播模型及在超图上的用户和兴趣对象及相互之间的超边传播主题影响力,直到稳态,然后排序可得到特定主题下的有影响力的用户。(三)有益效果本专利技术利用社交媒体网络中包含的各种媒体内容自动地发现潜在的主题,并分析相应的主题下的有影响力用户,能够在多模态异质网络中利用多媒体数据和各种社交链接关系挖掘出主题敏感的用户。并且,本专利技术能够真实而准确地反映用户影响力在社交媒体网络中的分布,筛选出社交媒体网络中主题敏感的有影响力用户。附图说明图1是本专利技术的流程图;图2是根据本专利技术的基于视觉内容构建的同质超边示意图;图3是根据本专利技术的基于文本内容构建的同质超边示意图;图4是根据本专利技术的异质超边示意图;图5是本专利技术的超图中影响力消息传播示意图;图6a和图6b是根据本专利技术的一个实施例的方法所得到的代表性用户和图片。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术作进一步的详细说明。本专利技术的目标是筛选出社交媒体网络中主题敏感的有影响力用户。本专利技术中的社交媒体网络指的是指为用户提供的一个可以创造和分享媒体信息的平台,例如图片分享网站Flickr。本专利技术中所称的用户指的是社交媒体网络中的主体对象即人,所称的兴趣对象指的是由用户创造和分享的特定对象,如图片、视频、音乐。所谓主题指的是兴趣对象在语义层次上的聚合表达,具体表现形式为语义相近的词的概率分布。有影响力用户是指在社交网络中能够对其他用户的网络行为比如转发、评论等产生直接或间接影响的用户,所谓的影响力定义为当用户的情绪、意见或行为受到其他人的作用的一种表现形式。本专利技术的社交媒体网络指的是以兴趣对象为中心的,为用户提供的一个创造和分享兴趣对象的平台,兴趣对象可以是短讯、图片、视频、音乐等,在社交媒体网络中存在丰富的多媒体数据,多模态和异质的,比如在Flickr中,存在文本、图片、视频,并且在用户和图片之间存在评论、转发、喜爱等链接关系。概括地说,本专利技术利用社交媒体网络中包含的各种媒体内容自动地发现潜在的主题,并分析相应的主题下的有影响力用户。本专利技术能够在多模态异质网络中利用多媒体数据和各种社交链接关系挖掘出主题敏感的用户。下面具体说明本专利技术的实施方式。图1所示为本专利技术的有影响力用户筛选方法的流程图。如图1所示,本专利技术包括三个步骤S1、超图构建(hypergraph construction) ;S2、兴趣主题分布学习(Topicof interest distribution learning) ;S3、主题敏感影响力排序(Topic sensitiveinfluence ranking)。下面分别说明各个步骤。S1、超图构建所谓超图指的是能够表不多阶关系的图。在超图中,包含节点和超边G = (V, E,W),其中节点表示不同类型的对象,而超边可以连接多于两个节点表示相互之间高阶关系。超图能够对包含高阶关系的对象网络进行建模。步骤SI是运用超图模型来为社交媒体网络中的用户、兴趣对象及其相互作用关系进行建模的步骤。在社交媒体网络中,用户和兴趣对像是最基本的元素,其间存在多种链接关系,比如用户可以评论、转发、喜爱和评论一个兴趣对象。在本专利技术中,用超图节点表示社交媒体网络中的用户(user)和兴趣对象(objectof interest, 01);超边分为两种类型同质(homogeneous)超边和异质(heterogeneous)超边。同质超边用于表示兴趣对象之间的内容相似性,包括视觉内容相似性和文本内容相似性,异质超边用于表示用户和兴趣对象之间的高阶社交链接关系,如用户和兴趣对象之间存在的喜欢和评论关系。 图2为构建基于视觉内容相似性的同质超边的示意图,如图2所示,本专利技术采用K近邻的方法,即对于每一个兴趣对象,找到其K个最近邻的兴趣对象,然后用一条同质超边连接这些节点,并且权重设为I。对于文本内容相似性,本专利技术构建基于文本标签的同质超边,图3为构建基于文本相似性的超边的示意图,如图3所示,首先从所有兴趣对象的文本元数据抽取一个词典,然后对于每一个词,为所有包含该词的兴趣对象建立一条超边,并且权重设为I。对于异质超边,本专利技术主要考虑两种一种异质超边是“拥有者-多个兴趣对象-单一用户”(owner-01s_user)的超边,其连接的是拥有者(用户A)和另一个用户B以及他们之间的交互的多个兴趣对象,用户B对用户A的多个兴趣对象表现出兴趣行为,比如评论或喜欢;该超边的权重为I。另一种异质超边是拥有者-单一兴趣对象-多个用户(owner-01-users)的超边,其连接的是拥有者(用户A)和一个兴趣对象以及对该兴趣对象产生兴趣行为的多个用户。该超边的权重为I。本文档来自技高网...
【技术保护点】
一种在社交媒体网络上自动筛选有影响力用户的方法,其特征在于,该方法包括步骤如下:步骤S1:利用超图模型为兴趣社交媒体网络中的用户、兴趣对象及其相互作用关系建模;步骤S2:采用超图约束的正则化主题概率模型,利用兴趣对象的内容信息和内容信息之间的相似性关系作为约束,自动学习得到隐含的兴趣主题;步骤S3:对每个用户和兴趣对象进行主题影响力排序,采用相似性传播模型及在超图上的用户和兴趣对象及相互之间的超边传播主题影响力,直到稳态,然后排序可得到特定主题下的有影响力的用户。
【技术特征摘要】
1.一种在社交媒体网络上自动筛选有影响力用户的方法,其特征在于,该方法包括步骤如下 步骤S1:利用超图模型为兴趣社交媒体网络中的用户、兴趣对象及其相互作用关系建模; 步骤S2 :采用超图约束的正则化主题概率模型,利用兴趣对象的内容信息和内容信息之间的相似性关系作为约束,自动学习得到隐含的兴趣主题; 步骤S3 :对每个用户和兴趣对象进行主题影响力排序,采用相似性传播模型及在超图上的用户和兴趣对象及相互之间的超边传播主题影响力,直到稳态,然后排序可得到特定主题下的有影响力的用户。2.根据权利要求1所述的在社交媒体网络上自动筛选有影响力用户的方法,其特征在于,所述步骤SI包括用超图节点表示社交媒体网络中的用户和兴趣对象,用同质超边表示兴趣对象之间的内容相似性,用异质超边表示用户和兴趣对象之间的高阶社交链接关系。3.根据权利要求2所述的在社交媒体网络上自动筛选有影响力用户的方法,其特征在于,所述兴趣对象之间的内容相似性包括视觉内容相似性和文本内容相似性,并且, 用于表示视觉内容相似性的超边构建步骤为对于每一个兴趣对象,找到其K个最近邻的兴趣对象,然后用一条同质超边连接这些节点,并且权重设为I ; 用于表示文本内容相似性的超边构建步骤为首先从所有兴趣对象的文本元数据抽取一个词典,然后对于每一个词,为所有包含该词...
【专利技术属性】
技术研发人员:徐常胜,桑基韬,方全,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。