一种隐式标签同现的预测方法及装置制造方法及图纸

技术编号:19544048 阅读:43 留言:0更新日期:2018-11-24 20:39
本发明专利技术公开了一种隐式标签同现的预测方法,包括:获取信息网络中与标签相关的实体,基于不同实体之间的关系构建权重网络元结构并得到信息网络对应的网络拓扑结构;分别针对不同的实体,相应计算得到不同实体的权重并添加到所述网络拓扑结构中;针对待预测的两个标签,在所述网络拓扑结构中获取两个标签之间的权重路径;其中,所述权重路径为待预测的两个标签之间连接路径;将所述权重路径作为输入,采用逻辑回归模型作为预测模型,计算待预测的两个标签同现的概率。本申请能够对标签网络中隐藏更深的标签关系是否能够同现进行准确预测,进而挖掘得到更深层次的相关信息。

A Prediction Method and Device for Implicit Label Co-occurrence

The invention discloses a prediction method for implicit tag co-occurrence, which includes: obtaining tag-related entities in information network, constructing weighted network element structure based on the relationship between different entities and obtaining corresponding network topology structure of information network; calculating the weights of different entities according to different entities respectively. It is added to the network topology structure; for the two tags to be predicted, the weight paths between the two tags are obtained in the network topology structure; the weight paths are the connection paths between the two tags to be predicted; the weight paths are taken as input, and the logistic regression model is used as the prediction model. The probability of the co-occurrence of two tags to be predicted is calculated. This application can accurately predict whether the deeper hidden label relationship in the label network can co-occur, and then mine deeper relevant information.

【技术实现步骤摘要】
一种隐式标签同现的预测方法及装置
本专利技术涉及标签同现预测相关
,特别是指一种隐式标签同现的预测方法及装置。
技术介绍
近年来,社会标注系统(如Flickr、YouTube等)得到了很多研究者的关注。这些系统中的用户通过加标签来标注自己感兴趣的内容,通过构建他们的朋友网络来和其他的用户形成社会关系。当前,许多研究者基于用户标记产生的标记内容、形成的社会关系等做了一系列的研究工作。在这些研究工作中,标签同现是一个热门的研究话题。比如,标签同现可以定义标签的相似性、通过标签同现可以学习用户的标记行为。同时,标签同现在一定程度上可以起到语义扩展的作用。比如,通过同现标签“北京”、“长城”,我们可以知道长城是北京一个景点;通过标签“跑步”、“阿迪达斯”,我们可以知道一个用户喜欢跑步这项运动并且喜欢用阿迪达斯这个牌子的运动装备。通常,标签使用频率以及标签同现频率都服从幂律分布。例如:一些研究者指出,在一家用标签系统管理内容的网站del.icio.us标注系统中标签的使用频率服从幂律分布,也即标签的选择是高度集中的。最流行的标签被使用的次数高达180,000。也有一些研究者阐明所有标签中本文档来自技高网...

【技术保护点】
1.一种隐式标签同现的预测方法,其特征在于,包括:获取信息网络中与标签相关的实体,基于不同实体之间的关系构建权重网络元结构并得到信息网络对应的网络拓扑结构;其中,所述权重网络元结构用于表述不同实体之间的连接关系以及权重大小;所述网络拓扑结构包含多个权重网络元结构;分别针对不同的实体,相应计算得到不同实体的权重并添加到所述网络拓扑结构中;针对待预测的两个标签,在所述网络拓扑结构中获取两个标签之间的权重路径;其中,所述权重路径为待预测的两个标签之间连接路径;将所述权重路径作为输入,采用逻辑回归模型作为预测模型,计算待预测的两个标签同现的概率。

【技术特征摘要】
1.一种隐式标签同现的预测方法,其特征在于,包括:获取信息网络中与标签相关的实体,基于不同实体之间的关系构建权重网络元结构并得到信息网络对应的网络拓扑结构;其中,所述权重网络元结构用于表述不同实体之间的连接关系以及权重大小;所述网络拓扑结构包含多个权重网络元结构;分别针对不同的实体,相应计算得到不同实体的权重并添加到所述网络拓扑结构中;针对待预测的两个标签,在所述网络拓扑结构中获取两个标签之间的权重路径;其中,所述权重路径为待预测的两个标签之间连接路径;将所述权重路径作为输入,采用逻辑回归模型作为预测模型,计算待预测的两个标签同现的概率。2.根据权利要求1所述的方法,其特征在于,所述实体包括图片、标签、用户以及组;其中,图片与用户之间的链路隐含着“上传”和“被上传”信息,图片与标签之间的链路隐含着“添加”和“被添加”信息,图片与组之间的链路隐含着“包含”和“被包含“信息。3.根据权利要求2所述的方法,其特征在于,所述计算得到不同实体的权重包括:基于图片中的标签序列,计算得到标签的序列权重,计算公式如下:其中,i为标签在标签序列中的序号,n为预设的临界值,wseq(txi)为标签txi的序列权重;基于标签所属的组的数目,计算得到标签的概念权重,计算公式如下:其中,N是标签txi所属的组的数目,wcon(txi)为标签txi的概念权重;将序列权重与概念权重与对应的系数相乘后相加得到基于用户的标签权重,如下:wu(txi)=α*wsep(txi)+(1-α)*wcon(txi);其中,α(α∈[0,1])为可调参数,wu(txi)为基于用户的标签权重;基于使用了同一个标签的所有用户集合,进行标签权重求和,进而得到标签txi的权重,算法如下:其中,u为用户;Utxi为使用标签txi的用户集合;w(txi)为标签txi的权重;基于标签权重以及当前用户具有的标签,通过如下公式计算得到用户权重:其中,w(txi)为标签txi的权重;Tu为用户具有的标签集合,CTu为用户指派的候选标签集合;δ为预设的阈值;w(u)为用户权重;基于用户权重以及组中所...

【专利技术属性】
技术研发人员:陈晋鹏张佩傅湘玲管皓孙艺牛琨高慧吴国仕
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1