一种基于Logistic回归的多特征网络流行标签预测方法技术

技术编号:14708401 阅读:40 留言:0更新日期:2017-02-26 00:38
一种基于Logistic回归的多特征网络流行标签预测方法,包括以下步骤:1)根据问答网站发帖数据,构建有权无向网络标签Tag网络;2)按照标签出现频率,提取流行标签集合、非流行标签集合;3)提取标签的网络特征、标签提出者属性特征、标签被提出后属性变动特征作为特征向量;4)采用Logistics多元回归训练并构建标签分类模型;本发明专利技术考虑标签之间相关性,依据多特征对标签进行分类,对于预测潜在流行标签具有较高的精度。既有利于引导用户选择合理的标签,也有利于网站建设者提供更高质量的标签。

【技术实现步骤摘要】

本专利技术涉及数据挖掘与计算机
,特别是涉及一种基于Logistic回归的多特征网络流行标签预测方法
技术介绍
网络标签(Tag)是互联网信息内容的一种组织形式,通常由一些与内容密切相关的关键词组成,它可以帮助人们方便地描述和分类内容,同时也便于信息的检索与分享。由于网络标签的便捷性,标签预测以及标签推荐近年来在众多网络平台上得到了广泛的应用,如问答网站StackExchange,照片分享网站Flickr,以及餐饮点评网站Yelp。采用合适的标签无论是对网站还是对用户而言都非常重要。对网站而言,合适的标签可以帮助网站对用户进行个性化推荐,增加用户的粘性和网站点击率;对用户而言,标签可以帮助用户快速定位到自己所需,避免浪费时间浏览无用信息。在标签选取中,如何选取潜在流行标签是十分关键的步骤,因为流行标签往往代表了大部分用户的需求。目前对信息进行标签选取的主要依据是信息与标签的文字相关程度以及信息发起者的自身属性等。但这样的选取存在各种弊端,主要表现在:1.忽略了标签的潜在流行趋势;2.忽略了标签与标签之间的相关性;3.冷门内容导致冷门标签,使得信息并不能被有效搜索到;4.只考虑到少数特征,使得部分标签的选取趋向与片面。因此,为了使用户在发布信息内容时更好地对标签进行选取,尽可能地选取潜在流行标签。本专利技术基于Logistic回归的多特征网络流行标签预测方法解决以下两个基本问题:(1)预测了标签的未来流行趋势;(2)应用大量的特征对标签的流行趋势进行定量刻画。
技术实现思路
为了克服现有的标签选取系统忽略了标签潜在流行趋势及标签之间相关性、评价特征单一的不足,本专利技术提供了一种基于Logistic回归的多特征网络流行标签预测方法,不仅考虑到多个特征及标签之间的相关特征,同时也能更好地预测了标签的流行趋势。本专利技术解决其技术问题所采用的技术方案如下:一种基于Logistic回归的多特征网络流行标签预测方法,包括如下步骤:S1:数据预处理:收集网站的信息内容和标签数据,并将网站信息内容按时间升序排列,将比例为前α%的帖子视为标签网络稳定前的暂态数据,并删除这一部分暂态数据;从网站剩下的数据中选取前预设比例的数据作为训练数据;S2:构建标签Tag网络,对同一个信息内容中出现的Tag,使其两两之间形成连边,对所有信息遍历,得到有权无向网络的标签网络图GTag,网络的权重为两者共同出现的次数;S3:每个标签按照其在帖子中出现的频率降序排列,取前β%比例的Tag作为流行标签集合UPopularTag;S4:寻找非流行的标签集合UUnPopularTag,对每一个流行标签t∈UPopularTag,搜索标签t第一次出现的时间,并以此时间为中心,搜寻离该时间最近的,第一次出现的,同时不属于UPopularTag的标签作为非流行标签,组成对照的非流行标签集合UUnPopularTag;S5:对训练的样本标签集合U={UPopularTag,UUnPopularTag本文档来自技高网...
一种基于Logistic回归的多特征网络流行标签预测方法

【技术保护点】
一种基于Logistic回归的多特征网络流行标签预测方法,其特征在于,所述方法包括如下步骤:S1:数据预处理:收集网站的信息内容和标签数据,并将网站信息内容按时间升序排列,将比例为前α%的帖子视为标签网络稳定前的暂态数据,并删除这一部分暂态数据;从网站剩下的数据中选取前预设比例的数据作为训练数据;S2:构建标签Tag网络,对同一个信息内容中出现的Tag,使其两两之间形成连边;对所有信息遍历,得到有权无向网络的标签网络图GTag,网络的权重为两者共同出现的次数;S3:每个标签按照其在帖子中出现的频率降序排列,取前β%比例的Tag作为流行标签集合UPopularTag;S4:寻找非流行的标签集合UUnPopularTag,对每一个流行标签t∈UPopularTag,搜索标签t第一次出现的时间,并以此时间为中心,搜寻离该时间最近的,第一次出现的,同时不属于UPopularTag的标签作为非流行标签,组成对照的非流行标签集合UUnPopularTag;S5:对训练的样本标签集合U={UPopularTag,UUnPopularTag},提取其内Tag的网络特征,在有权无向网络GTag上,提取样本标签第一次出现连接的邻居节点度值、邻居节点度中心性;S6:对训练的样本标签集合U={UPopularTag,UUnPopularTag},提取其内Tag的提出者属性特征,具体包括Tag提出者提出该Tag时的以发布的信息内容的数量,信息内容的长度;S7:对训练的样本标签集合U={UPopularTag,UUnPopularTag},提取其内Tag的属性变动特征,具体包括该Tag提出后,5天内该Tag对应的帖子收到的答复数量;S8:采用Logistic多元回归,以集合U={UPopularTag,UUnPopularTag}中标签的特征作为训练数据,训练并构建标签分类器模型。...

【技术特征摘要】
1.一种基于Logistic回归的多特征网络流行标签预测方法,其特征在于,所述方法包括如下步骤:S1:数据预处理:收集网站的信息内容和标签数据,并将网站信息内容按时间升序排列,将比例为前α%的帖子视为标签网络稳定前的暂态数据,并删除这一部分暂态数据;从网站剩下的数据中选取前预设比例的数据作为训练数据;S2:构建标签Tag网络,对同一个信息内容中出现的Tag,使其两两之间形成连边;对所有信息遍历,得到有权无向网络的标签网络图GTag,网络的权重为两者共同出现的次数;S...

【专利技术属性】
技术研发人员:傅晨波王金宝陈风雷郑永立靳继伟宣琦
申请(专利权)人:浙江工业大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1