【技术实现步骤摘要】
本专利技术涉及数据挖掘与计算机
,特别是涉及一种基于Logistic回归的多特征网络流行标签预测方法。
技术介绍
网络标签(Tag)是互联网信息内容的一种组织形式,通常由一些与内容密切相关的关键词组成,它可以帮助人们方便地描述和分类内容,同时也便于信息的检索与分享。由于网络标签的便捷性,标签预测以及标签推荐近年来在众多网络平台上得到了广泛的应用,如问答网站StackExchange,照片分享网站Flickr,以及餐饮点评网站Yelp。采用合适的标签无论是对网站还是对用户而言都非常重要。对网站而言,合适的标签可以帮助网站对用户进行个性化推荐,增加用户的粘性和网站点击率;对用户而言,标签可以帮助用户快速定位到自己所需,避免浪费时间浏览无用信息。在标签选取中,如何选取潜在流行标签是十分关键的步骤,因为流行标签往往代表了大部分用户的需求。目前对信息进行标签选取的主要依据是信息与标签的文字相关程度以及信息发起者的自身属性等。但这样的选取存在各种弊端,主要表现在:1.忽略了标签的潜在流行趋势;2.忽略了标签与标签之间的相关性;3.冷门内容导致冷门标签,使得信息并不能被有效搜索到;4.只考虑到少数特征,使得部分标签的选取趋向与片面。因此,为了使用户在发布信息内容时更好地对标签进行选取,尽可能地选取潜在流行标签。本专利技术基于Logistic回归的多特征网络流行标签预测方法解决以下两个基本问题:(1)预测了标签的未来流行趋势;(2)应用大量的特征对标签的流行趋势进行定量刻画。
技术实现思路
为了克服现有的标签选取系统忽略了标签潜在流行趋势及标签之间相关性、评价特征单一 ...
【技术保护点】
一种基于Logistic回归的多特征网络流行标签预测方法,其特征在于,所述方法包括如下步骤:S1:数据预处理:收集网站的信息内容和标签数据,并将网站信息内容按时间升序排列,将比例为前α%的帖子视为标签网络稳定前的暂态数据,并删除这一部分暂态数据;从网站剩下的数据中选取前预设比例的数据作为训练数据;S2:构建标签Tag网络,对同一个信息内容中出现的Tag,使其两两之间形成连边;对所有信息遍历,得到有权无向网络的标签网络图GTag,网络的权重为两者共同出现的次数;S3:每个标签按照其在帖子中出现的频率降序排列,取前β%比例的Tag作为流行标签集合UPopularTag;S4:寻找非流行的标签集合UUnPopularTag,对每一个流行标签t∈UPopularTag,搜索标签t第一次出现的时间,并以此时间为中心,搜寻离该时间最近的,第一次出现的,同时不属于UPopularTag的标签作为非流行标签,组成对照的非流行标签集合UUnPopularTag;S5:对训练的样本标签集合U={UPopularTag,UUnPopularTag},提取其内Tag的网络特征,在有权无向网络GTag上,提取样 ...
【技术特征摘要】
1.一种基于Logistic回归的多特征网络流行标签预测方法,其特征在于,所述方法包括如下步骤:S1:数据预处理:收集网站的信息内容和标签数据,并将网站信息内容按时间升序排列,将比例为前α%的帖子视为标签网络稳定前的暂态数据,并删除这一部分暂态数据;从网站剩下的数据中选取前预设比例的数据作为训练数据;S2:构建标签Tag网络,对同一个信息内容中出现的Tag,使其两两之间形成连边;对所有信息遍历,得到有权无向网络的标签网络图GTag,网络的权重为两者共同出现的次数;S...
【专利技术属性】
技术研发人员:傅晨波,王金宝,陈风雷,郑永立,靳继伟,宣琦,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。