基于组合策略的社交网络媒体信息流行度预测方法技术

技术编号:26599902 阅读:21 留言:0更新日期:2020-12-04 21:22
本发明专利技术公开了一种基于组合策略的社交网络媒体信息流行度预测方法,使用滑动窗口平均,来解决每个用户帖子之间的依赖性,在一定时间内进行特征平均,来挖掘帖子之间的时间相关性,额外利用了一部分时间信息,来获得精确的预测结果。此外,使用组合策略训练组合的CatBoost模型,可以针对不同的帖子进行预测,有更好的普遍性与灵活性。

【技术实现步骤摘要】
基于组合策略的社交网络媒体信息流行度预测方法
本专利技术涉及网络空间安全
,尤其涉及一种基于组合策略的社交网络媒体信息流行度预测方法。
技术介绍
随着社会的高速发展,越来越多的社交媒体平台出现并且吸引了大量的用户,比如微博,Twitter,Flickr,Facebook等。以微博和Flickr为例,每天都有上亿的用户发布分享数量庞大,种类繁多的信息。通过预测社交媒体上信息的受欢迎程度,一方面研究人员可以更好的分析各种问题并开发出广泛的应用来服务社会,比如信息检索系统、推荐系统和事件检测系统。另一方面,对于社交媒体上信息的分析有助于揭示个人偏好和公众关注度,这对于预测社会趋势和做出更好的未来战略决策有很大的帮助。对于社交媒体流行度预测可以分为两个部分:多模态特征的提取和回归模型的建立。在特征提取上,目前所有的方法仅对用户的每个帖子单独处理,虽然达到了比较好的效果,但是这种处理方法忽视了用户可能更倾向于在相近的时间内发布相同主题的帖子,表达自己观点这一现象,单独处理每个帖子没有考虑用户不同帖子间的潜在关联。而在回归模型的选取上,最近基于集成学习的方法在各种任务的回归中都表现出了优越的性能,一些先进的集成学习模型如RandomForest、XGBoost、LightGBM和CatBoost在社交媒体流行度预测领域的研究应用中也得到了广泛的应用,并且取得了最好的效果,但是这些方法针对目前规模最大的数据集中1/4缺失的用户粉丝数等数据没有进行有效建模,这些方法可以分为两种:对粉丝数这些缺失数据补零或者不使用缺失数据建模,而对于大量缺失数据补零会改变数据的分布,不使用粉丝数等数据时明显忽视了有大量粉丝数的用户帖子会有更高的流行度这一现象,这些方法都会错误的估计社会焦点。
技术实现思路
本专利技术的目的是提供一种基于组合策略的社交网络媒体信息流行度预测方法,可以针对帖子是否包含用户特征使用不同的模型进行预测,有更好的普遍性与灵活性,也能够获得精确的预测结果本专利技术的目的是通过以下技术方案实现的:一种基于组合策略的社交网络媒体信息流行度预测方法,包括:对于训练集中每一包含多媒体特征的帖子,从中提取多模态特征,包括:图像特征、文本特征、社交信息中的数字特征以及类别特征,或者还包括用户特征;使用滑动窗口平均化来处理当前帖子的文本特征和图像特征,挖掘相同用户不同帖子间的潜在关联,并将平均化结果作为当前帖子的文本和图像特征,再与当前帖子的其他特征拼接融合;在进行特征拼接融合后,基于CatBoost根据是否包含用户特征来训练两个独立的模型,CatBoostA模型与CatBoostB模型;测试阶段,对于待预测的帖子,根据其是否包含用户特征来对训练后的CatBoostA模型与CatBoostB模型设置不同的权重进行社交媒体流行度预测。由上述本专利技术提供的技术方案可以看出,使用滑动窗口平均,来解决每个用户帖子之间的依赖性,在一定时间内进行特征平均,来挖掘帖子之间的时间相关性,额外利用了一部分时间信息,来获得精确的预测结果。此外,使用组合策略训练组合的CatBoost模型,可以针对不同的帖子进行预测,有更好的普遍性与灵活性。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的一种基于组合策略的社交网络媒体信息流行度预测方法的示意图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。针对现有技术存在的技术问题,本专利技术实施例提供一种基于组合策略的社交网络媒体信息流行度预测方法,如图1所示,该方法主要包括:对于训练集中每一包含多媒体特征的帖子(Post),从中提取多模态特征,包括:图像特征、文本特征、社交信息中的数字特征以及类别特征,或者还包括用户特征;使用滑动窗口平均化来处理当前帖子的文本和图像特征,挖掘相同用户不同帖子间的潜在关联,并将平均化结果作为当前帖子的文本特征和图像特征,再与当前帖子的其他特征拼接融合;在进行特征融合后,基于CatBoost根据是否包含用户特征来训练两个独立的模型,CatBoostA模型与CatBoostB模型;测试阶段,对于待预测的帖子,根据其是否包含用户特征来对相应的训练后的CatBoostA模型与CatBoostB模型设置不同的权重进行社交媒体流行度预测。本领域技术人员可以理解,CatBoost是一种基于GBDT算法框架的改进优化实现。本专利技术实施例中,CatBoostA模型使用全部的训练集来训练,特征中不使用用户特征信息。CatBoostB模型使用训练集中含有用户特征信息的帖子集合作为训练集,使用全部的特征类型。两个模型训练阶段的目标函数是最小化的均方根误差RMSE。本专利技术实施例上述方案,可以应用于社交网络平台的信息流行度预测,将社交媒体帖子中的图像、文本等异构数据作为本专利技术的输入数据,可以自动得出帖子将来的关注度,即流行度。在实际应用中,可以以后台进程的方式运行在社交媒体网络平台(如微博),实时预测用户待发布信息的流行度,预测目前社会趋势,更方便研究人员对未来做出更优的战略决策。此外本专利技术也可以应用在社交媒体上的广告推荐系统与事件检测系统,具有较强的实用性。下面针对以上各个部分做详细的介绍。一、多模态特征提取。1、图像特征提取。本专利技术实施例中,本专利技术采用预训练模型ResNeXt-101的框架。ResNeXt利用分组卷积再结合残差网络,在图像领域的多个任务上表现出了优越的性能。本专利技术实施例中,使用图像的类别标签来微调ResNeXt模型,提取图像的通用特征表示,去掉ResNeXt网络顶部的全连接层,获取最后一个池化层之后的2048维特征向量,作为图像特征。2、文本特征提取。对于文本的挖掘,本专利技术实施例中,使用两个最先进的预训练的深度学习模型Bert和Glove来提取文本的特征表示。Bert采用多层Transformer结构,通过Attention机制将任意两个单词的距离转化成1,有效地解决了NLP中的棘手的长期依赖问题。而Glove是基于全局词频统计的词表征工具,它可以把单词表示成捕捉到单词之间语义特性的向量。社交媒体信息中的标签和标题能清晰地显示出帖子地类别与主题思想,因此本专利技术实施例中使用Bert和Glove提取文本的特征表示。文本需要通过预处理去除无规则的单词;对于预处理后的每一个句子,各自通过预训练的深度学习模型Bert和Glove提取向量,再进行平均化作为整个句子的文本特征。3、数字特征。本文档来自技高网
...

【技术保护点】
1.一种基于组合策略的社交网络媒体信息流行度预测方法,其特征在于,包括:/n对于训练集中每一包含多媒体特征的帖子,从中提取多模态特征,包括:图像特征、文本特征、社交信息中的数字特征以及类别特征,或者还包括用户特征;/n使用滑动窗口平均化来处理当前帖子的文本特征和图像特征,挖掘相同用户不同帖子间的潜在关联,并将平均化结果作为当前帖子的文本和图像特征,再与当前帖子的其他特征拼接融合;/n在进行特征拼接融合后,基于CatBoost根据是否包含用户特征来训练两个独立的模型,CatBoostA模型与CatBoostB模型;/n测试阶段,对于待预测的帖子,根据其是否包含用户特征来对训练后的CatBoostA模型与CatBoostB模型设置不同的权重进行社交媒体流行度预测。/n

【技术特征摘要】
1.一种基于组合策略的社交网络媒体信息流行度预测方法,其特征在于,包括:
对于训练集中每一包含多媒体特征的帖子,从中提取多模态特征,包括:图像特征、文本特征、社交信息中的数字特征以及类别特征,或者还包括用户特征;
使用滑动窗口平均化来处理当前帖子的文本特征和图像特征,挖掘相同用户不同帖子间的潜在关联,并将平均化结果作为当前帖子的文本和图像特征,再与当前帖子的其他特征拼接融合;
在进行特征拼接融合后,基于CatBoost根据是否包含用户特征来训练两个独立的模型,CatBoostA模型与CatBoostB模型;
测试阶段,对于待预测的帖子,根据其是否包含用户特征来对训练后的CatBoostA模型与CatBoostB模型设置不同的权重进行社交媒体流行度预测。


2.根据权利要求1所述的一种基于组合策略的社交网络媒体信息流行度预测方法,其特征在于,
通过预训练模型ResNeXt从帖子中的图像中提取通用特征表示,预训练模型ResNeXt最后一个池化层输出的特征即为图像特征;
通过预训练的深度学习模型Bert和Glove提取文本特征;对于每一个句子各自通过预训练的深度学习模型Bert和Glove提取向量,再进行平均化作为整个句子的文本特征;
社交信息中的数字特征包括:非数值形式的特征,即帖子的时间戳;以及数值形式的特征,即发布位置、转发数目、评论数目和点赞数目;对于时间戳,转化成数值形式的年月日小时格式;
类别特征包括:利用CatBoost的有序目标统计方法将用户ID、用户类型和发布平台各自进行转换,获得的统计值;
用户特征包括:...

【专利技术属性】
技术研发人员:张勇东毛震东王凯
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1