The present invention relates to the technical field of data processing, especially a prediction method for information of heat, the invention considers to be predicted information changes at different times of the trend prediction model by using the corresponding different time to feature data information fitting in different time, and considering a long impact on the forecast results, the prediction results obtained with different weights the corresponding period: the comprehensive heat forecast information in the next period of time. In addition, an information recommendation method and device matching the method is also provided. The present invention provides an information heat prediction method, a information recommendation method and a device that can accurately predict the information heat.
【技术实现步骤摘要】
一种信息热度预测方法、信息推荐方法及装置
本专利技术涉及数据处理
,特别涉及一种信息热度预测方法、信息推荐方法及装置。
技术介绍
热门文章预测系统是根据文章发表的各维度特征去预测文章在未来一段时间的流行程度。例如根据文章在发表后的1个小时内的阅读序列特征去预测文章在未来24小时的转发是否会超过一定阈值,对与超过阈值的文章进行后续应用,例如推荐、控制、识别等。现有技术方案的流程如图1所示,包括(1)收集日志数据,利用收集的数据进行人工特征提取,其中,数据维度可以包括文章历史阅读转发信息、发表公众号的基本信息、转发人数的基础属性等,人工特征提取包含大量的特征工程的工作;(2)利用传统模型预测,即使用上一个步骤产生的训练样本对SVM、LR、GBDT等传统机器学习模型进行训练;(3)将模型的预测结果进行输出,对预测结果进行下一步的处理或应用。在实现上述预测的过程中,专利技术人发现现有技术至少存在以下问题:现有趋势类预测系统在构建上,大多使用单个模型对样本进行预测,在样本训练过程中没有考虑一个样本在不同时间点的可预测情况。并且对不同时间状态下的同一样本在训练过程没有多 ...
【技术保护点】
一种信息热度预测方法,其特征在于,该方法包括:采集一已发表信息的日志数据;根据所述日志数据提取所述已发表信息在多个发表时段的特征数据;根据预先建立的发表时段与预测模型的对应关系,将所述已发表信息在多个发表时段内的特征数据分别输入至对应的预测模型中,得到与所述多个发表时段一一对应的多个预测结果;根据各个预测结果的权重计算得到所述已发表信息的热度预测结果。
【技术特征摘要】
1.一种信息热度预测方法,其特征在于,该方法包括:采集一已发表信息的日志数据;根据所述日志数据提取所述已发表信息在多个发表时段的特征数据;根据预先建立的发表时段与预测模型的对应关系,将所述已发表信息在多个发表时段内的特征数据分别输入至对应的预测模型中,得到与所述多个发表时段一一对应的多个预测结果;根据各个预测结果的权重计算得到所述已发表信息的热度预测结果。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:将所述已发表信息的主题与热门主题进行比对,根据比对结果对所述已发表信息的热度预测结果进行修正。3.根据权利要求2所述的方法,其特征在于,所述将所述已发表信息的主题与热门主题进行比对,根据比对结果对所述已发表信息的热度预测结果进行修正,包括:提取所述已发表信息的主题,并获取热门主题,所述热门主题包括热度排名靠前的多个主题;计算所述已发表信息的主题与热门主题的匹配度,如果匹配度不低于预设值,则在所述已发表信息的热度预测结果基础上提高预测预期,如果匹配度低于预设值,则在所述已发表信息的热度预测结果基础上降低预测预期。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取与各发表时段对应的预测模型;根据各发表时段对应的预测模型,建立发表时段与预测模型的对应关系。5.根据权利要求4所述的方法,其特征在于,所述预测模型通过以下方法建立:按照发表时段对原始训练集进行划分,得到多个对应不同发表时段的训练集,每个训练集包括样本信息在对应发表时段内的特征数据和与所述特征数据对应的热度数据,将对应同一发表时段的所有训练集输入到预先建立的神经网络结构中进行多次迭代,计算根据特征数据得到各个热度数据的概率,使迭代之后得到的根据特征数据得到对应的热度数据的概率最大,得到与该发表时段对应的预测模型。6.根据权利要求1所述的方法,其特征在于,所述根据各个预测结果的权重计算得到所述已发表信息的热度预测结果,包括:获取各个预测结果的权重,其中,预测结果的权重与该预测结果对应的发表时段的时长成正比;计算多个预测结果的加权平均值,将所述加权平均值作为所述已发表信息的热度预测结果。7.一种信息推荐方法,其特征在于,该方法包括:采集一已发表信息的日志数据;根据所述日志数据提取所述已发表信息在多个发表时段的特征数据;根据预先建立的发表时段与预测模型的对应关系,将所述已发表信息在多个发表时段内的特征数据分别输入至对应的预测模型中,得到与所述多个发表时段一一对应的多个预测结果;根据各个预测结果的权重计算得到所述已发表信息的热度预测结果;按照所述已发表信息的热度预测结果...
【专利技术属性】
技术研发人员:邱立威,易玲玲,贾淳硖,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。