一种新闻热度预估方法及系统技术方案

技术编号:16529014 阅读:59 留言:0更新日期:2017-11-09 20:47
本发明专利技术公开一种新闻热度预估方法及系统,相对于传统的基于统计的新闻热度打分系统而言,例如贝叶斯平滑等方法,本发明专利技术提出了基于深度和宽度学习构建冷启动新闻(即没有展示历史点击、曝光信息的新入库的新闻)的热度预估模型,并利用该模型对冷启动新闻进行热度预估的方案,基于深度和宽度学习训练模型的构思可使得模型取得准确率上的提升,且由于本发明专利技术方案能够实现对冷启动新闻进行热度预估,从而无需以新闻曝光为前提,且可加大高质量的冷启动新闻曝光的概率,并提高高质量冷启动新闻曝光的实时性。

【技术实现步骤摘要】
一种新闻热度预估方法及系统
本专利技术属于新闻的个性化推荐领域,尤其涉及一种新闻热度预估方法及系统。
技术介绍
在新闻个性化推荐领域中,往往需要对新闻热度进行计算打分,来实现对高热度新闻进行推荐。传统的新闻热度计算方式多采用基于历史点击统计状况的热文评分技术,比如利用贝叶斯平滑的新闻热度计算等。具体地,热文评分技术,一般是通过对用户在文章的点击情况进行统计,进而对文章进行热度打分,也就是说,在该热文评分技术中,新闻必须有曝光才能计算分值。众所周知,在新闻推荐领域中,新闻推荐的准确性和时效性是影响用户体验十分重要的因素之一,从而使得新闻热度计算的准确性与实时性尤为重要,而所述热文评分技术,由于需要以新闻曝光为前提,从而会大大降低新闻推送的时效性,同时对于曝光次数有限的文章其打分精度显然存在精度较低的问题,导致新闻推荐的置信度不高。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种新闻热度预估方法及系统,旨在克服现有技术的热文评分技术在进行新闻热度评分时存在的时效性及准确性较低的问题,提高新闻推荐的时效性及置信度。为此,本专利技术公开如下技术方案:一种新闻热度预估方法,包括:获取具有热度信息的历史新闻作为训练数据,并对训练数据进行预处理;对预处理后的训练数据中的历史新闻进行词语向量化处理,得到历史新闻在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻主题词的词向量;其中,所述新闻标题词为对历史新闻的标题进行分词所得的词语,所述新闻主题词为对历史新闻的新闻全文数据对应的分词进行聚类所得的词语;利用预定的第一深度神经网络、第二深度神经网络及第三深度神经网络,以一对一方式分别以所述新闻标题词的词向量、新闻关键词的词向量及新闻主题词的词向量为特征进行并行训练,得到基于深度和宽度学习的神经网络模型,并获得训练后输出的向量结果;所述向量结果包括:新闻标题在语义特征上的向量,新闻关键词在语义特征上的向量以及新闻主题在语义特征上的向量;对所述向量结果包括的各种向量进行连接,得到连接向量,并以所述连接向量为特征,以历史新闻的热度信息为参考,利用预定分类算法训练新闻的热度预估模型;利用所述热度预估模型,对存在热度预估需求的新闻进行热度预估。上述方法,优选的,所述对训练数据进行预处理,包括:对所述训练数据中的新闻内容进行超文本标记语言HTML标签过滤;对去掉HTML标签的新闻内容中的标题部分、关键词部分及正文部分进行分词,得到新闻标题词、新闻关键词及新闻正文词;并对各分词结果进行编号。上述方法,优选的,所述对预处理后的训练数据中的历史新闻进行词语向量化处理,得到历史新闻在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻主题词的词向量,包括:利用预训练的词语转向量模型对历史新闻的新闻标题词、新闻关键词及新闻正文词进行向量化处理,得到历史新闻的在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻正文词的词向量;所述词语转向量模型为利用预定的词向量算法基于预训练时所使用文章中词的上下文预训练的模型;对所述新闻标题词的词向量、新闻关键词的词向量以及新闻正文词的词向量进行聚类,得到新闻主题词的词向量。上述方法,优选的,所述利用预定的第一深度神经网络、第二深度神经网络及第三深度神经网络,以一对一方式分别以所述新闻标题词的词向量、新闻关键词的词向量及新闻主题词的词向量为特征进行并行训练,包括:采用长短期记忆模型LSTM,并以所述新闻标题词的词向量为LSTM的特征输入,采用卷积神经网络CNN,并以所述新闻关键词的词向量为CNN的特征输入,采用多层感知机MLP,并以新闻主题词的词向量为MLP的特征输入进行并行训练,得到基于深度和宽度学习的神经网络模型。上述方法,优选的,所述以所述连接向量为特征,以历史新闻的热度信息为参考,利用预定分类算法训练新闻的热度预估模型,包括:采用逻辑回归分类算法LR,并以所述连接向量为LR的特征输入,训练新闻的热度预估模型;训练所得的所述热度预估模型提供各种词向量特征的热度贡献度权重,以支持对新闻进行热度预估;将所述热度预估模型输出的历史新闻的热度预估结果,与历史新闻的实际热度信息进行比对,并将比对结果反馈至所述神经网络模型以及所述热度预估模型的训练中,通过基于反馈的多次迭代训练过程使得所述神经网络模型以及所述热度预估模型不断得以校准。一种新闻热度预估系统,包括:数据获取及预处理单元,用于获取具有热度信息的历史新闻作为训练数据,并对训练数据进行预处理;向量化处理单元,用于对预处理后的训练数据中的历史新闻进行词语向量化处理,得到历史新闻在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻主题词的词向量;其中,所述新闻标题词为对历史新闻的标题进行分词所得的词语,所述新闻主题词为对历史新闻的新闻全文数据对应的分词进行聚类所得的词语;神经网络模型训练单元,用于利用预定的第一深度神经网络、第二深度神经网络及第三深度神经网络,以一对一方式分别以所述新闻标题词的词向量、新闻关键词的词向量及新闻主题词的词向量为特征进行并行训练,得到基于深度和宽度学习的神经网络模型,并获得训练后输出的向量结果;所述向量结果包括:新闻标题在语音特征上的向量,新闻关键词在语义特征上的向量以及新闻主题在语义特征上的向量;预估模型训练单元,用于对所述向量结果包括的各种向量进行连接,得到连接向量,并以所述连接向量为特征,以历史新闻的热度信息为参考,利用预定分类算法训练新闻的热度预估模型;预测单元,用于利用所述热度预估模型,对存在热度预估需求的新闻进行热度预估。上述系统,优选的,所述数据获取及预处理单元对训练数据进行预处理,进一步包括:对所述训练数据中的新闻内容进行HTML标签过滤;对去掉HTML标签的新闻内容中的标题部分、关键词部分及正文部分进行分词,得到新闻标题词、新闻关键词及新闻正文词;并对各分词结果进行编号。上述系统,优选的,所述向量化处理单元,具体用于:利用预训练的词语转向量模型对历史新闻的新闻标题词、新闻关键词及新闻正文词进行向量化处理,得到历史新闻的在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻正文词的词向量;所述词语转向量模型为利用预定的词向量算法基于预训练时所使用文章中词的上下文预训练的模型;对所述新闻标题词的词向量、新闻关键词的词向量以及新闻正文词的词向量进行聚类,得到新闻主题词的词向量。上述系统,优选的,所述神经网络模型训练单元,具体用于:采用长短期记忆模型LSTM,并以所述新闻标题词的词向量为LSTM的特征输入,采用卷积神经网络CNN,并以所述新闻关键词的词向量为CNN的特征输入,采用多层感知机MLP,并以新闻主题词的词向量为MLP的特征输入进行并行训练,得到基于深度和宽度学习的神经网络模型。上述系统,优选的,所述预估模型训练单元,具体用于:采用逻辑回归分类算法LR,并以所述连接向量为LR的特征输入,训练新闻的热度预估模型;训练所得的所述热度预估模型提供各种词向量特征的热度贡献度权重,以支持对新闻进行热度预估;将所述热度预估模型输出的历史新闻的热度预估结果,与历史新闻的实际热度信息进行比对,并将比对结果反馈至所述神经网络模型以及所述热度预估模型的训练中,通过基于反馈的多次迭代训练过程使得所本文档来自技高网...
一种新闻热度预估方法及系统

【技术保护点】
一种新闻热度预估方法,其特征在于,包括:获取具有热度信息的历史新闻作为训练数据,并对训练数据进行预处理;对预处理后的训练数据中的历史新闻进行词语向量化处理,得到历史新闻在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻主题词的词向量;其中,所述新闻标题词为对历史新闻的标题进行分词所得的词语,所述新闻主题词为对历史新闻的新闻全文数据对应的分词进行聚类所得的词语;利用预定的第一深度神经网络、第二深度神经网络及第三深度神经网络,以一对一方式分别以所述新闻标题词的词向量、新闻关键词的词向量及新闻主题词的词向量为特征进行并行训练,得到基于深度和宽度学习的神经网络模型,并获得训练后输出的向量结果;所述向量结果包括:新闻标题在语义特征上的向量,新闻关键词在语义特征上的向量以及新闻主题在语义特征上的向量;对所述向量结果包括的各种向量进行连接,得到连接向量,并以所述连接向量为特征,以历史新闻的热度信息为参考,利用预定分类算法训练新闻的热度预估模型;利用所述热度预估模型,对存在热度预估需求的新闻进行热度预估。

【技术特征摘要】
1.一种新闻热度预估方法,其特征在于,包括:获取具有热度信息的历史新闻作为训练数据,并对训练数据进行预处理;对预处理后的训练数据中的历史新闻进行词语向量化处理,得到历史新闻在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻主题词的词向量;其中,所述新闻标题词为对历史新闻的标题进行分词所得的词语,所述新闻主题词为对历史新闻的新闻全文数据对应的分词进行聚类所得的词语;利用预定的第一深度神经网络、第二深度神经网络及第三深度神经网络,以一对一方式分别以所述新闻标题词的词向量、新闻关键词的词向量及新闻主题词的词向量为特征进行并行训练,得到基于深度和宽度学习的神经网络模型,并获得训练后输出的向量结果;所述向量结果包括:新闻标题在语义特征上的向量,新闻关键词在语义特征上的向量以及新闻主题在语义特征上的向量;对所述向量结果包括的各种向量进行连接,得到连接向量,并以所述连接向量为特征,以历史新闻的热度信息为参考,利用预定分类算法训练新闻的热度预估模型;利用所述热度预估模型,对存在热度预估需求的新闻进行热度预估。2.根据权利要求1所述的方法,其特征在于,所述对训练数据进行预处理,包括:对所述训练数据中的新闻内容进行超文本标记语言HTML标签过滤;对去掉HTML标签的新闻内容中的标题部分、关键词部分及正文部分进行分词,得到新闻标题词、新闻关键词及新闻正文词;并对各分词结果进行编号。3.根据权利要求2所述的方法,其特征在于,所述对预处理后的训练数据中的历史新闻进行词语向量化处理,得到历史新闻在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻主题词的词向量,包括:利用预训练的词语转向量模型对历史新闻的新闻标题词、新闻关键词及新闻正文词进行向量化处理,得到历史新闻的在语义层面上的新闻标题词的词向量、新闻关键词的词向量以及新闻正文词的词向量;所述词语转向量模型为利用预定的词向量算法基于预训练时所使用文章中词的上下文预训练的模型;对所述新闻标题词的词向量、新闻关键词的词向量以及新闻正文词的词向量进行聚类,得到新闻主题词的词向量。4.根据权利要求3所述的方法,其特征在于,所述利用预定的第一深度神经网络、第二深度神经网络及第三深度神经网络,以一对一方式分别以所述新闻标题词的词向量、新闻关键词的词向量及新闻主题词的词向量为特征进行并行训练,包括:采用长短期记忆模型LSTM,并以所述新闻标题词的词向量为LSTM的特征输入,采用卷积神经网络CNN,并以所述新闻关键词的词向量为CNN的特征输入,采用多层感知机MLP,并以新闻主题词的词向量为MLP的特征输入进行并行训练,得到基于深度和宽度学习的神经网络模型。5.根据权利要求4所述的方法,其特征在于,所述以所述连接向量为特征,以历史新闻的热度信息为参考,利用预定分类算法训练新闻的热度预估模型,包括:采用逻辑回归分类算法LR,并以所述连接向量为LR的特征输入,训练新闻的热度预估模型;训练所得的所述热度预估模型提供各种词向量特征的热度贡献度权重,以支持对新闻进行热度预估;将所述热度预估模型输出的历史新闻的热度预估结果,与历史新闻的实际热度信息进行比对,并将比对结果反馈至所述神经网络模型以及所述热度...

【专利技术属性】
技术研发人员:安鸣佳
申请(专利权)人:北京搜狐新媒体信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1