一种资讯标签兴趣度的预估方法技术

技术编号:19425068 阅读:28 留言:0更新日期:2018-11-14 10:36
本发明专利技术公开一种资讯标签兴趣度的预估方法,包括:创建并维护含标签的候选资讯库;根据用户人口学信息得到用户属性资讯标签兴趣度向量;获取预设时间段内多个用户的历史行为数据并进行预处理,得到已训练的深度学习模型;获取当前用户的历史行为数据并进行预处理,得到当前用户的用户行为资讯标签兴趣度向量;根据当前用户的用户属性资讯标签兴趣度向量和用户行为资讯标签兴趣度向量计算得到用户‑资讯标签兴趣度向量,最终确定用户最感兴趣的若干个资讯标签。本发明专利技术解决用户兴趣度预估的冷启动问题,避免了直接从互联网中选取资讯时常会出现的资讯质量低的问题,同时降低了对用户兴趣度预估问题的计算量,适用于每个样本含有多个标签的场景。

【技术实现步骤摘要】
一种资讯标签兴趣度的预估方法
本专利技术涉及的是一种资讯标签兴趣度的预估方法,属于计算

技术介绍
随着互联网的快速发展,网络上资讯数量庞大且呈爆炸式增长,而资讯的质量却良莠不齐,若直接对获取的所有资讯进行用户兴趣度预估操作,很可能会将内容质量较差的资讯推送给用户,影响用户体验,且对所有资讯进行用户兴趣度预估操作会导致算法计算量增大,对计算资源造成浪费。虽然用户浏览的资讯不同,但资讯对应的资讯标签往往可划分为几大类别,且用户对某资讯标签的感兴趣持续时间要远超过对某一个资讯的感兴趣持续时间。例如用户浏览了某个资讯标签为“财经”的资讯后基本不会重新阅读同一个资讯,但用户仍然对“财经”标签的其他资讯感兴趣。因此通过对用户对资讯标签的兴趣度预估方法找到用户感兴趣的资讯标签,对资讯个性化推送等研究和应用具有重要意义。当前实际应用中所使用的用户兴趣度预估方法中普遍存在的问题是冷启动问题,即用户未浏览过资讯时如何对用户进行兴趣度预估。现有技术中,有通过基于递归神经网络的方法进行预估,该方法通过将用户浏览的资讯对应的资讯标签依次输入递归神经网络中来进行训练和预测用户感兴趣的资讯标签。该方法可以利用用户历史行为中的时序特征,因此在训练样本充足和递归神经网络参数调节合适的情况下,效果较好。但是该方法存在以下缺陷:1在用户未浏览过任何资讯时无法进行用户兴趣度预估。2无法利用用户的人口学信息,如性别、年龄、地域等。现有技术中,有通过基于TF-IDF(词频-逆文本频率指数)的方法得到每个资讯的关键词,通过对当前用户浏览的资讯中的关键词进行统计分析得到用户对各个关键词的兴趣度。TF-IDF方法是一种统计方法,对于一个资讯来说,某字词出现在该资讯中的频率体现了该字词的重要程度,某字词在该资讯中出现的次数越多,该字词在该资讯中的重要性越大,但该字词的重要性会随着该字词在全部资讯中出现的频率的升高而下降。即如果某字词在当前资讯中出现的频率高,并且在其他资讯中很少出现,则认为该字词可以很好地代表该资讯,此时该字词即为当前资讯的关键词。通过对用户浏览的资讯中的关键词进行统计分析,可得到用户对各个关键词的兴趣度,可用于后续基于资讯关键词的资讯个性化推送,但是该方法存在以下缺陷:1对每个资讯中的每个字词统计该字词在当前资讯中出现的次数、在所有资讯中出现的次数,计算量较大。2统计得到的关键词分布太广泛,且每个关键词代表的内容可能针对于很小的领域,不利于控制预估的用户感兴趣的资讯范围。例如使用TF-IDF得到用户浏览的某资讯对应的关键词为“林黛玉”,若根据该关键词对用户进行用户兴趣度预估,则后续给用户的资讯推送中很可能会过于集中于包含“林黛玉”的资讯,而难以很好地扩展到“红楼梦”或“中国文学”等,影响兴趣度预估和资讯推送效果。3即使某资讯包含的关键词在用户兴趣度预估时得分很高,也可能因为资讯质量问题而不能引起用户兴趣。4在用户未浏览过任何资讯时无法进行用户兴趣度预估。5用户浏览过所有资讯在进行用户兴趣度预估时具有同等地位,不能体现出不同浏览先后顺序的资讯对当前时刻进行用户兴趣度预估时的差异。而往往较近浏览的资讯对当前的兴趣度预估的影响较大。6无法利用用户的人口学信息,如性别、年龄、地域等。现有技术中,有通过基于梯度提升决策树方法的用户兴趣度预估方法进行预估,梯度提升决策树(GBDT)是一种通过迭代多棵回归树来共同决策的机器学习方法。梯度提升决策树由多棵回归树组成,每一棵回归树通过学习之前所有回归树的结果和残差,拟合得到当前回归树。此处残差指的是真实值与预测值相减的值。所有回归树的结果累加起来作为梯度提升决策树的最终结果。该方法可以同时利用用户的人口学信息和用户浏览的资讯对应的资讯标签信息。但是该方法存在以下缺陷:1梯度提升决策树本质上适用于回归问题,或通过设置阈值而完成二分类问题。对于用户对资讯标签兴趣度预估问题来说,资讯标签库中含有的标签数量较多,且每个资讯所含的标签往往不止一个,梯度提升决策树每次计算只能得到用户对某一个标签的兴趣度预估值,如果想要获取用户对各资讯标签的兴趣度,需对每个资讯标签分别采用梯度提升决策树方法来进行兴趣度预估,计算量是解决二分类问题时的梯度提升决策树计算量的m倍(m为资讯标签库中的标签总数),计算量较大。2用户浏览过所有资讯在进行用户兴趣度预估时具有同等地位,不能体现出不同浏览先后顺序的资讯对当前时刻进行用户兴趣度预估时的差异。而往往较近浏览的资讯对当前的兴趣度预估的影响较大。
技术实现思路
针对上述缺陷,本专利技术提供了一种资讯标签兴趣度的预估方法,通过建立用户属性-资讯标签兴趣度向量,解决用户兴趣度预估的冷启动问题,建立含标签的候选资讯库,避免了直接从互联网中选取资讯时常会出现的资讯质量低的问题,降低了对用户兴趣度预估问题的计算量,适用于每个样本含有多个标签的场景。为达到上述目的,本专利技术通过以下技术方案来具体实现:本专利技术提供了一种资讯标签兴趣度的预估方法,该方法包括:创建并维护含标签的候选资讯库;根据用户人口学信息得到用户属性-资讯标签兴趣度向量;获取预设时间段内多个用户的历史行为数据并进行预处理,输入深度学习模型进行训练得到已训练的深度学习模型;获取当前用户的历史行为数据并进行预处理,使用已训练的深度学习模型计算得到当前用户的用户行为-资讯标签兴趣度向量;根据当前用户的用户属性-资讯标签兴趣度向量和用户行为-资讯标签兴趣度向量计算得到用户-资讯标签兴趣度向量,最终确定用户最感兴趣的若干个资讯标签。进一步的,所述创建并维护含标签的候选资讯库的步骤包括:从预设的资讯标签库中选择与资讯内容最匹配的一个或多个标签作为该资讯的标签,将添加标签后的资讯加入含标签的候选资讯库中;对候选资讯库中的每个资讯,根据资讯对应的资讯标签将每个资讯用一个m维的资讯向量表示,m为预设的资讯标签库中的标签总数;当该资讯含有标签Tj时,m维资讯向量的第j维取值为1,否则第j维取值为0;定期对含标签的候选资讯库进行维护,添加新的资讯,移除失去时效性的资讯。进一步的,所述用户人口学信息包括但不限于:可获取的性别、年龄和/或地域信息中的一种或多种对用户划分出若干群体的信息。进一步的,所述根据用户人口学信息得到用户属性-资讯标签兴趣度向量包括:第i个群体Gi对第j个资讯标签Tj的用户属性-资讯标签兴趣度向量Hij为:Hij的值介于[0,1]之间。进一步的,所述获取预设时间段内多个用户的历史行为数据并进行预处理,输入深度学习模型进行训练得到已训练的深度学习模型,包括:获取预设时间段内多个用户的历史行为数据中浏览的每个资讯对应的资讯向量,并将资讯向量按浏览资讯的时间先后顺序输入递归神经网络模型中进行递归神经网络模型的训练,得到已训练的深度学习模型。进一步的,所述获取当前用户的历史行为数据并进行预处理,使用已训练的深度学习模型计算得到当前用户的用户行为-资讯标签兴趣度向量,包括:获取当前用户的历史行为数据中浏览的每个资讯对应的资讯向量,按照时间先后顺序排列;将当前用户的历史行为数据中的每个资讯对应的资讯向量按时间先后顺序依次输入到已训练的深度学习模型中,当历史行为数据中的每个资讯对应的资讯向量全部输入完毕后,此时已训练的深度学习模型得到的m维预测本文档来自技高网
...

【技术保护点】
1.一种资讯标签兴趣度的预估方法,其特征在于,该方法包括:创建并维护含标签的候选资讯库;根据用户人口学信息得到用户属性‑资讯标签兴趣度向量;获取预设时间段内多个用户的历史行为数据并进行预处理,输入深度学习模型进行训练得到已训练的深度学习模型;获取当前用户的历史行为数据并进行预处理,使用已训练的深度学习模型计算得到当前用户的用户行为‑资讯标签兴趣度向量;根据当前用户的用户属性‑资讯标签兴趣度向量和用户行为‑资讯标签兴趣度向量计算得到用户‑资讯标签兴趣度向量,最终确定用户最感兴趣的若干个资讯标签。

【技术特征摘要】
1.一种资讯标签兴趣度的预估方法,其特征在于,该方法包括:创建并维护含标签的候选资讯库;根据用户人口学信息得到用户属性-资讯标签兴趣度向量;获取预设时间段内多个用户的历史行为数据并进行预处理,输入深度学习模型进行训练得到已训练的深度学习模型;获取当前用户的历史行为数据并进行预处理,使用已训练的深度学习模型计算得到当前用户的用户行为-资讯标签兴趣度向量;根据当前用户的用户属性-资讯标签兴趣度向量和用户行为-资讯标签兴趣度向量计算得到用户-资讯标签兴趣度向量,最终确定用户最感兴趣的若干个资讯标签。2.如权利要求1所述的方法,其特征在于,所述创建并维护含标签的候选资讯库的步骤包括:从预设的资讯标签库中选择与资讯内容最匹配的一个或多个标签作为该资讯的标签,将添加标签后的资讯加入含标签的候选资讯库中;对候选资讯库中的每个资讯,根据资讯对应的资讯标签将每个资讯用一个m维的资讯向量表示,m为预设的资讯标签库中的标签总数;当该资讯含有标签Tj时,m维资讯向量的第j维取值为1,否则第j维取值为0;定期对含标签的候选资讯库进行维护,添加新的资讯,移除失去时效性的资讯。3.如权利要求1所述的方法,其特征在于,所述用户人口学信息包括但不限于:可获取的性别、年龄和/或地域信息中的一种或多种对用户划分出若干群体的信息。4.如权利要求1或3所述的方法,其特征在于,所述根据用户人口学信息得到用户属性-资讯标签兴趣度向量包括:第i个群体Gi对第j个资讯标签Tj的用户属性-资讯标签兴趣度向量Hij为:Hij的值介于[0,1]之间。5.如权利要求1所述的方法,其特征在于,所述获取预设时间段内多个用户的历史行为数据并进行预处理,输入深度学习模型进行训练得到已训练的深度学习模型,包括:获取预设时间段内多个用户的历史行为数据中浏览的每个...

【专利技术属性】
技术研发人员:常剑孙宇张洪刚徐彬高珊
申请(专利权)人:联通在线信息科技有限公司北京邮电大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1