一种资讯标签兴趣度的预估方法技术

技术编号：19425068 阅读：28 留言：0更新日期：2018-11-14 10:36

本发明专利技术公开一种资讯标签兴趣度的预估方法，包括：创建并维护含标签的候选资讯库；根据用户人口学信息得到用户属性资讯标签兴趣度向量；获取预设时间段内多个用户的历史行为数据并进行预处理，得到已训练的深度学习模型；获取当前用户的历史行为数据并进行预处理，得到当前用户的用户行为资讯标签兴趣度向量；根据当前用户的用户属性资讯标签兴趣度向量和用户行为资讯标签兴趣度向量计算得到用户‑资讯标签兴趣度向量，最终确定用户最感兴趣的若干个资讯标签。本发明专利技术解决用户兴趣度预估的冷启动问题，避免了直接从互联网中选取资讯时常会出现的资讯质量低的问题，同时降低了对用户兴趣度预估问题的计算量，适用于每个样本含有多个标签的场景。

全部详细技术资料下载

【技术实现步骤摘要】
一种资讯标签兴趣度的预估方法
本专利技术涉及的是一种资讯标签兴趣度的预估方法，属于计算

技术介绍
随着互联网的快速发展，网络上资讯数量庞大且呈爆炸式增长，而资讯的质量却良莠不齐，若直接对获取的所有资讯进行用户兴趣度预估操作，很可能会将内容质量较差的资讯推送给用户，影响用户体验，且对所有资讯进行用户兴趣度预估操作会导致算法计算量增大，对计算资源造成浪费。虽然用户浏览的资讯不同，但资讯对应的资讯标签往往可划分为几大类别，且用户对某资讯标签的感兴趣持续时间要远超过对某一个资讯的感兴趣持续时间。例如用户浏览了某个资讯标签为“财经”的资讯后基本不会重新阅读同一个资讯，但用户仍然对“财经”标签的其他资讯感兴趣。因此通过对用户对资讯标签的兴趣度预估方法找到用户感兴趣的资讯标签，对资讯个性化推送等研究和应用具有重要意义。当前实际应用中所使用的用户兴趣度预估方法中普遍存在的问题是冷启动问题，即用户未浏览过资讯时如何对用户进行兴趣度预估。现有技术中，有通过基于递归神经网络的方法进行预估，该方法通过将用户浏览的资讯对应的资讯标签依次输入递归神经网络中来进行训练和预测用户感兴趣的资讯标签。该方法可以利用用户历史行为中的时序特征，因此在训练样本充足和递归神经网络参数调节合适的情况下，效果较好。但是该方法存在以下缺陷：1在用户未浏览过任何资讯时无法进行用户兴趣度预估。2无法利用用户的人口学信息，如性别、年龄、地域等。现有技术中，有通过基于TF-IDF(词频-逆文本频率指数)的方法得到每个资讯的关键词，通过对当前用户浏览的资讯中的关键词进行统计分析得到用户对各个关键词的兴趣度...

【技术保护点】
1.一种资讯标签兴趣度的预估方法，其特征在于，该方法包括：创建并维护含标签的候选资讯库；根据用户人口学信息得到用户属性‑资讯标签兴趣度向量；获取预设时间段内多个用户的历史行为数据并进行预处理，输入深度学习模型进行训练得到已训练的深度学习模型；获取当前用户的历史行为数据并进行预处理，使用已训练的深度学习模型计算得到当前用户的用户行为‑资讯标签兴趣度向量；根据当前用户的用户属性‑资讯标签兴趣度向量和用户行为‑资讯标签兴趣度向量计算得到用户‑资讯标签兴趣度向量，最终确定用户最感兴趣的若干个资讯标签。

【技术特征摘要】
1.一种资讯标签兴趣度的预估方法，其特征在于，该方法包括：创建并维护含标签的候选资讯库；根据用户人口学信息得到用户属性-资讯标签兴趣度向量；获取预设时间段内多个用户的历史行为数据并进行预处理，输入深度学习模型进行训练得到已训练的深度学习模型；获取当前用户的历史行为数据并进行预处理，使用已训练的深度学习模型计算得到当前用户的用户行为-资讯标签兴趣度向量；根据当前用户的用户属性-资讯标签兴趣度向量和用户行为-资讯标签兴趣度向量计算得到用户-资讯标签兴趣度向量，最终确定用户最感兴趣的若干个资讯标签。2.如权利要求1所述的方法，其特征在于，所述创建并维护含标签的候选资讯库的步骤包括：从预设的资讯标签库中选择与资讯内容最匹配的一个或多个标签作为该资讯的标签，将添加标签后的资讯加入含标签的候选资讯库中；对候选资讯库中的每个资讯，根据资讯对应的资讯标签将每个资讯用一个m维的资讯向量表示，m为预设的资讯标签库中的标签总数；当该资讯含有标签Tj时，m维资讯向量的第j维取值为1，否则第j维取值为0；定期对含标签的候选资讯库进行维护，添加新的资讯，移除失去时效性的资讯。3.如权利要求1所述的方法，其特征在于，所述用户人口学信息包括但不限于：可获取的性别、年龄和/或地域信息中的一种或多种对用户划分出若干群体的信息。4.如权利要求1或3所述的方法，其特征在于，所述根据用户人口学信息得到用户属性-资讯标签兴趣度向量包括：第i个群体Gi对第j个资讯标签Tj的用户属性-资讯标签兴趣度向量Hij为：Hij的值介于[0，1]之间。5.如权利要求1所述的方法，其特征在于，所述获取预设时间段内多个用户的历史行为数据并进行预处理，输入深度学习模型进行训练得到已训练的深度学习模型，包括：获取预设时间段内多个用户的历史行为数据中浏览的每个...

【专利技术属性】
技术研发人员：常剑，孙宇，张洪刚，徐彬，高珊，
申请(专利权)人：联通在线信息科技有限公司，北京邮电大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人