文档推荐方法、装置、设备及计算机可读介质制造方法及图纸

技术编号：19593462 阅读：16 留言：0更新日期：2018-11-28 04:54

本发明专利技术提出一种文档推荐方法、装置、设备及计算机可读介质，文档推荐方法包括：获取原文档，其中，所述原文档包括标题和正文，分别用于提取主题类信息和关注点信息；采用泛标签分类模型，确定所述原文档的泛标签，其中，所述泛标签的分类粒度介于基于所述主题类信息的分类粒度和基于所述关注点信息的分类粒度之间；以及确定推荐文档，其中，所述推荐文档与所述原文档具有相匹配的泛标签，可基于泛标签分类模型，以更好地建模用户兴趣，进行更精准地文档推荐。

全部详细技术资料下载

【技术实现步骤摘要】
文档推荐方法、装置、设备及计算机可读介质
本专利技术涉及信息推荐技术，尤其涉及一种基于泛标签的文档推荐方法、装置、设备及计算机可读介质。
技术介绍
随着互联网的发展，信息流服务已经逐步取代传统媒体成为人们获取信息的重要手段。同时，信息流承载着太多的信息，很容易使用户淹没在咨询的海洋里。如何通过建模用户兴趣，实现较精准的信息推送是亟待解决的问题。
技术实现思路
本专利技术实施例提供一种文档推荐方法、装置、设备及计算机可读介质，以至少解决现有技术中的一个或多个技术问题。第一方面，本专利技术实施例提供一种文档推荐方法，包括：获取原文档，其中，所述原文档包括标题和正文，分别用于提取主题类信息和关注点信息；采用泛标签分类模型，确定所述原文档的泛标签，其中，所述泛标签的分类粒度介于基于所述主题类信息的分类粒度和基于所述关注点信息的分类粒度之间；以及确定推荐文档，其中，所述推荐文档与所述原文档具有相匹配的泛标签。结合第一方面，本专利技术实施例在第一方面的第一种实施方式中，如果获取到的原文档为多个，则所述方法还包括：确定用户对于多个原文档的点击量；所述确定推荐文档包括：为点击量最大的原文档确定推荐文档。结合第一方面，本专利技术实施例在第一方面的第二种实施方式中，所述采用泛标签分类模型，确定所述原文档的泛标签的步骤包括：采用所述泛标签分类模型输出多个泛标签及每个泛标签的概率分布，将概率最大的泛标签确定为所述原文档的泛标签。结合第一方面，本专利技术实施例在第一方面的第三种实施方式中，所述还包括：获取训练语料，所述训练语料包括多个样本文档；以及基于所述训练语料，采用至少两种神经网络...

【技术保护点】
1.一种文档推荐方法，其特征在于，包括：获取原文档，其中，所述原文档包括标题和正文，分别用于提取主题类信息和关注点信息；采用泛标签分类模型，确定所述原文档的泛标签，其中，所述泛标签的分类粒度介于基于所述主题类信息的分类粒度和基于所述关注点信息的分类粒度之间；以及确定推荐文档，其中，所述推荐文档与所述原文档具有相匹配的泛标签。

【技术特征摘要】
1.一种文档推荐方法，其特征在于，包括：获取原文档，其中，所述原文档包括标题和正文，分别用于提取主题类信息和关注点信息；采用泛标签分类模型，确定所述原文档的泛标签，其中，所述泛标签的分类粒度介于基于所述主题类信息的分类粒度和基于所述关注点信息的分类粒度之间；以及确定推荐文档，其中，所述推荐文档与所述原文档具有相匹配的泛标签。2.根据权利要求1所述的方法，其特征在于，如果获取到的原文档为多个，则所述方法还包括：确定用户对于多个原文档的点击量；所述确定推荐文档包括：为点击量最大的原文档确定推荐文档。3.根据权利要求1所述的方法，其特征在于，所述采用泛标签分类模型，确定所述原文档的泛标签的步骤包括：采用所述泛标签分类模型输出多个泛标签及每个泛标签的概率分布，将概率最大的泛标签确定为所述原文档的泛标签。4.根据权利要求1所述的方法，其特征在于，还包括：获取训练语料，所述训练语料包括多个样本文档；以及基于所述训练语料，采用至少两种神经网络模型相融合的方式进行训练，得到所述泛标签分类模型，其中，所述神经网络模型包括深度神经网络模型、卷积神经网络模型、循环神经网络模型、长短期记忆网络模型、神经网络词袋模型。5.根据权利要求4所述的方法，其特征在于，所述基于所述训练语料，采用至少两种神经网络模型相融合的方式进行训练，得到所述泛标签分类模型的步骤包括：将所述训练语料分别输入卷积神经网络和神经网络词袋模型，以分别得到n维向量和m维向量，其中，n和m均是大于0的正整数；拼接所述n维向量和所述m维向量，以得到n+m维向量；以及基于所述n+m维向量进行训练，得到所述泛标签分类模型。6.根据权利要求1所述的方法，其特征在于，还包括：获取训练语料，所述训练语料包括多个样本文档；以及基于所述训练语料，采用多分类任务学习的方式进行并行训练，得到所述泛标签分类模型。7.根据权利要求6所述的方法，其特征在于，所述采用多分类任务学习的方式包括：以泛标签分类任务学习为主，以主题分类任务学习为辅，其中，所述主题分类任务学习基于所述主题类信息。8.根据权利要求1所述的方法，其特征在于，还包括：获取训练语料，所述训练语料包括多个样本文档；对所述样本文档进行标题提取和正文提取；将提取的标题输入卷积神经网络，以及将提取的正文输入神经网络词袋模型；以及采用以泛标签分类任务学习为主，以主题类任务学习为辅的方式进行模型训练，得到所述泛标签分类模型。9.根据权利要求1至8任一项所述的方法，其特征在于，所述获取训练语料的步骤包括：确立泛标签分类体系，其中，所述泛标签分类体系包括所述泛标签的分类规则；根据所述泛标签分类体系，标注每个样本文档的泛标签分类结果；以及将所述多个样本文档和所标注的泛标签分类结果作为所述训练语料。10.一种文档推荐装置，其特征在于...

【专利技术属性】
技术研发人员：牛国成，何伯磊，陈亮宇，肖欣延，吕雅娟，吴甜，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人