文档推荐方法、装置、设备及计算机可读介质制造方法及图纸

技术编号:19593462 阅读:16 留言:0更新日期:2018-11-28 04:54
本发明专利技术提出一种文档推荐方法、装置、设备及计算机可读介质,文档推荐方法包括:获取原文档,其中,所述原文档包括标题和正文,分别用于提取主题类信息和关注点信息;采用泛标签分类模型,确定所述原文档的泛标签,其中,所述泛标签的分类粒度介于基于所述主题类信息的分类粒度和基于所述关注点信息的分类粒度之间;以及确定推荐文档,其中,所述推荐文档与所述原文档具有相匹配的泛标签,可基于泛标签分类模型,以更好地建模用户兴趣,进行更精准地文档推荐。

【技术实现步骤摘要】
文档推荐方法、装置、设备及计算机可读介质
本专利技术涉及信息推荐技术,尤其涉及一种基于泛标签的文档推荐方法、装置、设备及计算机可读介质。
技术介绍
随着互联网的发展,信息流服务已经逐步取代传统媒体成为人们获取信息的重要手段。同时,信息流承载着太多的信息,很容易使用户淹没在咨询的海洋里。如何通过建模用户兴趣,实现较精准的信息推送是亟待解决的问题。
技术实现思路
本专利技术实施例提供一种文档推荐方法、装置、设备及计算机可读介质,以至少解决现有技术中的一个或多个技术问题。第一方面,本专利技术实施例提供一种文档推荐方法,包括:获取原文档,其中,所述原文档包括标题和正文,分别用于提取主题类信息和关注点信息;采用泛标签分类模型,确定所述原文档的泛标签,其中,所述泛标签的分类粒度介于基于所述主题类信息的分类粒度和基于所述关注点信息的分类粒度之间;以及确定推荐文档,其中,所述推荐文档与所述原文档具有相匹配的泛标签。结合第一方面,本专利技术实施例在第一方面的第一种实施方式中,如果获取到的原文档为多个,则所述方法还包括:确定用户对于多个原文档的点击量;所述确定推荐文档包括:为点击量最大的原文档确定推荐文档。结合第一方面,本专利技术实施例在第一方面的第二种实施方式中,所述采用泛标签分类模型,确定所述原文档的泛标签的步骤包括:采用所述泛标签分类模型输出多个泛标签及每个泛标签的概率分布,将概率最大的泛标签确定为所述原文档的泛标签。结合第一方面,本专利技术实施例在第一方面的第三种实施方式中,所述还包括:获取训练语料,所述训练语料包括多个样本文档;以及基于所述训练语料,采用至少两种神经网络模型相融合的方式进行训练,得到所述泛标签分类模型,其中,所述神经网络模型包括深度神经网络模型、卷积神经网络模型、循环神经网络模型、长短期记忆网络模型、神经网络词袋模型。结合第一方面的第三种实施方式,所述基于所述训练语料,采用至少两种神经网络模型相融合的方式进行训练,得到所述泛标签分类模型的步骤包括:将所述训练语料分别输入卷积神经网络和神经网络词袋模型,以分别得到n维向量和m维向量,其中,n和m均是大于0的正整数;拼接所述n维向量和所述m维向量,以得到n+m维向量;以及基于所述n+m维向量进行训练,得到所述泛标签分类模型。结合第一方面,本专利技术实施例在第一方面的第四种实施方式中,所述方法还包括:获取训练语料,所述训练语料包括多个样本文档;以及基于所述训练语料,采用多分类任务学习的方式进行并行训练,得到所述泛标签分类模型。结合第一方面的第四种实施方式,所述采用多分类任务学习的方式包括:以泛标签分类任务学习为主,以主题分类任务学习为辅,其中,所述主题分类任务学习基于所述主题类信息。结合第一方面,本专利技术实施例在第一方面的第五种实施方式中,所述方法还包括:获取训练语料,所述训练语料包括多个样本文档;对所述样本文档进行标题提取和正文提取;将提取的标题输入卷积神经网络,以及将提取的正文输入神经网络词袋模型;以及采用以泛标签分类任务学习为主,以主题类任务学习为辅的方式进行模型训练,得到所述泛标签分类模型。结合第一方面或以上所述的第一方面中的任一项实施方式,本专利技术实施例在第一方面的第六种实施方式中,所述获取训练语料的步骤包括:确立泛标签分类体系,其中,所述泛标签分类体系包括所述泛标签的分类规则;根据所述泛标签分类体系,标注每个样本文档的泛标签分类结果;以及将所述多个样本文档和所标注的泛标签分类结果作为所述训练语料。第二方面,本专利技术实施例提供一种文档推荐装置,包括:原文档获取模块,用于获取原文档,其中,所述原文档包括标题和正文,分别用于提取主题类信息和关注点信息;泛标签确定模块,用于采用泛标签分类模型,确定所述原文档的泛标签,其中,所述泛标签的分类粒度介于基于所述主题类信息的分类粒度和基于所述关注点信息的分类粒度之间;以及推荐文档确定模块,用于确定推荐文档,其中,所述推荐文档与所述原文档具有相匹配的泛标签。结合第二方面,本专利技术实施例在第二方面的第一种实施方式中,所述装置还包括:用户点击量确定模块,用于在如果获取到的原文档为多个时,确定用户对于多个原文档的点击量;所述推荐文档确定模块还用于为点击量最大的原文档确定推荐文档。。结合第二方面,本专利技术实施例在第二方面的第二种实施方式中,所述泛标签确定模块用于采用所述泛标签分类模型输出多个泛标签及每个泛标签的概率分布,将概率最大的泛标签确定为所述原文档的泛标签。结合第二方面,本专利技术实施例在第二方面的第三种实施方式中,所述装置还包括:训练语料获取模块,用于获取训练语料,所述训练语料包括多个样本文档;以及训练模块,用于基于所述训练语料,采用至少两种神经网络模型相融合的方式进行训练,得到所述泛标签分类模型,其中,所述神经网络模型包括深度神经网络模型、卷积神经网络模型、循环神经网络模型、长短期记忆网络模型、神经网络词袋模型。结合第二方面,本专利技术实施例在第二方面的第四种实施方式中,所述装置还包括:训练语料获取模块,用于获取训练语料,所述训练语料包括多个样本文档;以及训练模块,用于基于所述训练语料,采用多分类任务学习的方式进行并行训练,得到所述泛标签分类模型。结合第二方面,本专利技术实施例在第二方面的第五种实施方式中,所述装置还包括:训练语料获取模块,用于获取训练语料,所述训练语料包括多个样本文档;提取模块,用于对所述样本文档进行标题提取和正文提取;输入模块,用于将提取的标题输入卷积神经网络,以及将提取的正文输入神经网络词袋模型;以及模型训练模块,用于采用以泛标签分类任务学习为主,以主题类任务学习为辅的方式进行模型训练,得到所述泛标签分类模型。结合第二方面或以上第二方面的任一项实施方式,本专利技术实施例在第二方面的第六种实施方式中,所述装置所述训练语料获取模块包括:泛标签分类体系确立单元,用于确立泛标签分类体系,其中,所述泛标签分类体系包括所述泛标签的分类规则;标注单元,用于根据所述泛标签分类体系,标注每个样本文档的泛标签分类结果;以及训练语料确定单元,用于将所述多个样本文档和所标注的泛标签分类结果作为所述训练语料。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块或单元。在一个可能的设计中,文档推荐装置的结构中包括处理器和存储器,所述存储器用于存储支持文档推荐装置执行上述第一方面中的文档推荐方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述文档推荐装置还可以包括通信接口,用于文档推荐装置与其他设备或通信网络通信。第三方面,本专利技术实施例提供了一种计算机可读存储介质,用于存储文档推荐装置所用的计算机软件指令,其包括用于执行上述第一方面中文档推荐方法为文档推荐装置所涉及的程序。本专利技术实施例基于泛标签分类模型,以更好地建模用户兴趣,进行更精准地文档推荐。上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本专利技术进一步的方面、实施方式和特征将会是容易明白的。附图说明在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本专利技术本文档来自技高网...

【技术保护点】
1.一种文档推荐方法,其特征在于,包括:获取原文档,其中,所述原文档包括标题和正文,分别用于提取主题类信息和关注点信息;采用泛标签分类模型,确定所述原文档的泛标签,其中,所述泛标签的分类粒度介于基于所述主题类信息的分类粒度和基于所述关注点信息的分类粒度之间;以及确定推荐文档,其中,所述推荐文档与所述原文档具有相匹配的泛标签。

【技术特征摘要】
1.一种文档推荐方法,其特征在于,包括:获取原文档,其中,所述原文档包括标题和正文,分别用于提取主题类信息和关注点信息;采用泛标签分类模型,确定所述原文档的泛标签,其中,所述泛标签的分类粒度介于基于所述主题类信息的分类粒度和基于所述关注点信息的分类粒度之间;以及确定推荐文档,其中,所述推荐文档与所述原文档具有相匹配的泛标签。2.根据权利要求1所述的方法,其特征在于,如果获取到的原文档为多个,则所述方法还包括:确定用户对于多个原文档的点击量;所述确定推荐文档包括:为点击量最大的原文档确定推荐文档。3.根据权利要求1所述的方法,其特征在于,所述采用泛标签分类模型,确定所述原文档的泛标签的步骤包括:采用所述泛标签分类模型输出多个泛标签及每个泛标签的概率分布,将概率最大的泛标签确定为所述原文档的泛标签。4.根据权利要求1所述的方法,其特征在于,还包括:获取训练语料,所述训练语料包括多个样本文档;以及基于所述训练语料,采用至少两种神经网络模型相融合的方式进行训练,得到所述泛标签分类模型,其中,所述神经网络模型包括深度神经网络模型、卷积神经网络模型、循环神经网络模型、长短期记忆网络模型、神经网络词袋模型。5.根据权利要求4所述的方法,其特征在于,所述基于所述训练语料,采用至少两种神经网络模型相融合的方式进行训练,得到所述泛标签分类模型的步骤包括:将所述训练语料分别输入卷积神经网络和神经网络词袋模型,以分别得到n维向量和m维向量,其中,n和m均是大于0的正整数;拼接所述n维向量和所述m维向量,以得到n+m维向量;以及基于所述n+m维向量进行训练,得到所述泛标签分类模型。6.根据权利要求1所述的方法,其特征在于,还包括:获取训练语料,所述训练语料包括多个样本文档;以及基于所述训练语料,采用多分类任务学习的方式进行并行训练,得到所述泛标签分类模型。7.根据权利要求6所述的方法,其特征在于,所述采用多分类任务学习的方式包括:以泛标签分类任务学习为主,以主题分类任务学习为辅,其中,所述主题分类任务学习基于所述主题类信息。8.根据权利要求1所述的方法,其特征在于,还包括:获取训练语料,所述训练语料包括多个样本文档;对所述样本文档进行标题提取和正文提取;将提取的标题输入卷积神经网络,以及将提取的正文输入神经网络词袋模型;以及采用以泛标签分类任务学习为主,以主题类任务学习为辅的方式进行模型训练,得到所述泛标签分类模型。9.根据权利要求1至8任一项所述的方法,其特征在于,所述获取训练语料的步骤包括:确立泛标签分类体系,其中,所述泛标签分类体系包括所述泛标签的分类规则;根据所述泛标签分类体系,标注每个样本文档的泛标签分类结果;以及将所述多个样本文档和所标注的泛标签分类结果作为所述训练语料。10.一种文档推荐装置,其特征在于...

【专利技术属性】
技术研发人员:牛国成何伯磊陈亮宇肖欣延吕雅娟吴甜
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1