文章内容深度的评估方法及装置制造方法及图纸

技术编号:21034603 阅读:22 留言:0更新日期:2019-05-04 05:32
本发明专利技术提出一种文章内容深度的评估方法及装置,其中方法包括:获取待评估的文章;将文章输入预设的深度打分模型,以使深度打分模型对文章中的每个段落进行切词以及关键词提取,获取每个关键词对应的向量,根据每个段落中关键词对应的向量确定每个段落对应的向量,根据每个段落对应的向量确定文章对应的向量以及内容深度;获取深度打分模型输出的内容深度,从而能够根据文章的内容对文章进行内容深度打分,提高了文章打分的准确度,提高了文章推荐效率。

【技术实现步骤摘要】
文章内容深度的评估方法及装置
本专利技术涉及数据处理
,尤其涉及一种文章内容深度的评估方法及装置。
技术介绍
目前,搜索引擎以及feed应用等向用户推荐文章时,主要考虑以下两个因素:一是文章与用户需求、用户兴趣的匹配程度;二是文章本身的质量优劣。目前,针对文章本身的质量优劣,主要是基于先验信息对文章进行打分。其中,先验信息例如文章的排版、丰富度、权威性等,不涉及文章的内容,从而降低了文章打分的准确度,降低了文章推荐效率。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种文章内容深度的评估方法,用于解决现有技术中文章质量打分准确度低,导致文章推荐效率差的问题。本专利技术的第二个目的在于提出一种文章内容深度的评估装置。本专利技术的第三个目的在于提出另一种文章内容深度的评估装置。本专利技术的第四个目的在于提出一种非临时性计算机可读存储介质。本专利技术的第五个目的在于提出一种计算机程序产品。为达上述目的,本专利技术第一方面实施例提出了一种文章内容深度的评估方法,包括:获取待评估的文章;将所述文章输入预设的深度打分模型,以使所述深度打分模型对所述文章中的每个段落进行切词以及关键词提取,获取每个关键词对应的向量,根据每个段落中关键词对应的向量确定每个段落对应的向量,根据每个段落对应的向量确定所述文章对应的向量以及内容深度;获取所述深度打分模型输出的内容深度。进一步的,所述深度打分模型的结构为,词向量模型+卷积池化模型+双向长短期记忆网络模型+分类模型;所述词向量模型,用于对所述文章中的每个段落进行切词以及关键词提取,获取每个关键词对应的向量;所述卷积池化模型,用于根据每个段落中关键词对应的向量确定每个段落对应的向量;所述双向长短期记忆网络模型,用于根据每个段落对应的向量确定所述文章对应的向量;所述分类模型,用于根据所述文章对应的向量确定所述文章的内容深度。进一步的,所述获取待评估的文章之前,还包括:获取训练样本,所述训练样本中包括:字数大于预设字数阈值,且用户阅读次数大于预设次数阈值的文章样本;针对所述训练样本中的每篇文章样本,获取所述文章样本对应的用户反馈数据;根据所述用户反馈数据,计算确定所述文章样本对应的质量分数;根据所述训练样本中的每篇文章样本以及对应的质量分数,生成第一训练数据;根据所述第一训练数据对初始深度打分模型进行训练,得到所述深度打分模型。进一步的,所述用户反馈数据包括以下数据中的任意一个或者多个:文章平均停留时长、秒退百分比、用户额外阅读时长、点赞数、踩数、点赞数占比、踩数占比、收藏数、收藏数占比、分享数、分享数占比。进一步的,所述根据所述第一训练数据对初始深度打分模型进行训练,得到所述深度打分模型之后,还包括:获取所述第一训练数据中各篇文章样本对应的作者;针对每个作者,根据所述第一训练数据中所述作者的文章样本对应的质量分数,确定所述作者的优质率或者低质率;根据所述作者的优质率或者低质率,确定所述作者是否为优质作者;获取所述第一训练数据中每个优质作者对应的文章样本的内容深度;根据所述第一训练数据中每个优质作者对应的文章样本的内容深度,生成第二训练数据;根据所述第二训练数据对所述深度打分模型进行训练。进一步的,所述针对每个作者,根据所述第一训练数据中所述作者的文章样本对应的质量分数,确定所述作者的优质率或者低质率,包括:针对每个作者,获取所述第一训练数据中所述作者对应的文章样本的质量分数;将对应的质量分数大于第一质量分数阈值的文章样本确定为优质文章;将对应的质量分数小于第二质量分数阈值的文章样本确定为低质文章;根据所述优质文章的数量和所述低质文章的数量,确定所述作者的优质率或者低质率。本专利技术实施例的文章内容深度的评估方法,通过获取待评估的文章;将文章输入预设的深度打分模型,以使深度打分模型对文章中的每个段落进行切词以及关键词提取,获取每个关键词对应的向量,根据每个段落中关键词对应的向量确定每个段落对应的向量,根据每个段落对应的向量确定文章对应的向量以及内容深度;获取深度打分模型输出的内容深度,从而能够根据文章的内容对文章进行内容深度打分,提高了文章打分的准确度,提高了文章推荐效率。为达上述目的,本专利技术第二方面实施例提出了一种文章内容深度的评估装置,包括:获取模块,用于获取待评估的文章;输入模块,用于将所述文章输入预设的深度打分模型,以使所述深度打分模型对所述文章中的每个段落进行切词以及关键词提取,获取每个关键词对应的向量,根据每个段落中关键词对应的向量确定每个段落对应的向量,根据每个段落对应的向量确定所述文章对应的向量以及内容深度;所述获取模块,还用于获取所述深度打分模型输出的内容深度。进一步的,所述深度打分模型的结构为,词向量模型+卷积池化模型+双向长短期记忆网络模型+分类模型;所述词向量模型,用于对所述文章中的每个段落进行切词以及关键词提取,获取每个关键词对应的向量;所述卷积池化模型,用于根据每个段落中关键词对应的向量确定每个段落对应的向量;所述双向长短期记忆网络模型,用于根据每个段落对应的向量确定所述文章对应的向量;所述分类模型,用于根据所述文章对应的向量确定所述文章的内容深度。进一步的,所述的装置还包括:确定模块、生成模块和训练模块;所述获取模块,还用于获取训练样本,所述训练样本中包括:字数大于预设字数阈值,且用户阅读次数大于预设次数阈值的文章样本;所述获取模块,还用于针对所述训练样本中的每篇文章样本,获取所述文章样本对应的用户反馈数据;所述确定模块,用于根据所述用户反馈数据,计算确定所述文章样本对应的质量分数;所述生成模块,用于根据所述训练样本中的每篇文章样本以及对应的质量分数,生成第一训练数据;所述训练模块,用于根据所述第一训练数据对初始深度打分模型进行训练,得到所述深度打分模型。进一步的,所述用户反馈数据包括以下数据中的任意一个或者多个:文章平均停留时长、秒退百分比、用户额外阅读时长、点赞数、踩数、点赞数占比、踩数占比、收藏数、收藏数占比、分享数、分享数占比。进一步的,所述获取模块,还用于获取所述第一训练数据中各篇文章样本对应的作者;所述确定模块,还用于针对每个作者,根据所述第一训练数据中所述作者的文章样本对应的质量分数,确定所述作者的优质率或者低质率;所述确定模块,还用于根据所述作者的优质率或者低质率,确定所述作者是否为优质作者;所述获取模块,还用于获取所述第一训练数据中每个优质作者对应的文章样本的内容深度;所述生成模块,还用于根据所述第一训练数据中每个优质作者对应的文章样本的内容深度,生成第二训练数据;所述训练模块,还用于根据所述第二训练数据对所述深度打分模型进行训练。进一步的,所述确定模块具体用于,针对每个作者,获取所述第一训练数据中所述作者对应的文章样本的质量分数;将对应的质量分数大于第一质量分数阈值的文章样本确定为优质文章;将对应的质量分数小于第二质量分数阈值的文章样本确定为低质文章;根据所述优质文章的数量和所述低质文章的数量,确定所述作者的优质率或者低质率。本专利技术实施例的文章内容深度的评估装置,通过获取待评估的文章;将文章输入预设的深度打分模型,以使深度打分模型对文章中的每个段落进行切词以及关键词提取,获取每个关键词对应本文档来自技高网...

【技术保护点】
1.一种文章内容深度的评估方法,其特征在于,包括:获取待评估的文章;将所述文章输入预设的深度打分模型,以使所述深度打分模型对所述文章中的每个段落进行切词以及关键词提取,获取每个关键词对应的向量,根据每个段落中关键词对应的向量确定每个段落对应的向量,根据每个段落对应的向量确定所述文章对应的向量以及内容深度;获取所述深度打分模型输出的内容深度。

【技术特征摘要】
1.一种文章内容深度的评估方法,其特征在于,包括:获取待评估的文章;将所述文章输入预设的深度打分模型,以使所述深度打分模型对所述文章中的每个段落进行切词以及关键词提取,获取每个关键词对应的向量,根据每个段落中关键词对应的向量确定每个段落对应的向量,根据每个段落对应的向量确定所述文章对应的向量以及内容深度;获取所述深度打分模型输出的内容深度。2.根据权利要求1所述的方法,其特征在于,所述深度打分模型的结构为,词向量模型+卷积池化模型+双向长短期记忆网络模型+分类模型;所述词向量模型,用于对所述文章中的每个段落进行切词以及关键词提取,获取每个关键词对应的向量;所述卷积池化模型,用于根据每个段落中关键词对应的向量确定每个段落对应的向量;所述双向长短期记忆网络模型,用于根据每个段落对应的向量确定所述文章对应的向量;所述分类模型,用于根据所述文章对应的向量确定所述文章的内容深度。3.根据权利要求1所述的方法,其特征在于,所述获取待评估的文章之前,还包括:获取训练样本,所述训练样本中包括:字数大于预设字数阈值,且用户阅读次数大于预设次数阈值的文章样本;针对所述训练样本中的每篇文章样本,获取所述文章样本对应的用户反馈数据;根据所述用户反馈数据,计算确定所述文章样本对应的质量分数;根据所述训练样本中的每篇文章样本以及对应的质量分数,生成第一训练数据;根据所述第一训练数据对初始深度打分模型进行训练,得到所述深度打分模型。4.根据权利要求3所述的方法,其特征在于,所述用户反馈数据包括以下数据中的任意一个或者多个:文章平均停留时长、秒退百分比、用户额外阅读时长、点赞数、踩数、点赞数占比、踩数占比、收藏数、收藏数占比、分享数、分享数占比。5.根据权利要求3所述的方法,其特征在于,所述根据所述第一训练数据对初始深度打分模型进行训练,得到所述深度打分模型之后,还包括:获取所述第一训练数据中各篇文章样本对应的作者;针对每个作者,根据所述第一训练数据中所述作者的文章样本对应的质量分数,确定所述作者的优质率或者低质率;根据所述作者的优质率或者低质率,确定所述作者是否为优质作者;获取所述第一训练数据中每个优质作者对应的文章样本的内容深度;根据所述第一训练数据中每个优质作者对应的文章样本的内容深度,生成第二训练数据;根据所述第二训练数据对所述深度打分模型进行训练。6.根据权利要求5所述的方法,其特征在于,所述针对每个作者,根据所述第一训练数据中所述作者的文章样本对应的质量分数,确定所述作者的优质率或者低质率,包括:针对每个作者,获取所述第一训练数据中所述作者对应的文章样本的质量分数;将对应的质量分数大于第一质量分数阈值的文章样本确定为优质文章;将对应的质量分数小于第二质量分数阈值的文章样本确定为低质文章;根据所述优质文章的数量和所述低质文章的数量,确定所述作者的优质率或者低质率。7.一种文章内容深度的评估装置,其特征在于,包括:获取模块,用于获取待评估的文章;输入模块,用于将所述文章输入预设的深度打分模型,以使所述深度打分模型对所述文章中的每个段落进行切词以及关键词提取,获取每个关键词对应的向量,根据每个段落中关键词对应的向量确定每个段落对应的向量,根据每个段落...

【专利技术属性】
技术研发人员:袁德璋何径舟付志宏杨宇鸿赖佳伟陈笑张小彬
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1