文章内容深度的评估方法及装置制造方法及图纸

技术编号：21034603 阅读：22 留言：0更新日期：2019-05-04 05:32

本发明专利技术提出一种文章内容深度的评估方法及装置，其中方法包括：获取待评估的文章；将文章输入预设的深度打分模型，以使深度打分模型对文章中的每个段落进行切词以及关键词提取，获取每个关键词对应的向量，根据每个段落中关键词对应的向量确定每个段落对应的向量，根据每个段落对应的向量确定文章对应的向量以及内容深度；获取深度打分模型输出的内容深度，从而能够根据文章的内容对文章进行内容深度打分，提高了文章打分的准确度，提高了文章推荐效率。

全部详细技术资料下载

【技术实现步骤摘要】
文章内容深度的评估方法及装置
本专利技术涉及数据处理
，尤其涉及一种文章内容深度的评估方法及装置。
技术介绍
目前，搜索引擎以及feed应用等向用户推荐文章时，主要考虑以下两个因素：一是文章与用户需求、用户兴趣的匹配程度；二是文章本身的质量优劣。目前，针对文章本身的质量优劣，主要是基于先验信息对文章进行打分。其中，先验信息例如文章的排版、丰富度、权威性等，不涉及文章的内容，从而降低了文章打分的准确度，降低了文章推荐效率。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本专利技术的第一个目的在于提出一种文章内容深度的评估方法，用于解决现有技术中文章质量打分准确度低，导致文章推荐效率差的问题。本专利技术的第二个目的在于提出一种文章内容深度的评估装置。本专利技术的第三个目的在于提出另一种文章内容深度的评估装置。本专利技术的第四个目的在于提出一种非临时性计算机可读存储介质。本专利技术的第五个目的在于提出一种计算机程序产品。为达上述目的，本专利技术第一方面实施例提出了一种文章内容深度的评估方法，包括：获取待评估的文章；将所述文章输入预设的深度打分模型，以使所述深度打分模型对所述文章中的每个段落进行切词以及关键词提取，获取每个关键词对应的向量，根据每个段落中关键词对应的向量确定每个段落对应的向量，根据每个段落对应的向量确定所述文章对应的向量以及内容深度；获取所述深度打分模型输出的内容深度。进一步的，所述深度打分模型的结构为，词向量模型+卷积池化模型+双向长短期记忆网络模型+分类模型；所述词向量模型，用于对所述文章中的每个段落进行切词...

【技术保护点】
1.一种文章内容深度的评估方法，其特征在于，包括：获取待评估的文章；将所述文章输入预设的深度打分模型，以使所述深度打分模型对所述文章中的每个段落进行切词以及关键词提取，获取每个关键词对应的向量，根据每个段落中关键词对应的向量确定每个段落对应的向量，根据每个段落对应的向量确定所述文章对应的向量以及内容深度；获取所述深度打分模型输出的内容深度。

【技术特征摘要】
1.一种文章内容深度的评估方法，其特征在于，包括：获取待评估的文章；将所述文章输入预设的深度打分模型，以使所述深度打分模型对所述文章中的每个段落进行切词以及关键词提取，获取每个关键词对应的向量，根据每个段落中关键词对应的向量确定每个段落对应的向量，根据每个段落对应的向量确定所述文章对应的向量以及内容深度；获取所述深度打分模型输出的内容深度。2.根据权利要求1所述的方法，其特征在于，所述深度打分模型的结构为，词向量模型+卷积池化模型+双向长短期记忆网络模型+分类模型；所述词向量模型，用于对所述文章中的每个段落进行切词以及关键词提取，获取每个关键词对应的向量；所述卷积池化模型，用于根据每个段落中关键词对应的向量确定每个段落对应的向量；所述双向长短期记忆网络模型，用于根据每个段落对应的向量确定所述文章对应的向量；所述分类模型，用于根据所述文章对应的向量确定所述文章的内容深度。3.根据权利要求1所述的方法，其特征在于，所述获取待评估的文章之前，还包括：获取训练样本，所述训练样本中包括：字数大于预设字数阈值，且用户阅读次数大于预设次数阈值的文章样本；针对所述训练样本中的每篇文章样本，获取所述文章样本对应的用户反馈数据；根据所述用户反馈数据，计算确定所述文章样本对应的质量分数；根据所述训练样本中的每篇文章样本以及对应的质量分数，生成第一训练数据；根据所述第一训练数据对初始深度打分模型进行训练，得到所述深度打分模型。4.根据权利要求3所述的方法，其特征在于，所述用户反馈数据包括以下数据中的任意一个或者多个：文章平均停留时长、秒退百分比、用户额外阅读时长、点赞数、踩数、点赞数占比、踩数占比、收藏数、收藏数占比、分享数、分享数占比。5.根据权利要求3所述的方法，其特征在于，所述根据所述第一训练数据对初始深度打分模型进行训练，得到所述深度打分模型之后，还包括：获取所述第一训练数据中各篇文章样本对应的作者；针对每个作者，根据所述第一训练数据中所述作者的文章样本对应的质量分数，确定所述作者的优质率或者低质率；根据所述作者的优质率或者低质率，确定所述作者是否为优质作者；获取所述第一训练数据中每个优质作者对应的文章样本的内容深度；根据所述第一训练数据中每个优质作者对应的文章样本的内容深度，生成第二训练数据；根据所述第二训练数据对所述深度打分模型进行训练。6.根据权利要求5所述的方法，其特征在于，所述针对每个作者，根据所述第一训练数据中所述作者的文章样本对应的质量分数，确定所述作者的优质率或者低质率，包括：针对每个作者，获取所述第一训练数据中所述作者对应的文章样本的质量分数；将对应的质量分数大于第一质量分数阈值的文章样本确定为优质文章；将对应的质量分数小于第二质量分数阈值的文章样本确定为低质文章；根据所述优质文章的数量和所述低质文章的数量，确定所述作者的优质率或者低质率。7.一种文章内容深度的评估装置，其特征在于，包括：获取模块，用于获取待评估的文章；输入模块，用于将所述文章输入预设的深度打分模型，以使所述深度打分模型对所述文章中的每个段落进行切词以及关键词提取，获取每个关键词对应的向量，根据每个段落中关键词对应的向量确定每个段落对应的向量，根据每个段落...

【专利技术属性】
技术研发人员：袁德璋，何径舟，付志宏，杨宇鸿，赖佳伟，陈笑，张小彬，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人