文章质量检测方法和装置制造方法及图纸

技术编号:21952809 阅读:18 留言:0更新日期:2019-08-24 17:51
本发明专利技术提出一种文章质量检测方法和装置,其中,方法包括:提取待检测文章在目标结构部分的内容;将内容输入与目标结构部分对应的分类模型,获取文章分类模型输出的文章类型;根据文章类型生成对待检测文章的质量检测结果。由此,结合文章类型的识别进行文章的质量检测,提高了文章质量检测的准确性。

Article Quality Detection Method and Device

【技术实现步骤摘要】
文章质量检测方法和装置
本专利技术涉及信息处理
,尤其涉及一种文章质量检测方法和装置。
技术介绍
随着计算机技术的发展,各种网络上的文章越来越多,因此,为了提高信息的有用性,基于文章的质量对文章进行管理成为主流。相关技术中,通过特征工程抽取一些文章的特征,如文章的字数,图片数量,中英文字数占比,文章的话题分布,段落数等。把这些特征组成成一个特征向量,输入到分类器(如随机森林、神经网络等)中做分类,最后得到的类别就是文章的质量打分评估。然而,分类器的性能和泛化性很大程度上取决于特征抽取工作的好坏。在文章的质量评估中,抽取的特征很多不具有普适性,即针对不同的文章类型,特征起到的正负向作用可能不尽相同。比如,对于一篇介绍动漫的文章来说,起到正向作用的特征应当是图片特征,对于一篇科研文章,起到正向作用的特征应当是数据特征,因此,基于分类器提取同样的文章特征会导致文章质量的评价不准确。
技术实现思路
本专利技术旨在至少在一定程度上解决上述技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种文章质量检测方法,以结合文章类型的识别进行文章的质量检测,提高了文章质量检测的准确性。本专利技术的第二个目的在于提出一种文章质量检测装置。本专利技术的第三个目的在于提出一种计算机设备。本专利技术的第四个目的在于提出一种计算机可读存储介质。为达上述目的,本专利技术第一方面实施例提出了一种文章质量检测方法,包括:提取待检测文章在目标结构部分的内容;将所述内容输入与所述目标结构部分对应的分类模型,获取所述文章分类模型输出的文章类型;根据所述文章类型生成对所述待检测文章的质量检测结果。另外,本专利技术实施例的文章质量检测方法,还具有如下附加的技术特征:可选地,当所述目标结构部分包含标题部分时,所述将所述内容输入与所述目标结构部分对应的分类模型,获取所述文章分类模型输出的文章类型,包括:将所述待检测文章的标题输入第一分类模型,以使所述第一分类模型通过所述标题提取标题向量并根据所述标题向量生成并输出所述文章类型。可选地,当所述目标结构部分包含主体内容部分时,所述将所述内容输入与所述目标结构部分对应的分类模型,获取所述文章分类模型输出的文章类型,包括:将所述待检测文章的主体内容输入第二分类模型,以使所述第二分类模型提取所述主体内容多个局部特征并将所述多个局部特征拼接后,将拼接后的多个局部特征输出池化层获取主体内容向量并根据所述主体内容向量生成并输出所述文章类型。可选地,在所述将所述内容输入与所述目标结构部分对应的分类模型之前,包括:根据文章主旨建立文章分类体系,其中,所述文章分类体系包括多个文章类型及与所述多个文章类型中每个文章类型对应的子类型;获取文章类型覆盖所述文章分类体系的训练文章样本;根据所述训练文章样本训练所述分类模型,直至所述分类模型输出的文章类型与输入的训练文章样本一致时,完成对所述分类模型的训练。可选地,所述获取文章类型覆盖所述文章分类体系的训练文章样本,包括:获取与所述文章分类体系中的文章类型对应的多个网站地址;根据所述多个网站地址确定与所述文章类型对应的训练文章样本。可选地,所述根据所述文章类型生成对所述待检测文章的质量检测结果,包括:获取与所述文章类型对应的第一质量评测模型;将所述待检测文章输入所述第一质量评测模型,获取所述质量检测结果。可选地,所述根据所述文章类型生成对所述待检测文章的质量检测结果,包括:将所述文章类型和所述待检测文章输入至第二质量评测模型,获取所述质量检测结果。本专利技术第二方面实施例提出了一种文章质量检测装置,包括:提取模块,用于提取待检测文章在目标结构部分的内容;第一获取模块,用于将所述内容输入与所述目标结构部分对应的分类模型,获取所述文章分类模型输出的文章类型;生成模块,用于根据所述文章类型生成对所述待检测文章的质量检测结果。另外,本专利技术实施例的文章质量检测装置,还具有如下附加的技术特征:可选地,还包括:建立模块,用于根据文章主旨建立文章分类体系,其中,所述文章分类体系包括多个文章类型及与所述多个文章类型中每个文章类型对应的子类型;第二获取模块,用于获取文章类型覆盖所述文章分类体系的训练文章样本;训练模块,用于根据所述训练文章样本训练所述分类模型,直至所述分类模型输出的文章类型与输入的训练文章样本一致时,完成对所述分类模型的训练。可选地,所述生成模块,具体用于:获取与所述文章类型对应的第一质量评测模型;将所述待检测文章输入所述第一质量评测模型,获取所述质量检测结果。可选地,所述生成模块,具体用于:将所述文章类型和所述待检测文章输入至第二质量评测模型,获取所述质量检测结果。本专利技术第三方面实施例提出了一种计算机设备,包括处理器和存储器;其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如第一方面实施例所述的文章质量检测方法。本专利技术第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面实施例所述的文章质量检测方法。本专利技术实施例提供的技术方案至少具有如下附加的技术特征:提取待检测文章在目标结构部分的内容,将内容输入与目标结构部分对应的分类模型,获取文章分类模型输出的文章类型,进而,根据文章类型生成对待检测文章的质量检测结果。由此,结合文章类型的识别进行文章的质量检测,提高了文章质量检测的准确性。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本专利技术实施例所提供的一种价值体系的示意图;图2是根据本专利技术一个实施例的分类模型的分类流程示意图;图3是根据本专利技术另一个实施例的分类模型的分类流程示意图;图4是根据本专利技术一个实施例的文章质量检测方法的流程图;图5为本专利技术实施例提供的一种文章质量检测装置的结构示意图;以及图6为本专利技术实施例提供的另一种文章质量检测装置的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面参考附图描述本专利技术实施例的文章质量检测方法和装置。针对上述
技术介绍
中提到的文章质量使用统一的特征进行评估,导致评估不准确的问题,本申请中考虑到文章质量的评估涉及的特征较为繁琐和复杂,且简单的特征抽取只能得到浅层的普适性的特征,而由于文本分类的效果取决于特征的质量,因此效果也受限于特征的质量和普适性上。在解决问题的过程中,可以注意到针对不同的文章类型,文章质量的评估标准存在显著的差异性。具体来说,相同的特征在不同的文章价值体系中起到的作用却不一定相同。举例来说,图片的存在增加了文章的可读性和趣味性,整体来说是一个正向的特征,然而在罗列类的文章中,大段模式重复和机械结构的内容反而会给文章带来负面的质量评估。因此,在本申请中,先对文章进行价值分类,把相同评判标准的类别先归类,再去做该分类下做文章的质量评估。具体而言,在本申请中,首先根据文章主旨建立文章分类体系,其中,本文档来自技高网
...

【技术保护点】
1.一种文章质量检测方法,其特征在于,包括以下步骤:提取待检测文章在目标结构部分的内容;将所述内容输入与所述目标结构部分对应的分类模型,获取所述文章分类模型输出的文章类型;根据所述文章类型生成对所述待检测文章的质量检测结果。

【技术特征摘要】
1.一种文章质量检测方法,其特征在于,包括以下步骤:提取待检测文章在目标结构部分的内容;将所述内容输入与所述目标结构部分对应的分类模型,获取所述文章分类模型输出的文章类型;根据所述文章类型生成对所述待检测文章的质量检测结果。2.如权利要求1所述的方法,其特征在于,当所述目标结构部分包含标题部分时,所述将所述内容输入与所述目标结构部分对应的分类模型,获取所述文章分类模型输出的文章类型,包括:将所述待检测文章的标题输入第一分类模型,以使所述第一分类模型通过所述标题提取标题向量并根据所述标题向量生成并输出所述文章类型。3.如权利要求1所述的方法,其特征在于,当所述目标结构部分包含主体内容部分时,所述将所述内容输入与所述目标结构部分对应的分类模型,获取所述文章分类模型输出的文章类型,包括:将所述待检测文章的主体内容输入第二分类模型,以使所述第二分类模型提取所述主体内容多个局部特征并将所述多个局部特征拼接后,将拼接后的多个局部特征输出池化层获取主体内容向量并根据所述主体内容向量生成并输出所述文章类型。4.如权利要求1所述的方法,其特征在于,在所述将所述内容输入与所述目标结构部分对应的分类模型之前,包括:根据文章主旨建立文章分类体系,其中,所述文章分类体系包括多个文章类型及与所述多个文章类型中每个文章类型对应的子类型;获取文章类型覆盖所述文章分类体系的训练文章样本;根据所述训练文章样本训练所述分类模型,直至所述分类模型输出的文章类型与输入的训练文章样本一致时,完成对所述分类模型的训练。5.如权利要求4所述的方法,其特征在于,所述获取文章类型覆盖所述文章分类体系的训练文章样本,包括:获取与所述文章分类体系中的文章类型对应的多个网站地址;根据所述多个网站地址确定与所述文章类型对应的训练文章样本。6.如权利要求1所述的方法,其特征在于,所述根据所述文章类型生成对所述待检测文章的质量检测结果...

【专利技术属性】
技术研发人员:张小彬付志宏杨宇鸿赖佳伟何径舟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1