一种文本质量检测方法技术

技术编号:21686415 阅读:19 留言:0更新日期:2019-07-24 14:45
本申请提供了一种文本质量检测方法,将获取待检测的文本序列切分为不同的文本片段分别在预先训练的文本质量检测模型中进行检测,并利用预设算法计算所述不同文本片段的质量评分的综合值,将计算结果确定为所述待检测文本序列的质量检测结果,从而解决不同长度文本质量评分标准化问题。

A Text Quality Detection Method

【技术实现步骤摘要】
一种文本质量检测方法
本说明书涉及互联网
,尤其涉及一种文本质量检测方法。
技术介绍
随着各类网上社区的发展,每天都会生成大量的文章和评论数据,用户可以通过各种评论数据获取信息,进行交互。与此同时,也会产生大量低质量的内容,例如重复文本,乱码文本,广告变种文本等等,这些低质量的文本内容既影响用户体验,也增加平台风险。面对海量的数据,仅仅依靠人工难以高效的筛选出高质量的对用户有价值的信息,传统方案通常引入RNN(循环神经网络,RecurrentNeuralNetwork)模型进行文本识别,RNN模型通过待检测文本在低质量文本中的出现概率判断待检测文本的质量评分。但在实际文本预测过程,由于算法自身特点,通过模型计算长句获得的概率往往低于短句。这让不同长度之间的句子获取的质量分标准不够统一,使得识别结果在一定程度上偏离客观情况。
技术实现思路
针对上述技术问题,本说明书实施例提供一种文本质量检测方法,技术方案如下:根据本说明书实施例的第一方面,提供一种文本质量检测方法,该方法包括:获取待检测的文本序列;将所述文本序列通过固定长度的滑动窗口处理为若干文本片段,其中,滑动窗口每次移动预定义长度,将每次移动后滑动窗口内的文本内容确定为一个文本片段;将所获得的若干文本片段输入预先训练的文本质量检测模型,根据输出结果确定所述若干文本片段的预测损失值,根据所述预测损失值确定对应文本片段的质量评分,其中,所述预先训练的文本质量检测模型为通过已确定质量的文本序列样本训练的RNN模型;根据本说明书实施例的第二方面,提供一种文本质量检测装置,该装置包括:文本获取模块:用于获取待检测的文本序列;文本处理模块:用于将所述文本序列通过固定长度的滑动窗口处理为若干文本片段,其中,滑动窗口每次移动预定义长度,将每次移动后滑动窗口内的文本内容确定为一个文本片段;文本检测模块:用于将所获得的若干文本片段输入预先训练的文本质量检测模型,根据输出结果确定所述若干文本片段的预测损失值,根据所述预测损失值确定对应文本片段的质量评分,其中,所述预先训练的文本质量检测模型为通过已确定质量的文本序列样本训练的RNN模型;结果计算模块:用于利用预设算法计算所述不同文本片段的质量评分的综合值,将计算结果确定为所述待检测文本序列的质量检测结果。根据本说明书实施例的第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现一种文本质量检测方法,该方法包括:获取待检测的文本序列;将所述文本序列通过固定长度的滑动窗口处理为若干文本片段,其中,滑动窗口每次移动预定义长度,将每次移动后滑动窗口内的文本内容确定为一个文本片段;将所获得的若干文本片段输入预先训练的文本质量检测模型,根据输出结果确定所述若干文本片段的预测损失值,根据所述预测损失值确定对应文本片段的质量评分,其中,所述预先训练的文本质量检测模型为通过已确定质量的文本序列样本训练的RNN模型;利用预设算法计算所述不同文本片段的质量评分的综合值,将计算结果确定为所述待检测文本序列的质量检测结果。本说明书实施例所提供的技术方案,提供了一种文本质量检测方法,将获取待检测的文本序列切分为不同的文本片段分别在预先训练的文本质量检测模型中进行检测,并利用预设算法计算所述不同文本片段的质量评分的综合值,将计算结果确定为所述待检测文本序列的质量检测结果,从而解决不同长度文本质量评分标准化问题。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书实施例。此外,本说明书实施例中的任一实施例并不需要达到上述的全部效果。附图说明为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。图1是本说明书一示例性实施例示出的文本质量检测方法的一种流程图;图2是本说明书一示例性实施例示出的RNN模型的一种示意图;图3是本说明书一示例性实施例示出的RNN模型的另一种示意图;图4是本说明书一示例性实施例示出的RNN模型的另一种示意图;图5是本说明书一示例性实施例示出的文本质量检测模型训练方法的一种流程图;图6是本说明书一示例性实施例示出的文本质量检测装置的一种示意图;图7是本说明书一示例性实施例示出的文本质量检测模型训练装置的一种示意图;图8是本说明书一示例性实施例示出分布式架构的一种示意图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。随着各类网上社区的发展,每天都会生成大量的文章和评论数据,用户可以通过各种评论数据获取信息,进行交互。与此同时,也会产生大量低质量的内容,例如重复文本,乱码文本,广告变种文本等等,这些低质量的文本内容既影响用户体验,也增加平台风险。面对海量的数据,仅仅依靠人工难以高效的筛选出高质量的对用户有价值的信息,传统方案通常引入RNN(循环神经网络,RecurrentNeuralNetwork)模型进行文本识别,RNN模型通过待检测文本在低质量文本中的出现概率判断待检测文本的质量评分。但在实际文本预测过程,由于算法自身特点,通过模型计算长句获得的概率往往低于短句。这让不同长度之间的句子获取的质量分标准不够统一,使得识别结果在一定程度上偏离客观情况。针对以上问题,本说明书实施例提供一种文本质量检测方法,以及一种基于该文本质量检测方法的文本质量检测装置。具体地,该文本质量检测方法需要基于已训练好的RNN语言模型进行文本预测,首先对本申请涉及的RNN模型进行介绍:RNN是一种循环神经网络,RNN模型假设样例之间并不是独立的。例如要预测“上”这个字的下一个字是什么,那么在“上”之前出现过的字就很重要,如果之前出现过“工作”,那么很可能是在说“上班”;如果之前出前过“家乡”,那么很可能就是“上海”。RNN模型可学习样本带有时序的特征。RNN由输入层、隐层和输出层组成,RNN把前一时刻的隐层的值也作为一类feature,其中t-1时刻的隐层会作为下一个t时刻的本文档来自技高网...

【技术保护点】
1.一种文本质量检测方法,所述方法包括:获取待检测的文本序列;将所述文本序列通过固定长度的滑动窗口处理为若干文本片段,其中,滑动窗口每次移动预定义长度,将每次移动后滑动窗口内的文本内容确定为一个文本片段;将所获得的若干文本片段输入预先训练的文本质量检测模型,根据输出结果确定所述若干文本片段的预测损失值,根据所述预测损失值确定对应文本片段的质量评分,其中,所述预先训练的文本质量检测模型为通过已确定质量的文本序列样本训练的RNN模型;利用预设算法计算所述不同文本片段的质量评分的综合值,将计算结果确定为所述待检测文本序列的质量检测结果。

【技术特征摘要】
1.一种文本质量检测方法,所述方法包括:获取待检测的文本序列;将所述文本序列通过固定长度的滑动窗口处理为若干文本片段,其中,滑动窗口每次移动预定义长度,将每次移动后滑动窗口内的文本内容确定为一个文本片段;将所获得的若干文本片段输入预先训练的文本质量检测模型,根据输出结果确定所述若干文本片段的预测损失值,根据所述预测损失值确定对应文本片段的质量评分,其中,所述预先训练的文本质量检测模型为通过已确定质量的文本序列样本训练的RNN模型;利用预设算法计算所述不同文本片段的质量评分的综合值,将计算结果确定为所述待检测文本序列的质量检测结果。2.根据权利要求1所述的方法,所述利用预设算法计算所述不同文本片段的质量评分的综合值,将计算结果确定为所述待检测文本序列的质量检测结果,包括:计算所述不同文本片段的质量评分的平均值,将计算结果确定为所述待检测文本序列的质量检测结果。3.根据权利要求1所述的方法,所述根据输出结果确定所述若干文本片段的预测损失值,根据所述预测损失值确定对应文本片段的质量评分,包括:根据输出结果计算所述若干文本片段的交叉熵,将计算结果确定为对应文本片段的质量评分。4.根据权利要求1所述的方法,所述文本质量检测模型的训练方法,包括:批量获取已确定质量的文本序列样本,将不同样本进行语句首尾拼接;将拼接后的样本语句按照预定义的切分长度均匀切分为多个等长片段;将所述等长片段处理为词向量,将每个词向量作为一个训练数据输入RNN模型,以训练用于检测文本质量的语言模型。5.根据权利要求4所述的方法,所述将不同样本进行语句首尾拼接后,包括:在不同样本语句的拼接位置插入拼接标识。6.根据权利要求4所述的方法,所述将拼接后的样本语句按照预定义的切分长度均匀切分为多个等长片段,包括:将拼接后的样本语句按照预定义的切分长度均匀切分为多个等长片段,并丢弃切分后的最后一个小于预定义切分长度的片段。7.根据权利要求4所述的方法,所述将所述等长片段处理为词向量,包括:将所述等长片段使用Word2vec工具进行预训练,以获取对应的词向量。8.一种文本质量检测装置,所述装置包括:文本获取模块:用于获取待检测的文本序列;文本处理模块:用于将所述文本序列通过固定长度的滑动窗口处理为若干...

【专利技术属性】
技术研发人员:郭亚祝慧佳赵智源周书恒
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1