一种文本质量检测方法技术

技术编号：21686415 阅读：19 留言：0更新日期：2019-07-24 14:45

本申请提供了一种文本质量检测方法，将获取待检测的文本序列切分为不同的文本片段分别在预先训练的文本质量检测模型中进行检测，并利用预设算法计算所述不同文本片段的质量评分的综合值，将计算结果确定为所述待检测文本序列的质量检测结果，从而解决不同长度文本质量评分标准化问题。

A Text Quality Detection Method

全部详细技术资料下载

【技术实现步骤摘要】
一种文本质量检测方法
本说明书涉及互联网
，尤其涉及一种文本质量检测方法。
技术介绍
随着各类网上社区的发展，每天都会生成大量的文章和评论数据，用户可以通过各种评论数据获取信息，进行交互。与此同时，也会产生大量低质量的内容，例如重复文本，乱码文本，广告变种文本等等，这些低质量的文本内容既影响用户体验，也增加平台风险。面对海量的数据，仅仅依靠人工难以高效的筛选出高质量的对用户有价值的信息，传统方案通常引入RNN(循环神经网络，RecurrentNeuralNetwork)模型进行文本识别，RNN模型通过待检测文本在低质量文本中的出现概率判断待检测文本的质量评分。但在实际文本预测过程，由于算法自身特点，通过模型计算长句获得的概率往往低于短句。这让不同长度之间的句子获取的质量分标准不够统一，使得识别结果在一定程度上偏离客观情况。
技术实现思路
针对上述技术问题，本说明书实施例提供一种文本质量检测方法，技术方案如下：根据本说明书实施例的第一方面，提供一种文本质量检测方法，该方法包括：获取待检测的文本序列；将所述文本序列通过固定长度的滑动窗口处理为若干文本片段，其中，滑动窗口每次移动预定义长度，将每次移动后滑动窗口内的文本内容确定为一个文本片段；将所获得的若干文本片段输入预先训练的文本质量检测模型，根据输出结果确定所述若干文本片段的预测损失值，根据所述预测损失值确定对应文本片段的质量评分，其中，所述预先训练的文本质量检测模型为通过已确定质量的文本序列样本训练的RNN模型；根据本说明书实施例的第二方面，提供一种文本质量检测装置，该装置包括：文本获取模块：用于获取待检...

【技术保护点】
1.一种文本质量检测方法，所述方法包括：获取待检测的文本序列；将所述文本序列通过固定长度的滑动窗口处理为若干文本片段，其中，滑动窗口每次移动预定义长度，将每次移动后滑动窗口内的文本内容确定为一个文本片段；将所获得的若干文本片段输入预先训练的文本质量检测模型，根据输出结果确定所述若干文本片段的预测损失值，根据所述预测损失值确定对应文本片段的质量评分，其中，所述预先训练的文本质量检测模型为通过已确定质量的文本序列样本训练的RNN模型；利用预设算法计算所述不同文本片段的质量评分的综合值，将计算结果确定为所述待检测文本序列的质量检测结果。

【技术特征摘要】
1.一种文本质量检测方法，所述方法包括：获取待检测的文本序列；将所述文本序列通过固定长度的滑动窗口处理为若干文本片段，其中，滑动窗口每次移动预定义长度，将每次移动后滑动窗口内的文本内容确定为一个文本片段；将所获得的若干文本片段输入预先训练的文本质量检测模型，根据输出结果确定所述若干文本片段的预测损失值，根据所述预测损失值确定对应文本片段的质量评分，其中，所述预先训练的文本质量检测模型为通过已确定质量的文本序列样本训练的RNN模型；利用预设算法计算所述不同文本片段的质量评分的综合值，将计算结果确定为所述待检测文本序列的质量检测结果。2.根据权利要求1所述的方法，所述利用预设算法计算所述不同文本片段的质量评分的综合值，将计算结果确定为所述待检测文本序列的质量检测结果，包括：计算所述不同文本片段的质量评分的平均值，将计算结果确定为所述待检测文本序列的质量检测结果。3.根据权利要求1所述的方法，所述根据输出结果确定所述若干文本片段的预测损失值，根据所述预测损失值确定对应文本片段的质量评分，包括：根据输出结果计算所述若干文本片段的交叉熵，将计算结果确定为对应文本片段的质量评分。4.根据权利要求1所述的方法，所述文本质量检测模型的训练方法，包括：批量获取已确定质量的文本序列样本，将不同样本进行语句首尾拼接；将拼接后的样本语句按照预定义的切分长度均匀切分为多个等长片段；将所述等长片段处理为词向量，将每个词向量作为一个训练数据输入RNN模型，以训练用于检测文本质量的语言模型。5.根据权利要求4所述的方法，所述将不同样本进行语句首尾拼接后，包括：在不同样本语句的拼接位置插入拼接标识。6.根据权利要求4所述的方法，所述将拼接后的样本语句按照预定义的切分长度均匀切分为多个等长片段，包括：将拼接后的样本语句按照预定义的切分长度均匀切分为多个等长片段，并丢弃切分后的最后一个小于预定义切分长度的片段。7.根据权利要求4所述的方法，所述将所述等长片段处理为词向量，包括：将所述等长片段使用Word2vec工具进行预训练，以获取对应的词向量。8.一种文本质量检测装置，所述装置包括：文本获取模块：用于获取待检测的文本序列；文本处理模块：用于将所述文本序列通过固定长度的滑动窗口处理为若干...

【专利技术属性】
技术研发人员：郭亚，祝慧佳，赵智源，周书恒，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人