用于检测文本的方法和装置制造方法及图纸

技术编号：17363634 阅读：43 留言：0更新日期：2018-02-28 13:40

本申请公开了用于检测文本的方法和装置。所述方法的一具体实施方式包括：获取已检测的有效文本和已检测的无效文本；利用获取的有效文本和无效文本训练分类算法模型，得到训练后的文本分类模型；获取用户通过用户终端发送的待检测文本；利用所述文本分类模型检测所述待检测文本，确定所述待检测文本的分类，所述分类包括有效文本、无效文本。该实施方式能够对包括大量文字的段落进行检测，提高了对无效样本的识别率，从而提高了市场调研的准确度和速度。

Methods and devices used to detect text

The present application discloses a method and device for detecting text. Including a specific embodiment of the method: invalid access to effective text detection and text has been detected; the valid and invalid text text classification algorithm training model, get text classification model after training; access to the user by sending the user terminal to be detected by the text; text classification model to detect the the detection of text, text detection to determine the classification, the classification include text, invalid text. The implementation method can detect paragraphs including a large number of texts, improve the recognition rate of invalid samples, and improve the accuracy and speed of market research.

全部详细技术资料下载

【技术实现步骤摘要】
用于检测文本的方法和装置
本申请涉及数据分析
，具体涉及互联网数据分析
，尤其涉及一种用于检测文本的方法和装置。
技术介绍
随着网络的不断发展，在线调研成为一种新的市场调研方式，其具有问卷回收快、成本低、成功率高的特点。但在回收问卷时，有些用户为了节约时间等原因，在回答问卷上的问题时随意乱答或随意填写问卷，导致回收的问卷中有一部分无效的问卷。现有的文本检测方法通常是在问卷中插入“地雷题”，即插入答案简单明了的选择题，如果“地雷题”的答案错误，则认为此问卷为无效问卷。这种方法虽然能在一定程度上识别出无效问卷，但不能对问卷中的需要填写大量文字的问题进行识别，造成无效文本识别率低的现象。
技术实现思路
本申请的目的在于提出一种用于检测文本的方法和装置，来解决以上
技术介绍
部分提到的技术问题。第一方面，本申请提供了一种用于检测文本的方法，所述方法包括：获取已检测的有效文本和已检测的无效文本；利用获取的有效文本和无效文本训练分类算法模型，得到训练后的文本分类模型；获取用户通过用户终端发送的待检测文本；利用所述文本分类模型检测所述待检测文本，确定所述待检测文本的分类，所...
用于检测文本的方法和装置

【技术保护点】
一种用于检测文本的方法，其特征在于，所述方法包括：获取已检测的有效文本和已检测的无效文本；利用获取的有效文本和无效文本训练分类算法模型，得到训练后的文本分类模型；获取用户通过用户终端发送的待检测文本；利用所述文本分类模型检测所述待检测文本，确定所述待检测文本的分类，所述分类包括有效文本、无效文本。

【技术特征摘要】
1.一种用于检测文本的方法，其特征在于，所述方法包括：获取已检测的有效文本和已检测的无效文本；利用获取的有效文本和无效文本训练分类算法模型，得到训练后的文本分类模型；获取用户通过用户终端发送的待检测文本；利用所述文本分类模型检测所述待检测文本，确定所述待检测文本的分类，所述分类包括有效文本、无效文本。2.根据权利要求1所述的方法，其特征在于，所述待检测文本包括：所述用户的标识、选项答案、段落；以及在所述利用所述文本分类模型检测所述待检测文本之前，所述方法还包括：检测以下至少一项是否满足：预设的用户标识列表中包含所述用户的标识、所述选项答案中的第预设值处的选项答案与预设的选项答案不符；响应于以上任意一项满足，确定所述待检测文本为无效文本。3.根据权利要求2所述的方法，其特征在于，所述方法还包括：响应于以上均不满足，将所述文本分类模型确定的有效文本作为二次检测文本；对所述二次检测文本的段落进行分词处理，确定得到的词序列中单字所占的比例；当所述单字所占的比例大于预设阈值时，确定所述二次检测文本为无效文本。4.根据权利要求3所述的方法，其特征在于，所述对所述二次检测文本的段落进行分词处理，确定得到的词序列中单字所占的比例，包括：对所述二次检测文本的段落进行分词处理，得到词序列；确定所述词序列中词的数量以及单字的数量；将所述单字的数量与所述词的数量的比值作为所述单字所占的比例。5.根据权利要求3或4所述的方法，其特征在于，所述方法还包括：当所述单字所占的比例小于或等于所述预设阈值时，确定所述二次检测文本为有效文本。6.根据权利要求2-4任一项所述的方法，其特征在于，所述方法还包括：检测确定的无效文本中用户的标识是否位于所述预设的用户标识列表中；响应于确定的无效文本中用户的标识不位于所述预设的用户标识列表中，将所述确定的无效文本中用户的标识加入所述预设的用户标识列表中。7.根据权利要求2-4任一项所述的方法，其特征在于，所述利用获取的有效文本和无效文本训练分类算法模型，包括：将获取的有效文本中的至少一个段落作为有效语料；将获取的无效文本中的至少一个段落作为无效语料；利用所述有效语料和所述无效语料训练所述分类算法模型。8.根据权利要求5所述的方法，其特征在于，所述方法还包括：存储或输出确定的有效文本及确定的无效文本。9.一种用于检测文本的装置，其特征在于，所述装置包括：第一获取单元，用于获取已检测的有效文本和已检测的无效文本；训...

【专利技术属性】
技术研发人员：潘小光，
申请(专利权)人：北京京东尚科信息技术有限公司，北京京东世纪贸易有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人