用于检测文本的方法和装置制造方法及图纸

技术编号:17363634 阅读:36 留言:0更新日期:2018-02-28 13:40
本申请公开了用于检测文本的方法和装置。所述方法的一具体实施方式包括:获取已检测的有效文本和已检测的无效文本;利用获取的有效文本和无效文本训练分类算法模型,得到训练后的文本分类模型;获取用户通过用户终端发送的待检测文本;利用所述文本分类模型检测所述待检测文本,确定所述待检测文本的分类,所述分类包括有效文本、无效文本。该实施方式能够对包括大量文字的段落进行检测,提高了对无效样本的识别率,从而提高了市场调研的准确度和速度。

Methods and devices used to detect text

The present application discloses a method and device for detecting text. Including a specific embodiment of the method: invalid access to effective text detection and text has been detected; the valid and invalid text text classification algorithm training model, get text classification model after training; access to the user by sending the user terminal to be detected by the text; text classification model to detect the the detection of text, text detection to determine the classification, the classification include text, invalid text. The implementation method can detect paragraphs including a large number of texts, improve the recognition rate of invalid samples, and improve the accuracy and speed of market research.

【技术实现步骤摘要】
用于检测文本的方法和装置
本申请涉及数据分析
,具体涉及互联网数据分析
,尤其涉及一种用于检测文本的方法和装置。
技术介绍
随着网络的不断发展,在线调研成为一种新的市场调研方式,其具有问卷回收快、成本低、成功率高的特点。但在回收问卷时,有些用户为了节约时间等原因,在回答问卷上的问题时随意乱答或随意填写问卷,导致回收的问卷中有一部分无效的问卷。现有的文本检测方法通常是在问卷中插入“地雷题”,即插入答案简单明了的选择题,如果“地雷题”的答案错误,则认为此问卷为无效问卷。这种方法虽然能在一定程度上识别出无效问卷,但不能对问卷中的需要填写大量文字的问题进行识别,造成无效文本识别率低的现象。
技术实现思路
本申请的目的在于提出一种用于检测文本的方法和装置,来解决以上
技术介绍
部分提到的技术问题。第一方面,本申请提供了一种用于检测文本的方法,所述方法包括:获取已检测的有效文本和已检测的无效文本;利用获取的有效文本和无效文本训练分类算法模型,得到训练后的文本分类模型;获取用户通过用户终端发送的待检测文本;利用所述文本分类模型检测所述待检测文本,确定所述待检测文本的分类,所述分类包括有效文本、无效文本。在一些实施例中,所述待检测文本包括:所述用户的标识、选项答案、段落;以及在所述利用所述文本分类模型检测所述待检测文本之前,所述方法还包括:检测以下至少一项是否满足:预设的用户标识列表中包含所述用户的标识、所述选项答案中的第预设值处的选项答案与预设的选项答案不符;响应于以上任意一项满足,确定所述待检测文本为无效文本。在一些实施例中,所述方法还包括:响应于以上均不满足,将所述文本分类模型确定的有效文本作为二次检测文本;对所述二次检测文本的段落进行分词处理,确定得到的词序列中单字所占的比例;当所述单字所占的比例大于预设阈值时,确定所述二次检测文本为无效文本。在一些实施例中,所述对所述二次检测文本的段落进行分词处理,确定得到的词序列中单字所占的比例,包括:对所述二次检测文本的段落进行分词处理,得到词序列;确定所述词序列中词的数量以及单字的数量;将所述单字的数量与所述词的数量的比值作为所述单字所占的比例。在一些实施例中,所述方法还包括:当所述单字所占的比例小于或等于所述预设阈值时,确定所述二次检测文本为有效文本。在一些实施例中,所述方法还包括:检测确定的无效文本中用户的标识是否位于所述预设的用户标识列表中;响应于确定的无效文本中用户的标识不位于所述预设的用户标识列表中,将所述确定的无效文本中用户的标识加入所述预设的用户标识列表中。在一些实施例中,所述利用获取的有效文本和无效文本训练分类算法模型,包括:将获取的有效文本中的至少一个段落作为有效语料;将获取的无效文本中的至少一个段落作为无效语料;利用所述有效语料和所述无效语料训练所述分类算法模型。在一些实施例中,所述方法还包括:存储或输出确定的有效文本及确定的无效文本。第二方面,本申请提供了一种用于检测文本的装置,所述装置包括:第一获取单元,用于获取已检测的有效文本和已检测的无效文本;训练单元,用于利用获取的有效文本和无效文本训练分类算法模型,得到训练后的文本分类模型;第二获取单元,用于获取用户通过用户终端发送的待检测文本;第一检测单元,用于利用所述文本分类模型检测所述待检测文本,确定所述待检测文本的分类,所述分类包括有效文本、无效文本。在一些实施例中,所述待检测文本包括:所述用户的标识、选项答案、段落;以及所述装置还包括:第二检测单元,用于在所述第一检测单元利用所述文本分类模型检测所述待检测文本之前,检测以下至少一项是否满足:预设的用户标识列表中包含所述用户的标识、所述选项答案中的第预设值处的选项答案与预设的选项答案不符;第一无效确定单元,用于响应于以上任意一项满足,确定所述待检测文本为无效文本。在一些实施例中,所述装置还包括:二次检测单元,用于响应于以上均不满足,将所述文本分类模型确定的有效文本作为二次检测文本;分词单元,用于对所述二次检测文本的段落进行分词处理,确定得到的词序列中单字所占的比例;第二无效确定单元,用于当所述单字所占的比例大于预设阈值时,确定所述二次检测文本为无效文本。在一些实施例中,所述分词单元包括:分词模块,用于对所述二次检测文本的段落进行分词处理,得到词序列;数量确定模块,用于确定所述词序列中词的数量以及单字的数量;比例确定模块,用于将所述单字的数量与所述词的数量的比值作为所述单字所占的比例。在一些实施例中,所述装置还包括:有效确定单元,用于当所述单字所占的比例小于或等于所述预设阈值时,确定所述二次检测文本为有效文本。在一些实施例中,所述装置还包括:第三检测单元,用于检测确定的无效文本中用户的标识是否位于所述预设的用户标识列表中;标识加入单元,用于响应于确定的无效文本中用户的标识不位于所述预设的用户标识列表中,将所述确定的无效文本中用户的标识加入所述预设的用户标识列表中。在一些实施例中,所述训练单元进一步用于:将获取的有效文本中的至少一个段落作为有效语料;将获取的无效文本中的至少一个段落作为无效语料;利用所述有效语料和所述无效语料训练所述分类算法模型。在一些实施例中,所述装置还包括:处理单元,用于存储或输出确定的有效文本及确定的无效文本。本申请提供的用于检测文本的方法和装置,通过已检测的有效文本和无效文本,训练分类算法模型,得到文本分类模型,并利用上述文本分类模型对用户发送的待检测文本进行检测,确定上述待检测文本是有效样本还是无效样本,能够对包括大量文字的段落进行检测,提高了对无效样本的识别率,从而提高了市场调研的准确度和速度。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请可以应用于其中的示例性系统架构图;图2是根据本申请的用于检测文本的方法的一个实施例的流程图;图3是根据本申请的用于检测文本的方法的一个应用场景的示意图;图4是根据本申请的用于检测文本的方法的又一个实施例的流程图;图5是根据本申请的用于检测文本的装置的一个实施例的结构示意图;图6是根据本申请的用于检测文本的装置的又一个实施例的结构示意图;图7是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请的用于检测文本的方法或用于检测文本的装置的实施例的示例性系统架构100。如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有本文档来自技高网...
用于检测文本的方法和装置

【技术保护点】
一种用于检测文本的方法,其特征在于,所述方法包括:获取已检测的有效文本和已检测的无效文本;利用获取的有效文本和无效文本训练分类算法模型,得到训练后的文本分类模型;获取用户通过用户终端发送的待检测文本;利用所述文本分类模型检测所述待检测文本,确定所述待检测文本的分类,所述分类包括有效文本、无效文本。

【技术特征摘要】
1.一种用于检测文本的方法,其特征在于,所述方法包括:获取已检测的有效文本和已检测的无效文本;利用获取的有效文本和无效文本训练分类算法模型,得到训练后的文本分类模型;获取用户通过用户终端发送的待检测文本;利用所述文本分类模型检测所述待检测文本,确定所述待检测文本的分类,所述分类包括有效文本、无效文本。2.根据权利要求1所述的方法,其特征在于,所述待检测文本包括:所述用户的标识、选项答案、段落;以及在所述利用所述文本分类模型检测所述待检测文本之前,所述方法还包括:检测以下至少一项是否满足:预设的用户标识列表中包含所述用户的标识、所述选项答案中的第预设值处的选项答案与预设的选项答案不符;响应于以上任意一项满足,确定所述待检测文本为无效文本。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:响应于以上均不满足,将所述文本分类模型确定的有效文本作为二次检测文本;对所述二次检测文本的段落进行分词处理,确定得到的词序列中单字所占的比例;当所述单字所占的比例大于预设阈值时,确定所述二次检测文本为无效文本。4.根据权利要求3所述的方法,其特征在于,所述对所述二次检测文本的段落进行分词处理,确定得到的词序列中单字所占的比例,包括:对所述二次检测文本的段落进行分词处理,得到词序列;确定所述词序列中词的数量以及单字的数量;将所述单字的数量与所述词的数量的比值作为所述单字所占的比例。5.根据权利要求3或4所述的方法,其特征在于,所述方法还包括:当所述单字所占的比例小于或等于所述预设阈值时,确定所述二次检测文本为有效文本。6.根据权利要求2-4任一项所述的方法,其特征在于,所述方法还包括:检测确定的无效文本中用户的标识是否位于所述预设的用户标识列表中;响应于确定的无效文本中用户的标识不位于所述预设的用户标识列表中,将所述确定的无效文本中用户的标识加入所述预设的用户标识列表中。7.根据权利要求2-4任一项所述的方法,其特征在于,所述利用获取的有效文本和无效文本训练分类算法模型,包括:将获取的有效文本中的至少一个段落作为有效语料;将获取的无效文本中的至少一个段落作为无效语料;利用所述有效语料和所述无效语料训练所述分类算法模型。8.根据权利要求5所述的方法,其特征在于,所述方法还包括:存储或输出确定的有效文本及确定的无效文本。9.一种用于检测文本的装置,其特征在于,所述装置包括:第一获取单元,用于获取已检测的有效文本和已检测的无效文本;训...

【专利技术属性】
技术研发人员:潘小光
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1